登录    注册    忘记密码

期刊文章详细信息

基于DOM的网页主题信息自动提取  ( EI收录)  

DOM-Based Automatic Extraction of Topical Information from Web Pages

  

文献类型:期刊文章

作  者:王琦[1] 唐世渭[1] 杨冬青[2] 王腾蛟[2]

机构地区:[1]北京大学视觉与听觉信息处理国家重点实验室,北京100871 [2]北京大学计算机科学与技术系,北京100871

出  处:《计算机研究与发展》

基  金:国家"九七三"重点基础研究发展规划基金项目 (G19990 3 2 70 5 ) ;国家"八六三"高技术研究发展计划基金项目数据库管理系统及其应用重大专项课题 ( 2 0 0 2AA4Z3 440 )

年  份:2004

卷  号:41

期  号:10

起止页码:1786-1792

语  种:中文

收录情况:AJ、BDHX、BDHX2000、CSA-PROQEUST、CSCD、CSCD2011_2012、EI、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊

摘  要:Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中 ,使用户不能迅速获取主题信息 ,限制了Web的可用性 ,信息提取有助于解决这一问题 基于DOM规范 ,针对HTML的半结构化特征和缺乏语义描述的不足 ,提出含有语义信息的STU DOM树模型 将HTML文档转换为STU DOM树 ,并对其进行基于结构的过滤和基于语义的剪枝 ,能够准确地提取出主题信息 方法不依赖于信息源 ,而且不改变源网页的结构和内容 ,是一种自动、可靠和通用的方法 具有可观的应用价值 。

关 键 词:DOM 信息提取 分块 STU  STU树  STU-DOM树  相关度

分 类 号:TP311.13]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心