期刊文章详细信息

基于DOM的网页主题信息自动提取 ( EI收录)
DOM-Based Automatic Extraction of Topical Information from Web Pages

文献类型：期刊文章

作　　者：王琦[1] 唐世渭[1] 杨冬青[2] 王腾蛟[2]

机构地区：[1]北京大学视觉与听觉信息处理国家重点实验室,北京100871 [2]北京大学计算机科学与技术系,北京100871

出　　处：《计算机研究与发展》

基　　金：国家"九七三"重点基础研究发展规划基金项目 (G19990 3 2 70 5 ) ;国家"八六三"高技术研究发展计划基金项目数据库管理系统及其应用重大专项课题 ( 2 0 0 2AA4Z3 440 )

年　　份：2004

卷　　号：41

期　　号：10

起止页码：1786-1792

语　　种：中文

收录情况：AJ、BDHX、BDHX2000、CSA-PROQEUST、CSCD、CSCD2011_2012、EI、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊

摘　　要：Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中 ,使用户不能迅速获取主题信息 ,限制了Web的可用性 ,信息提取有助于解决这一问题基于DOM规范 ,针对HTML的半结构化特征和缺乏语义描述的不足 ,提出含有语义信息的STU DOM树模型将HTML文档转换为STU DOM树 ,并对其进行基于结构的过滤和基于语义的剪枝 ,能够准确地提取出主题信息方法不依赖于信息源 ,而且不改变源网页的结构和内容 ,是一种自动、可靠和通用的方法具有可观的应用价值。

关键词：DOM 信息提取分块 STU STU树 STU-DOM树相关度

分类号：TP311.13]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

基于DOM的网页主题信息自动提取 ( EI收录)
DOM-Based Automatic Extraction of Topical Information from Web Pages

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

基于DOM的网页主题信息自动提取 ( EI收录) DOM-Based Automatic Extraction of Topical Information from Web Pages

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

基于DOM的网页主题信息自动提取 ( EI收录)
DOM-Based Automatic Extraction of Topical Information from Web Pages