期刊文章详细信息

基于扩展DOM树的Web页面信息抽取
INFORMATION EXTRACTION FROM WEB PAGE BASED ON EXTENDED DOM TREE

文献类型：期刊文章

作　　者：王磊[1] 蒋建中[1] 郭军利[1]

机构地区：[1]解放军信息工程大学通信工程系,河南郑州450002

出　　处：《计算机应用与软件》

年　　份：2007

卷　　号：24

期　　号：6

起止页码：137-139

语　　种：中文

收录情况：BDHX、BDHX2004、CSA、CSA-PROQEUST、CSCD、CSCD_E2011_2012、IC、ZGKJHX、核心刊

摘　　要：随着Internet的发展,Web页面提供的信息量日益增长,信息的密集程度也不断增强。多数Web页面包含多个信息块,它们布局紧凑,在HTML语法上具有类似的模式。针对含有多信息块的Web页面,提出一种信息抽取的方法:首先创建扩展的DOM(Document ObjectModel)树,将页面抽取成离散的信息条;然后根据扩展DOM树的层次结构,并结合必要的视觉特性和语义信息对离散化的信息条重新整合;最后确定包含信息块的子树,深度遍历DOM树实现信息抽取。该算法能对多信息块的Web页面进行信息抽取。

关键词：DOM树信息抽取包装器半结构化

分类号：TP393.092]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

基于扩展DOM树的Web页面信息抽取
INFORMATION EXTRACTION FROM WEB PAGE BASED ON EXTENDED DOM TREE

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

基于扩展DOM树的Web页面信息抽取 INFORMATION EXTRACTION FROM WEB PAGE BASED ON EXTENDED DOM TREE

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

基于扩展DOM树的Web页面信息抽取
INFORMATION EXTRACTION FROM WEB PAGE BASED ON EXTENDED DOM TREE