登录    注册    忘记密码

期刊文章详细信息

基于扩展DOM树的Web页面信息抽取    

INFORMATION EXTRACTION FROM WEB PAGE BASED ON EXTENDED DOM TREE

  

文献类型:期刊文章

作  者:王磊[1] 蒋建中[1] 郭军利[1]

机构地区:[1]解放军信息工程大学通信工程系,河南郑州450002

出  处:《计算机应用与软件》

年  份:2007

卷  号:24

期  号:6

起止页码:137-139

语  种:中文

收录情况:BDHX、BDHX2004、CSA、CSA-PROQEUST、CSCD、CSCD_E2011_2012、IC、ZGKJHX、核心刊

摘  要:随着Internet的发展,Web页面提供的信息量日益增长,信息的密集程度也不断增强。多数Web页面包含多个信息块,它们布局紧凑,在HTML语法上具有类似的模式。针对含有多信息块的Web页面,提出一种信息抽取的方法:首先创建扩展的DOM(Document ObjectModel)树,将页面抽取成离散的信息条;然后根据扩展DOM树的层次结构,并结合必要的视觉特性和语义信息对离散化的信息条重新整合;最后确定包含信息块的子树,深度遍历DOM树实现信息抽取。该算法能对多信息块的Web页面进行信息抽取。

关 键 词:DOM树 信息抽取 包装器 半结构化

分 类 号:TP393.092]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心