登录    注册    忘记密码

期刊文章详细信息

基于正文特征及网页结构的主题网页信息抽取    

Content extraction of theme pages based on body feature and page structure

  

文献类型:期刊文章

作  者:段晓丽[1] 王宇[1] 谷静[2] 刘玮楠[1]

机构地区:[1]大连理工大学管理科学与工程学院,辽宁大连116024 [2]中国环境管理干部学院经济学系,河北秦皇岛066004

出  处:《计算机工程与应用》

基  金:国家自然科学基金重大项目(No.70890080)子课题(70890083);教育部人文社科研究项目(No.09YJA870005)

年  份:2012

卷  号:48

期  号:30

起止页码:151-156

语  种:中文

收录情况:AJ、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、IC、INSPEC、JST、RCCSE、ZGKJHX、普通刊

摘  要:Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法。在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息。实验证明,这种方法具有很好的准确率及召回率。

关 键 词:正文特征  标签信息  正文抽取

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心