期刊文章详细信息

基于正文特征及网页结构的主题网页信息抽取
Content extraction of theme pages based on body feature and page structure

文献类型：期刊文章

作　　者：段晓丽[1] 王宇[1] 谷静[2] 刘玮楠[1]

机构地区：[1]大连理工大学管理科学与工程学院,辽宁大连116024 [2]中国环境管理干部学院经济学系,河北秦皇岛066004

出　　处：《计算机工程与应用》

基　　金：国家自然科学基金重大项目(No.70890080)子课题(70890083);教育部人文社科研究项目(No.09YJA870005)

年　　份：2012

卷　　号：48

期　　号：30

起止页码：151-156

语　　种：中文

收录情况：AJ、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、IC、INSPEC、JST、RCCSE、ZGKJHX、普通刊

摘　　要：Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法。在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息。实验证明,这种方法具有很好的准确率及召回率。

关键词：正文特征标签信息正文抽取

分类号：TP391]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

基于正文特征及网页结构的主题网页信息抽取
Content extraction of theme pages based on body feature and page structure

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

基于正文特征及网页结构的主题网页信息抽取 Content extraction of theme pages based on body feature and page structure

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

基于正文特征及网页结构的主题网页信息抽取
Content extraction of theme pages based on body feature and page structure