期刊文章详细信息
文献类型:期刊文章
机构地区:[1]大连理工大学管理科学与工程学院,辽宁大连116024 [2]中国环境管理干部学院经济学系,河北秦皇岛066004
基 金:国家自然科学基金重大项目(No.70890080)子课题(70890083);教育部人文社科研究项目(No.09YJA870005)
年 份:2012
卷 号:48
期 号:30
起止页码:151-156
语 种:中文
收录情况:AJ、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、IC、INSPEC、JST、RCCSE、ZGKJHX、普通刊
摘 要:Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法。在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息。实验证明,这种方法具有很好的准确率及召回率。
关 键 词:正文特征 标签信息 正文抽取
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...