期刊文章详细信息

一种新闻网页关键信息的提取算法
Key information extraction algorithm of news Web pages

文献类型：期刊文章

作　　者：向菁菁[1,2] 耿光刚[1] 李晓东[1]

机构地区：[1]中国互联网络信息中心,北京100190 [2]中国科学院大学计算机网络信息中心,北京100190

出　　处：《计算机应用》

基　　金：国家自然科学基金面上项目(61375039);中国科学院网络中心一三五重点项目(CNIC_PY_1402)~~

年　　份：2016

卷　　号：36

期　　号：8

起止页码：2082-2086

语　　种：中文

收录情况：AJ、BDHX、BDHX2014、CSA、CSA-PROQEUST、CSCD、CSCD_E2015_2016、IC、INSPEC、JST、RCCSE、ZGKJHX、ZMATH、核心刊

摘　　要：针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法news Extractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文,根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源;最后构造了数据集与国外开源软件news Paper进行提取准确率的对比实验。实验结果表明,news Extractor在正文、标题、时间、来源的平均提取准确率上均优于news Paper,具有通用性和鲁棒性。

关键词：网页信息提取新闻信息提取网页去噪

分类号：TP391]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

一种新闻网页关键信息的提取算法
Key information extraction algorithm of news Web pages

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

一种新闻网页关键信息的提取算法 Key information extraction algorithm of news Web pages

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

一种新闻网页关键信息的提取算法
Key information extraction algorithm of news Web pages