期刊文章详细信息

基于标签和分块特征的新闻网页关键信息自动抽取
Automatic extraction of key information for news web pages based on tag and block features

文献类型：期刊文章

作　　者：王雪梅[1] 陈兴蜀[1,2] 王海舟[2] 王文贤[3]

Xue-mei WANG;Xing-shu CHEN;Hai-zhou WANG;Wen-xian WANG(College of Software Engineering, Sichuan University, Chengdu 610065, Sichuan, China;College of Cybersecurity, Sichuan University, Chengdu 610065, Sichuan, China;Cybersecurity Research Institute, Sichuan University, Chengdu 610065, Sichuan, China)

机构地区：[1]四川大学计算机学院(软件学院),四川成都610065 [2]四川大学网络空间安全学院,四川成都610065 [3]四川大学网络空间安全研究院,四川成都610065

出　　处：《山东大学学报（理学版）》

基　　金：国家自然科学基金资助项目(61802270;61802271);国家"双创"示范基地之变革性技术国际研发转化平台资助项目(C700011);四川省重点研发项目资金资助(2018G20100);四川省科技支撑计划资金资助(2016GZ0038);中央高校基本科研业务费专项资金资助(2017SCU11065)

年　　份：2019

卷　　号：54

期　　号：3

起止页码：67-74

语　　种：中文

收录情况：BDHX、BDHX2017、CAS、CSA-PROQEUST、CSCD、CSCD2019_2020、IC、JST、MR、PROQUEST、RCCSE、RSC、ZGKJHX、ZMATH、核心刊

摘　　要：针对抽取新闻关键信息需要人工构造或训练生成模板的问题,提出了基于标签和分块特征的新闻关键信息自动抽取方法。该方法首先通过计算新闻网页相关特征来定位新闻正文标签块,然后通过编辑距离定位新闻标题标签块,最后根据正文块和标题块定位新闻发布时间和来源标签块,并通过抽取各块的文本获得目标新闻关键信息。在该方法的基础上提出了针对新闻站点的目标新闻自动抽取框架,并用该框架对10个新闻站点的30个新闻栏目进行了新闻抽取。对抽取到的1 597条新闻随机选择了1 000条进行了实验。实验结果表明,该方法对新闻标题、发布时间、来源、正文均表现出良好的抽取效果,且优于实验对比对象。

关键词：标签和分块特征新闻关键信息信息抽取新闻站点

分类号：TP391]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

基于标签和分块特征的新闻网页关键信息自动抽取
Automatic extraction of key information for news web pages based on tag and block features

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

基于标签和分块特征的新闻网页关键信息自动抽取 Automatic extraction of key information for news web pages based on tag and block features

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

基于标签和分块特征的新闻网页关键信息自动抽取
Automatic extraction of key information for news web pages based on tag and block features