登录    注册    忘记密码

期刊文章详细信息

基于标签和分块特征的新闻网页关键信息自动抽取    

Automatic extraction of key information for news web pages based on tag and block features

  

文献类型:期刊文章

作  者:王雪梅[1] 陈兴蜀[1,2] 王海舟[2] 王文贤[3]

Xue-mei WANG;Xing-shu CHEN;Hai-zhou WANG;Wen-xian WANG(College of Software Engineering, Sichuan University, Chengdu 610065, Sichuan, China;College of Cybersecurity, Sichuan University, Chengdu 610065, Sichuan, China;Cybersecurity Research Institute, Sichuan University, Chengdu 610065, Sichuan, China)

机构地区:[1]四川大学计算机学院(软件学院),四川成都610065 [2]四川大学网络空间安全学院,四川成都610065 [3]四川大学网络空间安全研究院,四川成都610065

出  处:《山东大学学报(理学版)》

基  金:国家自然科学基金资助项目(61802270;61802271);国家"双创"示范基地之变革性技术国际研发转化平台资助项目(C700011);四川省重点研发项目资金资助(2018G20100);四川省科技支撑计划资金资助(2016GZ0038);中央高校基本科研业务费专项资金资助(2017SCU11065)

年  份:2019

卷  号:54

期  号:3

起止页码:67-74

语  种:中文

收录情况:BDHX、BDHX2017、CAS、CSA-PROQEUST、CSCD、CSCD2019_2020、IC、JST、MR、PROQUEST、RCCSE、RSC、ZGKJHX、ZMATH、核心刊

摘  要:针对抽取新闻关键信息需要人工构造或训练生成模板的问题,提出了基于标签和分块特征的新闻关键信息自动抽取方法。该方法首先通过计算新闻网页相关特征来定位新闻正文标签块,然后通过编辑距离定位新闻标题标签块,最后根据正文块和标题块定位新闻发布时间和来源标签块,并通过抽取各块的文本获得目标新闻关键信息。在该方法的基础上提出了针对新闻站点的目标新闻自动抽取框架,并用该框架对10个新闻站点的30个新闻栏目进行了新闻抽取。对抽取到的1 597条新闻随机选择了1 000条进行了实验。实验结果表明,该方法对新闻标题、发布时间、来源、正文均表现出良好的抽取效果,且优于实验对比对象。

关 键 词:标签和分块特征  新闻关键信息  信息抽取 新闻站点  

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心