登录    注册    忘记密码

期刊文章详细信息

结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究    

Automatic Abstracting of Chinese Document with Doc2Vec and Improved Clustering Algorithm

  

文献类型:期刊文章

作  者:贾晓婷[1] 王名扬[1] 曹宇[2]

Jia Xiaoting1 ,Wang Mingyang1, Cao Yu2(1College of Information and Computer Engineering, Northeast Forestry University, Harbin 150040, China;2Tongfang Knowledge Network, Beijing 100192, Chin)

机构地区:[1]东北林业大学信息与计算机工程学院,哈尔滨150040 [2]同方知网(北京)技术有限公司,北京100192

出  处:《数据分析与知识发现》

基  金:中央高校基本科研业务费专项资金项目"基于社会网络特征提取的群体性突发事件预警方法研究"(项目编号:2572014DB05);国家自然科学基金项目"群体性突发事件预警的超网络方法研究"(项目编号:71473034)的研究成果之一

年  份:2018

卷  号:2

期  号:2

起止页码:86-95

语  种:中文

收录情况:BDHX、BDHX2017、CSCD、CSCD2017_2018、CSSCI、CSSCI2017_2018、NSSD、RCCSE、RWSKHX、ZGKJHX、核心刊

摘  要:【目的】引入深度神经网络模型Doc2Vec,以综合考察文本的上下文语境信息。结合改进的K-means聚类算法,实现中文单文档摘要的提取。【方法】利用Doc2Vec模型,提取语句的语义、语法、语序等特征,将其转化为固定维度的向量。基于密度最大距离最远原则为K-means聚类算法选取初始聚类中心,对语句向量进行聚类。在每个类簇内计算句子的信息熵,提取类内与其他语句均具有较高相似度的句子作为摘要句。【结果】相对于传统的向量化表示方法 PLSA,利用本文方法生成的摘要效果在准确率、召回率、F值上分别提高了9.57%、7.62%、10.30%。【局限】提取的摘要句来源于正文,而标准摘要是对正文的高度凝练总结,二者通常难以完全匹配。【结论】实验结果表明,相对于常见的向量化表示方法,本文提出的方法能较为显著地提升自动摘要的效果,对多文档自动摘要的实现提供了一种思路。

关 键 词:自动摘要  Doc2Vec  K-MEANS 信息熵

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心