期刊文章详细信息
结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究
Automatic Abstracting of Chinese Document with Doc2Vec and Improved Clustering Algorithm
文献类型:期刊文章
Jia Xiaoting1 ,Wang Mingyang1, Cao Yu2(1College of Information and Computer Engineering, Northeast Forestry University, Harbin 150040, China;2Tongfang Knowledge Network, Beijing 100192, Chin)
机构地区:[1]东北林业大学信息与计算机工程学院,哈尔滨150040 [2]同方知网(北京)技术有限公司,北京100192
基 金:中央高校基本科研业务费专项资金项目"基于社会网络特征提取的群体性突发事件预警方法研究"(项目编号:2572014DB05);国家自然科学基金项目"群体性突发事件预警的超网络方法研究"(项目编号:71473034)的研究成果之一
年 份:2018
卷 号:2
期 号:2
起止页码:86-95
语 种:中文
收录情况:BDHX、BDHX2017、CSCD、CSCD2017_2018、CSSCI、CSSCI2017_2018、NSSD、RCCSE、RWSKHX、ZGKJHX、核心刊
摘 要:【目的】引入深度神经网络模型Doc2Vec,以综合考察文本的上下文语境信息。结合改进的K-means聚类算法,实现中文单文档摘要的提取。【方法】利用Doc2Vec模型,提取语句的语义、语法、语序等特征,将其转化为固定维度的向量。基于密度最大距离最远原则为K-means聚类算法选取初始聚类中心,对语句向量进行聚类。在每个类簇内计算句子的信息熵,提取类内与其他语句均具有较高相似度的句子作为摘要句。【结果】相对于传统的向量化表示方法 PLSA,利用本文方法生成的摘要效果在准确率、召回率、F值上分别提高了9.57%、7.62%、10.30%。【局限】提取的摘要句来源于正文,而标准摘要是对正文的高度凝练总结,二者通常难以完全匹配。【结论】实验结果表明,相对于常见的向量化表示方法,本文提出的方法能较为显著地提升自动摘要的效果,对多文档自动摘要的实现提供了一种思路。
关 键 词:自动摘要 Doc2Vec K-MEANS 信息熵
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...