期刊文章详细信息

结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究
Automatic Abstracting of Chinese Document with Doc2Vec and Improved Clustering Algorithm

文献类型：期刊文章

作　　者：贾晓婷[1] 王名扬[1] 曹宇[2]

Jia Xiaoting1 ,Wang Mingyang1, Cao Yu2(1College of Information and Computer Engineering, Northeast Forestry University, Harbin 150040, China;2Tongfang Knowledge Network, Beijing 100192, Chin)

机构地区：[1]东北林业大学信息与计算机工程学院,哈尔滨150040 [2]同方知网(北京)技术有限公司,北京100192

出　　处：《数据分析与知识发现》

基　　金：中央高校基本科研业务费专项资金项目"基于社会网络特征提取的群体性突发事件预警方法研究"(项目编号:2572014DB05);国家自然科学基金项目"群体性突发事件预警的超网络方法研究"(项目编号:71473034)的研究成果之一

年　　份：2018

卷　　号：2

期　　号：2

起止页码：86-95

语　　种：中文

收录情况：BDHX、BDHX2017、CSCD、CSCD2017_2018、CSSCI、CSSCI2017_2018、NSSD、RCCSE、RWSKHX、ZGKJHX、核心刊

摘　　要：【目的】引入深度神经网络模型Doc2Vec,以综合考察文本的上下文语境信息。结合改进的K-means聚类算法,实现中文单文档摘要的提取。【方法】利用Doc2Vec模型,提取语句的语义、语法、语序等特征,将其转化为固定维度的向量。基于密度最大距离最远原则为K-means聚类算法选取初始聚类中心,对语句向量进行聚类。在每个类簇内计算句子的信息熵,提取类内与其他语句均具有较高相似度的句子作为摘要句。【结果】相对于传统的向量化表示方法 PLSA,利用本文方法生成的摘要效果在准确率、召回率、F值上分别提高了9.57%、7.62%、10.30%。【局限】提取的摘要句来源于正文,而标准摘要是对正文的高度凝练总结,二者通常难以完全匹配。【结论】实验结果表明,相对于常见的向量化表示方法,本文提出的方法能较为显著地提升自动摘要的效果,对多文档自动摘要的实现提供了一种思路。

关键词：自动摘要 Doc2Vec K-MEANS 信息熵

分类号：TP391]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究
Automatic Abstracting of Chinese Document with Doc2Vec and Improved Clustering Algorithm

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究 Automatic Abstracting of Chinese Document with Doc2Vec and Improved Clustering Algorithm

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究
Automatic Abstracting of Chinese Document with Doc2Vec and Improved Clustering Algorithm