期刊文章详细信息
结合词向量和聚类算法的新闻评论话题演进分析
Analysis on topic evolution of news comments by combining word vector and clustering algorithm
文献类型:期刊文章
机构地区:[1]广东外语外贸大学语言工程与计算实验室,广东广州510006 [2]广东外语外贸大学思科信息学院,广东广州510006
基 金:国家社科基金项目(12BYY045);广东省哲学社会科学"十二五"规划项目(GD15YTS01)
年 份:2016
卷 号:38
期 号:11
起止页码:2368-2374
语 种:中文
收录情况:BDHX、BDHX2014、CSCD、CSCD2015_2016、INSPEC、ZGKJHX、核心刊
摘 要:话题演进分析主要是挖掘话题内容随着时间流的演进情况。话题的内容可用关键词来表示。利用word2vec对75万篇新闻和微博文本进行训练,得到词向量模型。将文本流处理后输入模型,获得时间序列下所有词汇的词向量,利用K-means对词向量进行聚类,从而实现话题关键词的抽取。实验对比了基于PLSA和LDA主题模型下的话题抽取效果,发现本文的话题分析效果优于主题模型的方法。同时,采集足够大量、内容足够丰富的语料,可训练得到泛化能力比较强的模型,有利于实时话题演进分析研究工作。
关 键 词:话题演进 word2vec PLSA LDA
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...