登录    注册    忘记密码

期刊文章详细信息

基于文本聚类的网络微博舆情话题识别与追踪技术研究    

Research on Network Microblogging Lyrics Topic Recognition and Tracking Technology Based on Clustering

  

文献类型:期刊文章

作  者:闫俊伢[1] 马尚才[2]

YAN Junya;MA Shangcai(Business college of Shanxi University, Information Faculty, Taiyuan 030031 , China;Shanxi University of Finance and Economics, Faculity of Information Management,Taiyuan 030006 , China)

机构地区:[1]山西大学商务学院信息学院,太原030031 [2]山西财经大学信息管理学院,太原030006

出  处:《重庆理工大学学报(自然科学)》

基  金:山西省科技厅重点研发计划项目201603D321112);山西省教育科学“十三五”规划2018年度课题项目(GH18168);全国供销合作总社职业教育专项课题项目(GX1501)

年  份:2019

卷  号:33

期  号:9

起止页码:176-181

语  种:中文

收录情况:BDHX、BDHX2017、CAS、JST、RCCSE、ZGKJHX、核心刊

摘  要:为解决传统话题识别与跟踪方法在处理微博数据时存在的高维、稀疏等问题,提出了一种网络微博话题主题词抽取模型和改进聚类方法。首先,对微博数据以特征词汇选择的方式进行了改进,优先选择时间片内词频统计较高(包含信息量较大)的词汇作为特征词汇,从而降低向量空间的维数,提升运行效率;其次,采用LDA模型来进行微博数据的文本表示;最后,采用基于遗传优化的K-means算法进行聚类分析,提高了聚类结果的准确率和稳定性。网络微博数据实验结果验证了提出方法的有效性,表明其可解决数据处理稀疏、高维的问题。相比其他聚类算法,提出方法在话题识别的多个性能指标上均表现良好,并能准确展示出话题的动态变化。

关 键 词:微博舆情  本文聚类  K-MEANS 主题词  主题模型 聚类算法 话题识别  

分 类 号:TP393]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心