期刊文章详细信息
基于文本聚类的网络微博舆情话题识别与追踪技术研究
Research on Network Microblogging Lyrics Topic Recognition and Tracking Technology Based on Clustering
文献类型:期刊文章
YAN Junya;MA Shangcai(Business college of Shanxi University, Information Faculty, Taiyuan 030031 , China;Shanxi University of Finance and Economics, Faculity of Information Management,Taiyuan 030006 , China)
机构地区:[1]山西大学商务学院信息学院,太原030031 [2]山西财经大学信息管理学院,太原030006
基 金:山西省科技厅重点研发计划项目201603D321112);山西省教育科学“十三五”规划2018年度课题项目(GH18168);全国供销合作总社职业教育专项课题项目(GX1501)
年 份:2019
卷 号:33
期 号:9
起止页码:176-181
语 种:中文
收录情况:BDHX、BDHX2017、CAS、JST、RCCSE、ZGKJHX、核心刊
摘 要:为解决传统话题识别与跟踪方法在处理微博数据时存在的高维、稀疏等问题,提出了一种网络微博话题主题词抽取模型和改进聚类方法。首先,对微博数据以特征词汇选择的方式进行了改进,优先选择时间片内词频统计较高(包含信息量较大)的词汇作为特征词汇,从而降低向量空间的维数,提升运行效率;其次,采用LDA模型来进行微博数据的文本表示;最后,采用基于遗传优化的K-means算法进行聚类分析,提高了聚类结果的准确率和稳定性。网络微博数据实验结果验证了提出方法的有效性,表明其可解决数据处理稀疏、高维的问题。相比其他聚类算法,提出方法在话题识别的多个性能指标上均表现良好,并能准确展示出话题的动态变化。
关 键 词:微博舆情 本文聚类 K-MEANS 主题词 主题模型 聚类算法 话题识别
分 类 号:TP393]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...