登录    注册    忘记密码

期刊文章详细信息

基于改进的LDA主题模型的微博用户聚类研究    

Research on Micro-blog Users Clustering Based on Improved LDA Topic Model

  

文献类型:期刊文章

作  者:裴超[1] 肖诗斌[1,2] 江敏[2]

机构地区:[1]北京信息科技大学计算机学院,北京100192 [2]北京拓尔思信息技术股份有限公司,北京100101

出  处:《情报理论与实践》

基  金:国家自然科学基金项目"网页内容真实性评价研究"(项目编号:61171159);北京市发改委项目"异构大数据分析挖掘整合技术北京市工程实验室创新能力建设项目"的成果

年  份:2016

卷  号:39

期  号:3

起止页码:135-139

语  种:中文

收录情况:BDHX、BDHX2014、CSSCI、CSSCI2014_2016、JST、NSSD、RCCSE、RWSKHX、ZGKJHX、核心刊

摘  要:大规模文档集中潜藏的语义信息一般可以用潜在狄利克雷(LDA)主题模型识别,因为微博短文本语义稀疏,所以在微博短文本聚类中的应用并不理想。利用传统的潜在狄利克雷分布的主题模型来给微博建模,得到的微博用户分布并不直观,通过改进的LDA模型将用户表示为主题概率向量,不仅能够充分地挖掘文本隐藏的语义信息,同时能够直观地呈现用户的主题分布。提出基于密度区域划分的K-means算法对微博用户进行聚类。使用真实的微博数据集进行验证,与传统的K-means聚类方法对比,采用该方法对微博用户的聚类能够有较明显的提高。

关 键 词:微博  主题模型 文本聚类 K均值算法

分 类 号:TP391.1] G206[计算机类]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心