登录    注册    忘记密码

期刊文章详细信息

共词网络LDA模型的中文短文本主题分析    

Chinese Short Text Topic Analysis by Latent Dirichlet Allocation Model with Co-word Network Analysis

  

文献类型:期刊文章

作  者:蔡永明[1] 长青[2]

Cai Yongming;Chang Qing(Business School, University of Jinan, Jinan 250002;School of Economics and Management, Inner Mongolia University of Technology, Huhhot 010051)

机构地区:[1]济南大学商学院,济南250002 [2]内蒙古工业大学经济管理学院,呼和浩特010051

出  处:《情报学报》

基  金:山东省社会科学规划项目"基于复杂网络理论的山东省基础设施系统脆弱性研究"(14CGLJ03)

年  份:2018

卷  号:37

期  号:3

起止页码:305-317

语  种:中文

收录情况:AJ、BDHX、BDHX2017、CSA、CSA-PROQEUST、CSCD、CSCD_E2017_2018、CSSCI、CSSCI2017_2018、INSPEC、JST、NSSD、RCCSE、RWSKHX、ZGKJHX、核心刊

摘  要:由于短文本的特征稀疏性,传统的LDA或PLSA主题模型分析短文本的效果并不理想。结合社交网络社区发现技术,提出CA-LDA模型(Latent Dirichlet Allocation Model with Co-word network Analysis)。在传统LDA模型的基础上加入共词网络分析,考虑词汇在不同文档间的共现情况,构建词汇社交网络;利用词汇社交网络隐含空间降维的方法,以自同构等价规则,合并在网络中结构特征相同的词汇,在不损失信息的前提下,降低了词汇矩阵稀疏性;考虑词汇搭配关系(网络节点的邻接),以共词网络特征向量中心度调节主题模型中的词汇权重,通过递归累加,提高与重要词汇搭配的词汇的重要性;在传统LDA主题模型吉布斯采样(Gibbs Sampling)过程中,同时增加隐含位置聚类模型的社区发现算法,提高了具有相同搭配关系词汇划分在同一主题下的概率。实验证明该模型在短文本分析中有较好的效果。

关 键 词:共词网络LDA主题模型(CA-LDA)  隐含空间降维  自同构等价规则  隐含位置聚类  

分 类 号:TP391.1]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心