登录    注册    忘记密码

期刊文章详细信息

一种PST_LDA中文文本相似度计算方法    

Chinese text similarity algorithm based on PST_LDA

  

文献类型:期刊文章

作  者:张超[1] 陈利[1] 李琼[2]

机构地区:[1]华中师范大学计算机学院,武汉430079 [2]汉口学院计算机科学与技术学院,武汉430212

出  处:《计算机应用研究》

年  份:2016

卷  号:33

期  号:2

起止页码:375-377

语  种:中文

收录情况:AJ、BDHX、BDHX2014、CSA-PROQEUST、CSCD、CSCD_E2015_2016、IC、INSPEC、JST、RCCSE、UPD、ZGKJHX、ZMATH、核心刊

摘  要:为了降低中文文本相似度计算方法的时间消耗、提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LDA主题模型;最后,按照一定的权重比例综合这三个主题模型,计算文本之间的相似度。由于考虑了不同词性的词集对文本相似度计算的贡献差异,利用文本的语义信息提高了文本聚类准确率。将分离后的三个词集的LDA建模过程并行化,减少建模的时间消耗,提高文本聚类速度。在TanCorp-12数据集分别用LDA和PST_LDA方法进行中文文本相似度计算模拟实验。实验结果显示,PST_LDA方法不仅减少了建模时间消耗,同时在聚类准确率上有一定的提高。

关 键 词:词性标注 LDA模型 PST_LDA模型  文本相似度计算

分 类 号:TP391.1]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心