登录    注册    忘记密码

期刊文章详细信息

基于词向量和EMD距离的短文本聚类    

Short text clustering based on word embeddings and EMD

  

文献类型:期刊文章

作  者:黄栋[1] 徐博[1] 许侃[1] 林鸿飞[1] 杨志豪[1]

机构地区:[1]大连理工大学信息检索研究室,辽宁大连116023

出  处:《山东大学学报(理学版)》

基  金:国家自然科学基金资助项目(61572102;61602078;61562080);国家高技术研究发展计划(863)资助项目(2006AA01Z151);辽宁省自然科学基金资助项目(201202031;2014020003);教育部留学回国人员科研启动基金;高等学校博士学科点专项科研基金资助课题(20090041110002);中央高校基本科研业务费专项资金资助

年  份:2017

卷  号:52

期  号:7

起止页码:66-72

语  种:中文

收录情况:BDHX、BDHX2014、CAS、CSCD、CSCD2017_2018、IC、JST、MR、PROQUEST、RCCSE、ZGKJHX、ZMATH、核心刊

摘  要:短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover's Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。

关 键 词:短文本  EMD距离  词向量  相似度计算 聚类

分 类 号:TP391.1]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心