期刊文章详细信息
文献类型:期刊文章
机构地区:[1]大连理工大学信息检索研究室,辽宁大连116023
基 金:国家自然科学基金资助项目(61572102;61602078;61562080);国家高技术研究发展计划(863)资助项目(2006AA01Z151);辽宁省自然科学基金资助项目(201202031;2014020003);教育部留学回国人员科研启动基金;高等学校博士学科点专项科研基金资助课题(20090041110002);中央高校基本科研业务费专项资金资助
年 份:2017
卷 号:52
期 号:7
起止页码:66-72
语 种:中文
收录情况:BDHX、BDHX2014、CAS、CSCD、CSCD2017_2018、IC、JST、MR、PROQUEST、RCCSE、ZGKJHX、ZMATH、核心刊
摘 要:短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover's Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。
关 键 词:短文本 EMD距离 词向量 相似度计算 聚类
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...