登录    注册    忘记密码

期刊文章详细信息

利用word2vec对中文词进行聚类的研究    

Research on Chinese word Clustering with Word2vec

  

文献类型:期刊文章

作  者:郑文超[1] 徐鹏[1]

机构地区:[1]北京邮电大学网络技术研究院,北京100876

出  处:《软件》

年  份:2013

卷  号:34

期  号:12

起止页码:160-162

语  种:中文

收录情况:CSA、IC、JST、普通刊

摘  要:文本聚类在数据挖掘和机器学习中发挥着重要的作用,该技术经过多年的发展,已产生了一系列的理论成果。本文在前人研究成果的基础上,探索了一种新的中文聚类方法。本文先提出了一种中文分词算法,用来将中文文本分割成独立的词语。再对处理后的语料使用Word2Vec工具集,应用深度神经网络算法,转化为对应的词向量。最后,将词向量之间的余弦距离定义为词之间的相似度,通过使用K-means聚类算法将获取的词向量进行聚类,最终可以返回语料库中同输入词语语意最接近的词。本文从网络上抓取了2012年的网络新闻数据,应用上述方法进行了实验,取得了不错的实验效果。

关 键 词:数据挖掘 聚类 分词 词向量  神经网络

分 类 号:TP39]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心