登录    注册    忘记密码

期刊文章详细信息

一种结合TF-IDF方法和词向量的短文本聚类算法    

Short text clustering based on TF⁃IDF and word embedding

  

文献类型:期刊文章

作  者:赵晓平[1] 黄祖源[1] 黄世锋[2] 王永和[2]

ZHAO Xiaoping;HUANG Zuyuan;HUANG Shifeng;WANG Yonghe(Information Center,Yunnan Power Grid Co.,Ltd.,Kunming 650011,China;Yunnan Yundian Tongfang Technology Co.,Ltd.,Kunming 650220,China)

机构地区:[1]云南电网有限责任公司信息中心,云南昆明650011 [2]云南云电同方科技有限公司,云南昆明650220

出  处:《电子设计工程》

基  金:国家自然科学基金青年项目(61702442)。

年  份:2020

卷  号:28

期  号:21

起止页码:5-9

语  种:中文

收录情况:RCCSE、ZGKJHX、普通刊

摘  要:随着在线社交网络平台(微信、微博等)和APP(网易、学习强国)的快速发展和应用,产生了海量短文本。针对这些海量短文本,传统的文本聚类方法存在聚类性能较差的问题。本文融合TF-IDF方法和词向量,提出了一种短文本聚类方法。首先,使用TF-IDF方法,提取短文本中TFIDF值靠前的TOP-N关键词作为短文本的特征词集合;其次,在Word2Vec工具的支持下,使用Skip-gram模型在海量语料中训练得到特征词的向量表示;最后,使用WMD距离计算短文本间的相似度。将所提方法应用于4个数据集,实验结果表示,该方法比传统的文本聚类算法具有更好的效果。

关 键 词:文本聚类 短文本  TF-IDF 词向量  自然语言处理

分 类 号:TP311]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心