期刊文章详细信息
文献类型:期刊文章
WANG Jing;LUO Lang;WANG De-Qiang(School of Computer Science, South-Central University for Nationalities, Wuhan 430074, Chin)
机构地区:[1]中南民族大学计算机科学学院,武汉430074
基 金:赛尔网络下一代互联网技术创新项目(NGII20150106)
年 份:2018
卷 号:27
期 号:5
起止页码:209-215
语 种:中文
收录情况:CSA、IC、ZGKJHX、普通刊
摘 要:针对短文本中固有的特征稀疏以及传统分类模型存在的"词汇鸿沟"等问题,我们利用Word2Vec模型可以有效缓解短文本中数据特征稀疏的问题,并且引入传统文本分类模型中不具有的语义关系.但进一步发现单纯利用Word2Vec模型忽略了不同词性的词语对短文本的影响力,因此引入词性改进特征权重计算方法,将词性对文本分类的贡献度嵌入到传统的TF-IDF算法中计算短文本中词的权重,并结合Word2Vec词向量生成短文本向量,最后利用SVM实现短文本分类.在复旦大学中文文本分类语料库上的实验结果验证了该方法的有效性.
关 键 词:Word2Vec TF-IDF 文本表示 短文本分类
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...