登录    注册    忘记密码

期刊文章详细信息

基于Word2vector的文本特征化表示方法    

Characteristic representation method of document based on Word2vector

  

文献类型:期刊文章

作  者:周顺先[1] 蒋励[1,2] 林霜巧[2] 龚德良[1] 王鲁达[1]

ZHOU Shunxian;JIANG Li;LIN Shuangqiao;GONG Deliang;WANG Luda(School of Software and Communications Engineering,Xiangnan University,Chenzhou 423000,P.R.China;School of Information Science and Engineering,Central South University,Changsha 410075,P.R.China)

机构地区:[1]湘南学院软件与通信工程学院,湖南郴州423000 [2]中南大学信息科学与工程学院,长沙410075

出  处:《重庆邮电大学学报(自然科学版)》

基  金:湖南省教育厅科研项目(15C1288);国家自然科学基金(61379109;61402165);郴州市科技计划项目(cz2015036)~~

年  份:2018

卷  号:30

期  号:2

起止页码:272-279

语  种:中文

收录情况:BDHX、BDHX2017、CSA、CSA-PROQEUST、CSCD、CSCD2017_2018、IC、JST、RCCSE、ZGKJHX、核心刊

摘  要:针对基于词语统计的特征化表示无法有效提取文本的词义特征的问题,提出一种基于上下文关系的文本特征化表示方法。该方法利用Word2vector提取词义特征,获得词向量;再对词向量进行"最优适应度划分"的聚类,并根据聚类结果将词语替代表示为聚类质心;根据质心及其所代表的词语的词频,构成词向量聚类质心频率模型(semantic frequency-inverse document frequency,SF-IDF),用于特征化表示文本。在不依赖语义规则的情况下,分别以路透社文本集Reuter-21578、维基百科(extensible markup language,XML)数据为文本数据集,采用神经网络语言模型(neural network language model,NNLM)算法进行文本分类实验,并采用F1-measure标准进行样本分类的效果评估,词向量聚类质心频率模型SF-IDF(semantic frequency-inverse document frequency,SF-IDF)向量与现有技术中词频-逆向文件频率(term frequency-inverse document frequency,TF-IDF)向量的分类效果对比,与TF-IDF模型进行对比实验;在Reuter-21578数据集上平均准确率由原有的57.1%提高到63.3%,在Wikipedia XML数据集上平均准确率由原有的48.7%提高到59.2%。SF-IDF模型可适用于现行的基于特征向量的信息检索算法,且较TF-IDF模型有更高的文本相似性分析效率,可提升文本分类准确率。

关 键 词:Word2vector  上下文关系 特征化表示  文本分类

分 类 号:TP391.9]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心