登录    注册    忘记密码

期刊文章详细信息

基于fastText模型的词向量表示改进算法    

Base on fastText model to improve the word embedding of phrases and morphology

  

文献类型:期刊文章

作  者:阴爱英[1] 吴运兵[2] 郑一江[2] 余小燕[2]

YIN Aiying;WU Yunbing;ZHENG Yijiang;YU Xiaoyan(Department of Computer Engineering,Zhicheng College of Fuzhou University,Fuzhou,Fujian 350002,China;College of Mathematics and Computer Science,Fuzhou University,Fuzhou,Fujian 350108,China)

机构地区:[1]福州大学至诚学院计算机工程系,福建福州350002 [2]福州大学数学与计算机科学学院,福建福州350108

出  处:《福州大学学报(自然科学版)》

基  金:福建省自然科学基金资助项目(2017J01755);福建省教育厅中青年教师教育科研项目(JAT170102)

年  份:2019

卷  号:47

期  号:3

起止页码:314-319

语  种:中文

收录情况:AJ、BDHX、BDHX2017、CAS、CSA、CSA-PROQEUST、JST、MR、RCCSE、ZGKJHX、ZMATH、核心刊

摘  要:传统词向量表示模型往往忽视了单词间的句法形态结构,导致模型预测准确率不高.为此,提出基于fastText模型的词向量表示改进算法.首先,在训练模型数据集上,引入stopwords处理技术,剔除一些无意义介词等对预测模型干扰,减少噪声数据;其次,针对fastText模型中n-gram分解格式进行限定,将分解条件设置为符合英文单词的组成结构;最后,去除fastText模型中单词前后缀标记符,减少无用分解对模型预测产生干扰.实验结果表明,与fastText模型相比,所提出的改进模型在单词关系评分、语义相似性、句法相似性均取得较好的准确率.

关 键 词:词向量  skip-gram模型  fastText模型  自然语言处理

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心