登录    注册    忘记密码

期刊文章详细信息

基于LSTM网络的序列标注中文分词法    

Sequence labeling Chinese word segmentation method based on LSTM networks

  

文献类型:期刊文章

作  者:任智慧[1,2] 徐浩煜[2,3] 封松林[2,3] 周晗[2] 施俊[1]

机构地区:[1]上海大学通信与信息工程学院,上海200444 [2]中国科学院上海高等研究院,上海201210 [3]中国科学院大学,北京100049

出  处:《计算机应用研究》

基  金:国家自然科学基金资助项目(61471231);中国科学院先导资助项目(XDA06010301)

年  份:2017

卷  号:34

期  号:5

起止页码:1321-1324

语  种:中文

收录情况:AJ、BDHX、BDHX2014、CSA-PROQEUST、CSCD、CSCD_E2017_2018、IC、INSPEC、JST、RCCSE、UPD、ZGKJHX、ZMATH、核心刊

摘  要:当前主流的中文分词方法是基于字标注的传统机器学习方法,但传统机器学习方法需要人为地从中文文本中配置并提取特征,存在词库维度高且利用CPU训练模型时间长的缺点。针对以上问题进行了研究,提出基于LSTM(long short-term memory)网络模型的改进方法,采用不同词位标注集并加入预先训练的字嵌入向量(character embedding)进行中文分词。在中文分词评测常用的语料上进行实验对比结果表明,基于LSTM网络模型的方法能得到比当前传统机器学习方法更好的性能;采用六词位标注并加入预先训练的字嵌入向量能够取得相对最好的分词性能;而且利用GPU可以大大缩短深度神经网络模型的训练时间;LSTM网络模型的方法也更容易推广并应用到其他自然语言处理中序列标注的任务。

关 键 词:中文分词 LSTM  字嵌入  自然语言处理

分 类 号:TP391.1]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心