期刊文章详细信息
文献类型:期刊文章
机构地区:[1]上海大学通信与信息工程学院,上海200444 [2]中国科学院上海高等研究院,上海201210 [3]中国科学院大学,北京100049
基 金:国家自然科学基金资助项目(61471231);中国科学院先导资助项目(XDA06010301)
年 份:2017
卷 号:34
期 号:5
起止页码:1321-1324
语 种:中文
收录情况:AJ、BDHX、BDHX2014、CSA-PROQEUST、CSCD、CSCD_E2017_2018、IC、INSPEC、JST、RCCSE、UPD、ZGKJHX、ZMATH、核心刊
摘 要:当前主流的中文分词方法是基于字标注的传统机器学习方法,但传统机器学习方法需要人为地从中文文本中配置并提取特征,存在词库维度高且利用CPU训练模型时间长的缺点。针对以上问题进行了研究,提出基于LSTM(long short-term memory)网络模型的改进方法,采用不同词位标注集并加入预先训练的字嵌入向量(character embedding)进行中文分词。在中文分词评测常用的语料上进行实验对比结果表明,基于LSTM网络模型的方法能得到比当前传统机器学习方法更好的性能;采用六词位标注并加入预先训练的字嵌入向量能够取得相对最好的分词性能;而且利用GPU可以大大缩短深度神经网络模型的训练时间;LSTM网络模型的方法也更容易推广并应用到其他自然语言处理中序列标注的任务。
关 键 词:中文分词 LSTM 字嵌入 自然语言处理
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...