登录    注册    忘记密码

期刊文章详细信息

神经机器翻译中数据泛化与短语生成方法研究    

Data Generalization and Phrase Generation Methods in Neural Machine Translation

  

文献类型:期刊文章

作  者:李强[1] 韩雅倩[1] 肖桐[1,2] 朱靖波[1,2]

LI Qiang;HAN Yaqian;XIAO Tong;ZHU Jingbo(NLP Lab,Northeastern University,Shenyang,Liaoning 110000,China;Shenyang Yatrans Network Technology Co.Ltd.,Shenyang,Liaoning 110000,China)

机构地区:[1]东北大学自然语言处理实验室,辽宁沈阳110000 [2]沈阳雅译网络技术有限公司,辽宁沈阳110000

出  处:《中文信息学报》

基  金:国家自然科学基金(61672138;61432013;61732005)

年  份:2018

卷  号:32

期  号:8

起止页码:42-52

语  种:中文

收录情况:BDHX、BDHX2017、CSCD、CSCD2017_2018、JST、RCCSE、ZGKJHX、核心刊

摘  要:该文对神经机器翻译中的数据泛化方法和短语生成方法进行研究。在使用基于子词的方法来缓解未登录词和稀疏词汇问题的基础上,提出使用数据泛化的方法来进一步优化未登录词和稀疏词汇的翻译,缓解了子词方法中出现的错译问题。文中对基于子词的方法和基于数据泛化的方法进行了详细的实验对比,对两种方法的优缺点进行了讨论和说明。针对数据泛化的处理方法,提出了一致性检测方法和解码优化方法。由于标准的神经机器翻译模型以词汇为基础进行翻译建模,因此该文提出了一种规模可控的短语生成方法,通过使用该文方法生成的源语言短语,神经机器翻译的翻译性能进一步提高。最终,在汉英和英汉翻译任务上,翻译性能与基线翻译系统相比分别提高了1.3和1.2个BLEU值。

关 键 词:自然语言处理 神经机器翻译  数据泛化  短语生成  

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心