期刊文章详细信息
多策略切分粒度的藏汉双向神经机器翻译研究
Multi-strategic granularity of segmentation on Tibetan-Chinese bidirectional neural machine translation
文献类型:期刊文章
SHA Jiu;FENG Chong;ZHANG Tianfu;GUO Yuhang;LIU Fang(Beijing Engineering Research Center of High Volume Language Information Processing and Cloud Computing Applications,School of Computer Science&Technology,Beijing Institute of Technology,Beijing 100081,China;Key Laboratory of Language Engineering and Cognitive Computing,Ministry of Industry and Information Technology,School of Foreign Languages,Beijing Institute of Technology,Beijing 100081,China)
机构地区:[1]北京理工大学计算机学院,北京市海量语言信息处理与云计算应用工程技术研究中心,北京100081 [2]北京理工大学外国语学院,工信部语言工程与认知计算重点实验室,北京100081
基 金:国家重点研发计划(2016YFB0801200,2018YFC0832104);国家自然科学基金(U1636203)。
年 份:2020
卷 号:59
期 号:2
起止页码:213-219
语 种:中文
收录情况:AJ、BDHX、BDHX2017、BIOSISPREVIEWS、CAS、CSA、CSA-PROQEUST、CSCD、CSCD_E2019_2020、INSPEC、JST、MR、PROQUEST、RCCSE、RSC、WOS、ZGKJHX、ZMATH、ZR、核心刊
摘 要:现有的机器翻译模型通常在词粒度切分的数据集上进行训练,然而不同的切分粒度蕴含着不同的语法、语义的特征和信息,仅考虑词粒度将制约神经机器翻译系统的高效训练.这对于藏语相关翻译因其语言特点而显得尤为突出.为此提出针对藏汉双向机器翻译的具有音节、词语以及音词融合的多粒度训练方法,并基于现有的注意力机制神经机器翻译框架,在解码器中融入自注意力机制以捕获更多的目标端信息,提出了一种新的神经机器翻译模型.在CWMT2018藏汉双语数据集上的实验结果表明,多粒度训练方法的翻译效果明显优于其余切分粒度的基线系统,同时解码器中引入自注意力机制的神经机器翻译模型能够显著提升翻译效果.此外在WMT2017德英双语数据集上的实验结果进一步证明了该方法在其他语种方向上的适用性.
关 键 词:音词融合 藏汉双向 神经机器翻译
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...