期刊文章详细信息
稀缺资源机器翻译中改进的语料级和短语级中间语言方法研究 ( EI收录)
Research on Improved Corpus-Level and Phrase-Level Pivot Language Based Methods in Low-Resource Machine Translation
文献类型:期刊文章
机构地区:[1]东北大学自然语言处理实验室,沈阳110819
基 金:中央高校基本科研业务专项资金(N140406003);国家留学基金;国家自然科学基金(61272376;61300097)资助~~
年 份:2017
卷 号:40
期 号:4
起止页码:925-938
语 种:中文
收录情况:BDHX、BDHX2014、CSA、CSA-PROQEUST、CSCD、CSCD2017_2018、EI(收录号:20172703889292)、IC、JST、MR、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:该文以英语作为中间语言的方式对在没有直接的外国语至汉语平行训练数据条件下构建统计机器翻译系统的问题进行研究.文中将基于中间语言的机器翻译方法分为系统级、语料级以及短语级中间语3种方法.在文中提出的改进的语料级中间语方法中,通过扩大生成训练数据的规模以及优化词对齐质量的方式来提高翻译系统的翻译性能.在传统的短语级中间语方法中,由于存在无法进行融合的中间语短语从而导致很多高质量短语对无法生成的问题,该文提出的改进方法通过解码生成的方式来扩大短语翻译表,继而提高翻译质量.该文系统地比较了3种中间语方法的优缺点,通过人工分析发现,任何一种方法无法在所有的翻译任务上取得最佳的翻译性能,故文中提出了语料级-短语级融合的中间语方法,该方法在所有翻译任务上取得了最优的翻译性能.最终,文中成功构建了孟加拉语、泰米尔语、乌兹别克语、匈牙利语至汉语的机器翻译系统.与基线系统相比,文中提出的方法在4种外国语的测试集上获得了0.8至2.8个BLEU点的上涨.
关 键 词:自然语言处理 统计机器翻译 外国语翻译 中间语言 语料构建
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...