期刊文章详细信息
基于改进字节对编码的汉藏机器翻译研究 ( EI收录)
Research on Chinese-Tibetan Machine Translation Model Based on Improved Byte Pair Encoding
文献类型:期刊文章
THUPTEN Tsering;RINCHEN Dhondub;NYIMA Tashi;YU Yong-bin;DENG Quan-xin(Key Laboratory of Tibetan Information Processing,Ministry of Education,Qinghai Normal University,Xining,810008;School of Information Science and Technology,Tibet University,Lhasa,850000;School of Information and Software Engineering,University of Electronic Science and Technology of China,Chengdu,610054)
机构地区:[1]青海师范大学藏文信息处理教育部重点实验室,西宁810008 [2]西藏大学信息科学技术学院,拉萨850000 [3]电子科技大学信息与软件工程学院,成都610054
基 金:国家自然科学基金(61262051);国家社会科学基金(19XYY021);国家重点研发计划重点专项(2017YFB1402200);青海省科技计划(2017-GX-146,2017-ZJ-767)。
年 份:2021
卷 号:50
期 号:2
起止页码:249-255
语 种:中文
收录情况:BDHX、BDHX2020、CAS、CSCD、CSCD2021_2022、EI、IC、JST、MR、RCCSE、SCOPUS、ZGKJHX、ZMATH、核心刊
摘 要:该文通过改进字节对编码算法,提出了带字数阈值的藏文字节对编码算法,优化了基于注意力机制的汉藏神经机器翻译模型。收集整理了100万汉藏句对和20万汉藏人名地名词典,训练了汉藏神经机器翻译模型。通过测试和验证,模型的BLEU值达到36.84。该模型的命名实体翻译效果优于已商用汉藏在线翻译系统。同时,该文的神经机器翻译模型已部署于汉藏机器翻译网站,实现了汉藏神经机器翻译系统的应用推广。
关 键 词:注意力机制 字节对编码 汉藏神经机器翻译 命名实体识别
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...