期刊文章详细信息
融合文本特征的汉老双语句子相似度计算方法
Textual Feature Based Bilingual Sentence Similarity Measure Between Chinese and Lao
文献类型:期刊文章
TAN Qihui;ZHOU Lanjiang;LIU Chang(The Key Laboratory of Intelligent Information Processing,School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming,Yunnan 650500,China;School of Information Science and Technology,Southwest Jiaotong University,Chengdu,Sichuan 611756,China)
机构地区:[1]昆明理工大学信息工程与自动化学院智能信息处理重点实验室,云南昆明650500 [2]西南交通大学信息科学与技术学院,四川成都611756
基 金:国家自然科学基金(61662040)
年 份:2021
卷 号:35
期 号:10
起止页码:64-72
语 种:中文
收录情况:BDHX、BDHX2020、CSCD、CSCD2021_2022、JST、RCCSE、ZGKJHX、核心刊
摘 要:双语句子相似度旨在计算不同语言句子间的语义相似程度,在信息检索、平行语料库构建、机器翻译等领域有重要作用。由于汉语、老挝语平行语料稀少,且老挝语在语义表达、句子结构上与汉语有明显差异,导致汉老双语句子相似度研究的难度较大。该文提出了一种融合文本特征的汉老双语句子相似度计算方法,并构建了句子相似度模型。首先,在句子相似度模型中将汉语、老挝语的词性、数字共现等文本特征与GloVe预训练词向量融合,以此丰富句子特征,提升模型计算准确率。其次,由基于自注意力的双向长短时记忆网络组成多层孪生网络来提取长距离上下文特征和深层次语义信息,其中自注意力机制可以保证语义信息的有效利用。最后,采用迁移学习的方法将通用模型参数初始化,并使用不同的微调参策略增强模型的泛化能力。实验表明,该文提出的方法,其召回率、准确率和F;值分别达到了82.5%、85.78%和84.00%。
关 键 词:双语句子相似度 老挝语 迁移学习 文本特征
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...