期刊文章详细信息
文献类型:期刊文章
机构地区:[1]新疆大学信息科学与工程学院,乌鲁木齐830046 [2]中国传媒大学国家语言资源监测与研究有声媒体中心,北京100024
基 金:新疆维吾尔自治区自然科学基金资助项目(2012211B08)
年 份:2015
卷 号:41
期 号:4
起止页码:166-170
语 种:中文
收录情况:AJ、BDHX、BDHX2014、CAS、CSA、CSA-PROQEUST、CSCD、CSCD_E2015_2016、IC、INSPEC、JST、RCCSE、SCOPUS、UPD、ZGKJHX、核心刊
摘 要:为提高汉维句子对齐方法的准确率,提出一种分段句子对齐方法。采用词汇信息和长度信息相结合的策略,识别出能作为锚点的一对句子(锚点句对),并将其作为分割标志对全文进行分段,在各片段内使用基于长度的方法实现全部句子的对齐,采用词汇、数字、标点符号和长度信息提高方法的领域移植性,使用分段方法避免复杂的计算过程,从而解决错误蔓延问题。实验结果表明,该方法的准确率达到95.2%,比基于长度的句子对齐方法提高了2.7%。
关 键 词:平行语料库 句子对齐 锚点 基于长度的方法 基于词汇的方法
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...