登录    注册    忘记密码

期刊文章详细信息

多策略汉维句子对齐    

Chinese-Uyhur Sentence Alignment Based on Hybrid Strategy

  

文献类型:期刊文章

作  者:田生伟[1] 吐尔根.依布拉音[1] 禹龙[2] 加米拉.吾守尔[1] 杨飞宇[3]

机构地区:[1]新疆大学信息科学与工程学院,乌鲁木齐830046 [2]新疆大学网络中心,乌鲁木齐830046 [3]新疆大学国际文化交流学院,乌鲁木齐830046

出  处:《计算机科学》

基  金:国家自然科学基金项目(60663006;60963017);新疆维吾尔自治区高等学校科学研究计划(XJEDU2009I05)资助

年  份:2010

卷  号:37

期  号:4

起止页码:215-218

语  种:中文

收录情况:BDHX、BDHX2008、CSA、CSCD、CSCD2011_2012、IC、JST、RCCSE、UPD、ZGKJHX、核心刊

摘  要:提出了一种错误抑制的多策略算法对齐汉维语句子。针对长度对齐算法无法避免错误蔓延的特点,提出了一种新的错误蔓延抑制策略:利用双语语料的词汇共现信息,自动抽取汉维语词汇搭配,结合句子长度特征,寻找1:1模式的句对作为锚点,将错误蔓延抑制在锚点内;在锚点之间,利用标点符号和长度混合方法进行句子对齐。算法实验结果验证了该多策略算法寻找的锚点的精度高,有效抑制了对齐错误的蔓延;采用的混合对齐算法,避免了基于词汇对齐算法的高时间复杂度的弱点,比传统的对齐算法性能有了较大提高,对齐准确率由95.0%提高到97.6%,召回率由96.8%提高到98.2%,采用的对齐正确性评价算法可以有效发现自动对齐中的噪音对齐。

关 键 词:双语语料 错误抑制  句子对齐 混合策略  汉维句子  

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心