期刊文章详细信息
文献类型:期刊文章
机构地区:[1]北京大学信息科学技术学院计算语言学研究所,北京100871 [2]东北大学信息科学与工程学院计算机软件与理论研究所,沈阳110004
基 金:国家自然科学基金(60083006);国家"九七三"重点基础研究发展规划项目基金(G19980305011);国家"八六三"高技术研究发展计划项目基金(2001AA114019;2001AA114210;2002AA11701008)资助
年 份:2004
卷 号:27
期 号:8
起止页码:1036-1045
语 种:中文
收录情况:BDHX、BDHX2000、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、EI(收录号:2004418404918)、IC、INSPEC、JST、MR、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:该文提出了一种基于语料库的无双语词典的英汉词对齐模型 .它把自然语言的句子形式化地表示为集合 ,通过集合的交运算和差运算实现单词对齐 ,同时还考虑了词序和重复词的影响 .该模型不仅能对齐高频单词 ,而且能对齐低频单词 ,对未登录词和汉语分词错误具有兼容能力 .该模型几乎不需要任何语言学知识和语言学资源 ,使语料库方法可独立应用 .实验表明 ,同质语料规模越大 ,词对齐的正确率和召回率越高 .
关 键 词:自然语言处理 双语语料库 词对齐 最小求交 最小求差
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...