登录    注册    忘记密码

期刊文章详细信息

现代汉语通用分词系统中歧义切分的实用技术  ( EI收录)  

Disambiguation in a Modern Chinese General-Purpose Word Segmentation System

  

文献类型:期刊文章

作  者:罗智勇[1] 宋柔[2]

机构地区:[1]北京工业大学计算机学院,北京100022 [2]北京语言大学信息科学学院,北京100083

出  处:《计算机研究与发展》

基  金:国家自然科学基金项目(60272055);国家"八六三"高技术研究发展计划基金项目(2001AA114111);教育部科学技术研究重点基金项目(00128);教育部人文社会科学重点研究基地重大项目(02JAZJD740007)~~

年  份:2006

卷  号:43

期  号:6

起止页码:1122-1128

语  种:中文

收录情况:AJ、BDHX、BDHX2004、CSA-PROQEUST、CSCD、CSCD2011_2012、EI、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊

摘  要:歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则+例外”的实用消歧策略·对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%·

关 键 词:中文信息处理 通用分词系统  歧义切分

分 类 号:TP391.12]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心