期刊文章详细信息
文献类型:期刊文章
机构地区:[1]北京工业大学,计算机学院,北京,100022,北京语言大学语言信息处理研究所,北京,100083 [2]北京语言大学语言信息处理研究所,北京,100083
基 金:国家自然科学基金资助项目 (6 0 2 72 0 5 5 ) ;国家 86 3计划资助项目 (2 0 0 1AA114 111) ;教育部科学技术研究重点资助项目 (0 0 12 8)
年 份:2005
卷 号:19
期 号:3
起止页码:67-72
语 种:中文
收录情况:BDHX、BDHX2004、CSCD、CSCD2011_2012、JST、RCCSE、ZGKJHX、核心刊
摘 要:专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998年1月、2 0 0 0年12月(共约379万字)语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高。
关 键 词:计算机应用 中文信息处理 自动分词 人名识别 统计方法 可信度
分 类 号:TP391.12]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...