登录    注册    忘记密码

期刊文章详细信息

基于CRF的先秦汉语分词标注一体化研究    

CRF Based Research on a Unified Approach to Word Segmentation and POS Tagging for Pre-Qin Chinese

  

文献类型:期刊文章

作  者:石民[1] 李斌[1] 陈小荷[1]

机构地区:[1]南京师范大学文学院,江苏南京210097

出  处:《中文信息学报》

基  金:国家"211工程"三期重点学科建设项目"语言科技创新及工作平台建设"子课题"先秦文献词汇统计与知识检索系统"

年  份:2010

卷  号:24

期  号:2

起止页码:39-45

语  种:中文

收录情况:BDHX、BDHX2008、CSCD、CSCD2011_2012、JST、RCCSE、ZGKJHX、核心刊

摘  要:该文探索了古代汉语,特别是先秦文献的词切分及词性标注。首先对《左传》文本进行了词汇处理(分词和词性标注)和考察分析,然后采用条件随机场模型(CRF),进行自动分词、词性标注、分词标注一体化的对比实验。结果表明,一体化分词比单独分词的准确率和召回率均有明显提高,开放测试的F值达到了94.60%;一体化词性标注的F值达到了89.65%,比传统的先分词后标注的"两步走"方法有明显提高。该项研究可以服务于古代汉语词汇研究和语料库建设,以弥补人工标注的不足。

关 键 词:计算机应用  中文信息处理 先秦汉语 分词  词性标注 左传 条件随机场模型

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心