登录    注册    忘记密码

期刊文章详细信息

基于半监督CRF的跨领域中文分词    

Domain Adaptation of Chinese Word Segmentation on Semi-Supervised Conditional Random Fields

  

文献类型:期刊文章

作  者:邓丽萍[1] 罗智勇[2]

机构地区:[1]北京语言大学信息科学学院,北京100083 [2]北京语言大学语言信息处理研究所,北京100083

出  处:《中文信息学报》

基  金:北京市哲学社会科学规划研究基地项目(13JDZHB005);中央高校基本科研业务费专项资金(09YB09)

年  份:2017

卷  号:31

期  号:4

起止页码:9-19

语  种:中文

收录情况:BDHX、BDHX2014、CSCD、CSCD2017_2018、JST、RCCSE、ZGKJHX、核心刊

摘  要:中文分词是中文信息处理领域的一项关键基础技术。随着中文信息处理应用的发展,专业领域中文分词需求日益增大。然而,现有可用于训练的标注语料多为通用领域(或新闻领域)语料,跨领域移植成为基于统计的中文分词系统的难点。在跨领域分词任务中,由于待分词文本与训练文本构词规则和特征分布差异较大,使得全监督统计学习方法难以获得较好的效果。该文在全监督CRF中引入最小熵正则化框架,提出半监督CRF分词模型,将基于通用领域标注文本的有指导训练和基于目标领域无标记文本的无指导训练相结合。同时,为了综合利用各分词方法的优点,该文将加词典的方法、加标注语料的方法和半监督CRF模型结合起来,提高分词系统的领域适应性。实验表明,半监督CRF较全监督CRF OOV召回率提高了3.2个百分点,F-值提高了1.1个百分点;将多种方法混合使用的分词系统相对于单独在CRF模型中添加标注语料的方法 OOV召回率提高了2.9个百分点,F-值提高了2.5个百分点。

关 键 词:跨领域  中文分词 半监督CRF  

分 类 号:TP391.12]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心