登录    注册    忘记密码

期刊文章详细信息

中文微博命名体识别    

Named entity recognition in Chinese micro-blog

  

文献类型:期刊文章

作  者:韩春燕[1] 刘玉娇[2] 琚生根[2] 李若晨[2] 苏翀[2]

机构地区:[1]四川民族学院计算机科学系,康定626001 [2]四川大学计算机学院,成都610065

出  处:《四川大学学报(自然科学版)》

基  金:国家自然科技基金项目(61332066;81373239)

年  份:2015

卷  号:52

期  号:3

起止页码:511-516

语  种:中文

收录情况:BDHX、BDHX2014、BIOSISPREVIEWS、CAS、CSCD、CSCD2015_2016、JST、MR、RCCSE、ZGKJHX、ZMATH、ZR、核心刊

摘  要:近年来微博的快速发展为命名体识别提供了新的载体,同时微博的特点也为命名体识别研究带来了挑战.针对微博特点,本文提出了基于拼音相似距离以及文本相似距离聚类算法对微博文本进行规范化,消除了微博的语言表达不规范造成的干扰.同时,本文还提出了篇章级、句子级以及词汇级三级粒度的特征提取,使用条件随机场模型进行训练数据,并识别命名体,采用由微博文本相似聚类获得的实体关系类对命名体类型进行修正.由于缺少大量的微博训练数据,本文采用半监督学习框架训练模型.通过对新浪微博数据的实验结果表明,本方法能够有效地提高微博中命名体识别的效果.

关 键 词:微博  条件随机场 命名实体  三级粒度特征  短文本  

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心