期刊文章详细信息
文献类型:期刊文章
机构地区:[1]四川民族学院计算机科学系,康定626001 [2]四川大学计算机学院,成都610065
基 金:国家自然科技基金项目(61332066;81373239)
年 份:2015
卷 号:52
期 号:3
起止页码:511-516
语 种:中文
收录情况:BDHX、BDHX2014、BIOSISPREVIEWS、CAS、CSCD、CSCD2015_2016、JST、MR、RCCSE、ZGKJHX、ZMATH、ZR、核心刊
摘 要:近年来微博的快速发展为命名体识别提供了新的载体,同时微博的特点也为命名体识别研究带来了挑战.针对微博特点,本文提出了基于拼音相似距离以及文本相似距离聚类算法对微博文本进行规范化,消除了微博的语言表达不规范造成的干扰.同时,本文还提出了篇章级、句子级以及词汇级三级粒度的特征提取,使用条件随机场模型进行训练数据,并识别命名体,采用由微博文本相似聚类获得的实体关系类对命名体类型进行修正.由于缺少大量的微博训练数据,本文采用半监督学习框架训练模型.通过对新浪微博数据的实验结果表明,本方法能够有效地提高微博中命名体识别的效果.
关 键 词:微博 条件随机场 命名实体 三级粒度特征 短文本
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...