期刊文章详细信息
基于维基百科的中文嵌套命名实体识别语料库自动构建
Automatic Construction of Chinese Nested Named Entity Recognition Corpus Based on Wikipedia
文献类型:期刊文章
LI Yanqun;HE Yunqi;QIAN Longhua;ZHOU Guodong(Natural Language Processing Laboratory,School of Computer Science and Technology, Soochow University,Suzhou,Jiangsu 215006,China)
机构地区:[1]苏州大学计算机科学与技术学院自然语言处理实验室,江苏苏州215006
基 金:国家自然科学基金(61373096;61331011;61673290)
年 份:2018
卷 号:44
期 号:11
起止页码:76-82
语 种:中文
收录情况:AJ、BDHX、BDHX2017、CAS、CSA、CSA-PROQEUST、CSCD、CSCD_E2017_2018、IC、INSPEC、JST、RCCSE、SCOPUS、UPD、ZGKJHX、核心刊
摘 要:传统的监督学习方法需要标注一定规模的领域内语料库,限制了其领域适应性。为此,提出一种从中文维基百科条目中自动构建中文嵌套命名实体识别语料库的方法。对中文维基百科的条目进行实体分类,利用实体条目构造实体的嵌套结构,从而自动生成大规模的中文嵌套命名实体识别语料库。在手工标注嵌套命名实体识别语料库上的实验结果表明,自动构建的语料库具有规模较大、领域广的特点,且能够适应宽泛领域上的中文嵌套命名实体识别任务。
关 键 词:嵌套命名实体识别 信息抽取 维基百科 语料库 条件随机场
分 类 号:TP311]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...