期刊文章详细信息
基于实体级遮蔽BERT与BiLSTM-CRF的农业命名实体识别 ( EI收录)
Named entity recognition of agricultural based entity-level masking BERT and BiLSTM-CRF
文献类型:期刊文章
Wei Zijun;Song Ling;Hu Xiaochun;Chen Ningjiang(School of Computer and Electronics Information,Guangxi University,Nanning 530004,China;College of Information Engineering,Nanning University,Nanning 530200,China;Guangxi Key Laboratory of Multimedia Communications and Networks Technology,Nanning 530004,China;School of Information and Statistics,Guangxi University of Finance and Econ)
机构地区:[1]广西大学计算机与电子信息学院,南宁530004 [2]南宁学院信息工程学院,南宁530200 [3]广西多媒体通信与网络技术重点实验室,南宁530004 [4]广西财经学院信息与统计学院,南宁530007
基 金:国家重点研发计划课题(2018YFB1404404);广西重点研发计划项目(桂科AB19110050);南宁市科技重大专项(20211005)。
年 份:2022
卷 号:38
期 号:15
起止页码:195-203
语 种:中文
收录情况:AJ、BDHX、BDHX2020、CAB、CAS、CSCD、CSCD2021_2022、EAPJ、EI、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:字符的位置信息和语义信息对命名方式繁杂且名称长度较长的中文农业实体的识别至关重要。为解决命名实体识别过程中由于捕获字符位置信息、上下文语义特征和长距离依赖信息不充足导致识别效果不理想的问题,该研究提出一种基于EmBERT-BiLSTM-CRF模型的中文农业命名实体识别方法。该方法采用基于Transformer的深度双向预训练语言模型(Bidirectional Encoder Representation from Transformers,BERT)作为嵌入层提取字向量的深度双向表示,并使用实体级遮蔽策略使模型更好地表征中文语义;然后使用双向长短时记忆网络(BidirectionalLong Short-Term Memory,BiLSTM)学习文本的长序列语义特征;最后使用条件随机场(Conditional Random Field,CRF)在训练数据中学习标注约束规则,并利用相邻标签之间的信息输出全局最优的标注序列。训练过程中使用了焦点损失函数来缓解样本分布不均衡的问题。试验在构建的语料库上对农作物品种、病害、虫害和农药4类农业实体进行识别。结果表明,该研究的EmBERT-BiLSTM-CRF模型对4类农业实体的识别性能相较于其他模型有明显提升,准确率为94.97%,F1值为95.93%。
关 键 词:农业 命名实体识别 实体级遮蔽 BERT BiLSTM CRF
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...