期刊文章详细信息
数字人文下的典籍深度学习实体自动识别模型构建及应用研究
Construction and Application of Entity Recognition Model Based on Deep Learning of Classics in Digital Humanities
文献类型:期刊文章
Du Yue;Wang Dongbo;Jiang Chuan;Xu Runhua;Li Bin;Xu Chao;Xu Chenfei(College of Information and Technology,Nanjing Agricultural University,Nanjing 210095;College of Humanities,Jinling University of Science and Technology,Nanjing 210001;College of Literature,Nanjing Normal University,Nanjing 210097;Economics and Management School of Nantong University,Nantong 226019)
机构地区:[1]南京农业大学信息科学技术学院,南京210095 [2]金陵科技学院人文学院,南京210001 [3]南京师范大学文学院,南京210097 [4]南通大学经济与管理学院,南通226019
基 金:国家自然科学基金面上项目"基于典籍引得的句法级汉英平行语料库构建及人文计算研究"(项目编号:71673143);国家社会科学基金重大项目"基于《汉学引得丛刊》的典籍知识库构建及人文计算研究"(项目编号:15ZDB127)研究成果之一。
年 份:2021
卷 号:65
期 号:3
起止页码:100-108
语 种:中文
收录情况:BDHX、BDHX2020、CSSCI、CSSCI2021_2022、JST、RCCSE、RWSKHX、ZGKJHX、核心刊
摘 要:[目的/意义]典籍是我国传统文化、思想和智慧的载体,结合数字人文的数据获取、标注和分析方法对典籍进行实体自动识别,对于后续应用研究具有重要意义。[方法/过程]基于经过自动分词与人工标注的25本先秦典籍构建古籍语料库,分别基于不同规模的语料库和Bi-LSTM、Bi-LSTM-Attention、Bi-LSTM-CRF、Bi-LSTM-CRF-Attention、Bi-RNN和Bi-RNN-CRF、BERT等7种深度学习模型,从中抽取构成历史事件的相应实体并进行效果对比。[结果/结论]在全部语料上训练得到的Bi-LSTM-Attention与Bi-RNN-CRF模型的准确率分别达到89.79%和89.33%,证实了深度学习应用于大规模文本数据集的可行性。
关 键 词:数字人文 深度学习 命名实体识别 先秦典籍
分 类 号:I206.2] TP18] TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...