期刊文章详细信息
SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究
Construction and Application of Pre-trained Models of Siku Quanshu in Orientation to Digital Humanities
文献类型:期刊文章
WANG Dongbo;LIU Chang;ZHU Zihe;LIU Jiangfeng;HU Haotian;SHEN Si;LI Bin
机构地区:[1]南京农业大学信息管理学院 [2]南京大学信息管理学院 [3]南京理工大学经济管理学院 [4]南京师范大学文学院
基 金:国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21&ZD331);江苏省社会科学基金青年项目“人文计算视角下的先秦人物知识获取及分析研究”(项目编号:19TQC003)研究成果。
年 份:2022
卷 号:42
期 号:6
起止页码:30-43
语 种:中文
收录情况:BDHX、BDHX2020、CSSCI、CSSCI2021_2022、JST、NSSD、RCCSE、RWSKHX、ZGKJHX、核心刊
摘 要:数字人文研究需要大规模语料库和高性能古文自然语言处理工具的支持。面向英语和现代汉语的预训练语言模型已在相关领域提升了文本挖掘精度,数字人文研究的兴起亟须面向古文自动处理领域的预训练模型。文章以校验后的高质量《四库全书》全文语料作为无监督训练集,基于BERT模型框架,构建面向古文智能处理任务的SikuBERT和SikuRoBERTa预训练语言模型。实验进一步设计面向《左传》语料的古文自动分词、断句标点、词性标注和命名实体识别等验证任务,分别对SikuBERT、SikuRoBERTa预训练模型和其他3种基线模型(BERT-base、RoBERTa、GuwenBERT)进行对比试验。结果显示:SikuBERT和SikuRoBERTa模型在全部4个下游验证任务中的表现均超越其他基线预训练模型,表明文章提出的预训练模型具有较强的古文词法、句法、语境学习能力和泛化能力。基于验证任务效果最优的SikuRoBERTa预训练模型,进一步构建“SIKUBERT典籍智能处理平台”。该平台提供典籍自动处理、检索和自动翻译等在线服务,可以辅助哲学、文学、历史学等领域学者在不具备数据挖掘与深度学习的专业背景下,以直观可视化方式对典籍文本进行高效率、多维度、深层次、细粒化的知识挖掘与分析。
关 键 词:数字人文 四库全书 预训练模型 深度学习
分 类 号:G250.7[图书情报与档案管理类]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...