登录    注册    忘记密码

期刊文章详细信息

基于非参数贝叶斯模型和深度学习的古文分词研究    

Word Segmentation for Ancient Chinese Texts Based on Nonparametric Bayesian Models and Deep Learning

  

文献类型:期刊文章

作  者:俞敬松[1] 魏一[1] 张永伟[2] 杨浩[3]

YU Jingsong;WEI Yi;ZHANG Yongwei;YANG Hao(School of Software and Microelectronics,Peking University,Beijing 100871,China;Institute of Linguistics,Chinese Academy of Social Sciences,Beijing 100732,China;Editorial and Research Center of Confucian Canon,Peking University,Beijing 100871,China)

机构地区:[1]北京大学软件与微电子学院,北京100871 [2]中国社会科学院语言研究所,北京100732 [3]北京大学儒藏编纂与研究中心,北京100871

出  处:《中文信息学报》

基  金:国家自然科学基金(61876004)

年  份:2020

期  号:6

起止页码:1-8

语  种:中文

收录情况:BDHX、BDHX2017、CSCD、CSCD2019_2020、JST、RCCSE、ZGKJHX、核心刊

摘  要:古汉语文本中,汉字通常连续书写,词与词之间没有明显的分割标记,为现代人理解古文乃至文化传承带来许多障碍。自动分词是自然语言处理技术的基础任务之一。主流的自动分词方法需要大量人工分词语料训练,费时费力,古文分词语料获取尤其困难,限制了主流自动分词方法的应用。该文将非参数贝叶斯模型与BERT(Bidirectional Encoder Representations from Transformers)深度学习语言建模方法相结合,进行古文分词研究。在《左传》数据集上,该文提出的无监督多阶段迭代训练分词方法获得的F1值为93.28%;仅使用500句分词语料进行弱监督训练时,F1值可达95.55%,高于前人使用6/7语料(约36 000句)进行有监督训练的结果;使用相同规模训练语料时,该文方法获得的F1值为97.40%,为当前最优结果。此外,该文方法还具有较好的泛化能力,模型代码已开源发布。

关 键 词:古文分词  非参数贝叶斯模型  深度学习  无指导学习 弱指导学习  

分 类 号:TP391] TP18[计算机类]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心