期刊文章详细信息
基于深层语言模型的古汉语知识表示及自动断句研究
Knowledge Representation and Sentence Segmentation of Ancient Chinese Based on Deep Language Models
文献类型:期刊文章
HU Renfen;LI Shen;ZHU Yuchen(Institution of Chinese Information Processing,Beijing Normal University,Beijing 100875,China;College of Chinese Language and Culture,Beijing Normal Univeristy,Beijing 100875,China;School of Chinese Language and Literature,Beijing Normal Univeristy,Beijing 100875,China)
机构地区:[1]北京师范大学中文信息处理研究所,北京100875 [2]北京师范大学汉语文化学院,北京100875 [3]北京师范大学文学院,北京100875
基 金:国家自然科学基金(62006021);教育部人文社会科学研究青年基金(18YJC751073);国家社会科学基金(18ZDA238)。
年 份:2021
卷 号:35
期 号:4
起止页码:8-15
语 种:中文
收录情况:BDHX、BDHX2020、CSCD、CSCD2021_2022、JST、RCCSE、ZGKJHX、核心刊
摘 要:古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求。该文提出了一种基于深层语言模型(BERT)的古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型。在诗、词和古文三种文体上,模型断句F1值分别达到99%、95%和92%以上。在表达较为灵活的词和古文文体上,模型较之传统双向循环神经网络方法的F1值提升幅度达到10%以上。实验数据显示,模型能较好地捕捉诗词表达的节奏感和韵律感,也能充分利用上下文信息,实现语序、语法、语义、语境等信息的编码。在进一步的案例应用中,该方法在已出版古籍的断句疑难误例上也取得了较好的效果。
关 键 词:古汉语 自动断句 深层语言模型
分 类 号:H087]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...