登录    注册    忘记密码

期刊文章详细信息

面向司法领域的藏文事件数据集构建    

Construction of Tibetan Event Dataset Oriented to the Judicial Field

  

文献类型:期刊文章

作  者:高璐[1,2,4] 赵小兵[3,4]

GAO Lu;ZHAO Xiaobing(Dcpartmicnt of Chinese Minority Languages and Literature,Minzu University of China,Beijing 100081,China;Dcpartmicnt of Software,Handan University,Handan,Hebe 056005,China;Dcpartmicnt of Information Engineering,Minzu University of China,Beijing 100081,China;National Language Resource Monitoring&Research Center of Minority Languages,Beijing 100081,China)

机构地区:[1]中央民族大学中国少数民族语言文学学院,北京100081 [2]邯郸学院软件学院,河北邯郸056005 [3]中央民族大学信息工程学院,北京100081 [4]国家语言资源监测与研究少数民族语言中心,北京100081

出  处:《中文信息学报》

基  金:国家社会科学基金(22&ZD035)。

年  份:2023

卷  号:37

期  号:8

起止页码:34-42

语  种:中文

收录情况:BDHX、BDHX2020、CSCD、CSCD2023_2024、JST、RCCSE、ZGKJHX、核心刊

摘  要:为了构建高质量的藏文司法事件数据集,推动藏文司法事件抽取技术的进一步探索、评测与优化。该文面向藏文司法领域,以藏文刑事裁判文书为研究对象,设计了“类别分组-主题建模”两阶段的契合藏文司法实际的事件Schema;采用模型驱动的事件触发词预标注与事件要素人工标注相结合的半自动化数据标注方式,对1863篇藏文刑事裁判文书进行爬取、OCR、降噪、分析、多人协同标注及审核,构建了藏文司法事件数据集TiEvent。TiEvent共定义了3个大类、12个小类的事件类型,涵盖1863个藏文真实司法文本的2249个事件提及。BiLSTM、BiLSTM-CRF、CINO-CRF等事件抽取模型的实验结果表明,藏文司法事件触发词检测和论元识别的最高F1值分别为75.36%、70.98%。在藏文司法文本上,TiEvent具有较高的事件覆盖度和事件要素完整度,能够满足藏文司法事件抽取工作的基本需要。

关 键 词:事件数据集  事件抽取 藏文信息处理

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心