登录    注册    忘记密码

期刊文章详细信息

基于文档结构与深度学习的金融公告信息抽取    

Information extraction of financial announcement based on document structure and deep learning

  

文献类型:期刊文章

作  者:黄胜[1,2] 王博博[1,2] 朱菁[3]

HUANG Sheng;WANG Bo-bo;ZHU Jing(School of Communication and Information Engineering,Chongqing University of Posts and Telecommunications,Chongqing 400065,China;Key Laboratory of Optical Communications and Networking,Chongqing University of Posts and Telecommunications,Chongqing 400065,China;Data Center,Shenzhen Securities Information Limited Company,Shenzhen 518000,China)

机构地区:[1]重庆邮电大学通信与信息工程学院,重庆400065 [2]重庆邮电大学光通信与网络重点实验室,重庆400065 [3]深圳证券信息有限公司数据中心,广东深圳518000

出  处:《计算机工程与设计》

基  金:国家自然科学基金项目(61371096)

年  份:2020

卷  号:41

期  号:1

起止页码:115-121

语  种:中文

收录情况:BDHX、BDHX2017、CSA、CSA-PROQEUST、IC、INSPEC、JST、RCCSE、ZGKJHX、核心刊

摘  要:针对金融类公告中的结构化数据难以被高效快速提取的问题,提出一种基于文档结构与Bi-LSTM-CRF网络模型的信息抽取方法。自定义一种文档结构树生成算法,利用规则从文档结构树中抽取所需节点信息;构建基于信息句触发词的局部句子规则,抽取包含结构化字段信息的信息句;将字段的结构化信息抽取看作序列标注问题,分词时加入领域知识词典,构建基于Bi-LSTM-CRF的神经网络模型进行字段信息识别。实验结果表明,该信息抽取方法可以满足多类型公告的结构化信息提取,最终的信息句与字段信息抽取的平均F1值均可达到91%以上,验证了该方法在产品业务中的可行性和实用性。

关 键 词:公告 信息抽取 神经网络 文档结构树  序列标注  

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心