登录    注册    忘记密码

期刊文章详细信息

基于RNN的中文二分结构句法分析    

RNN Based Chinese Parsing for Binary Tree Structure

  

文献类型:期刊文章

作  者:谷波[1] 王瑞波[2] 李济洪[2] 李国臣[3]

GU Bo;WANG Ruibo;LI Jihong;LI Guochen(School of Computer and Information Technology,Shanxi University,Taiyuan,Shanxi 030006,China;School of Software,Shanxi University,Taiyuan,Shanxi 030006,China;Taiyuan Institute of Technology,Taiyuan,Shanxi 030008,China)

机构地区:[1]山西大学计算机与信息技术学院,山西太原030006 [2]山西大学软件学院,山西太原030006 [3]太原工业学院,山西太原030008

出  处:《中文信息学报》

基  金:国家社会科学基金(16BTJ34)

年  份:2019

卷  号:33

期  号:1

起止页码:35-45

语  种:中文

收录情况:BDHX、BDHX2017、CSCD、CSCD2019_2020、JST、RCCSE、ZGKJHX、核心刊

摘  要:为了构建一个简单易扩展的中文句法分析器,我们依据朱德熙和陆俭明先生的中文二分结构的层次分析句法理论,手工构建了一个3万句的二分结构的中文句法树库,并使用哈夫曼编码方式来简化表示完全二叉树的层次结构。该文将中文句法分析转换为迭代二分的序列标注问题,并根据该任务的特点,提出了在词的间隔上进行标记的序列标注模型(RNN-Interval,RNN-INT),与常用的循环神经网络模型(RNN,LSTM)和条件随机场模型(CRF)进行对比实验,使用mx2交叉验证序贯t-检验来比较模型。实验结果表明,RNN-INT模型在窗口为1的词特征就可达到最好的性能,并好于其他窗口大小和其他序列标注模型(RNN,LSTM,CRF)。最后,在测试集上,在人工分词下,RNN-INT在短语级别的F1值(块F1)达到71.25%,在句子级别的准确率达到约43%。

关 键 词:层次句法分析  循环神经网络(RNN)  m×2CV序贯t-检验  

分 类 号:TP391.1] TP183[计算机类]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心