期刊文章详细信息
文献类型:期刊文章
机构地区:[1]苏州大学计算机科学与技术学院,苏州215006 [2]河南科技学院信息工程学院,新乡453003 [3]河南科技学院人文学院,新乡453003
基 金:国家863计划(2012AA011102);国家自然科学基金(90920004)资助
年 份:2013
卷 号:49
期 号:1
起止页码:7-14
语 种:中文
收录情况:AJ、BDHX、BDHX2011、CAS、CSCD、CSCD2013_2014、EI、IC、INSPEC、JST、MR、PROQUEST、RCCSE、RSC、SCOPUS、WOS、ZGKJHX、ZMATH、ZR、核心刊
摘 要:根据篇章分析的任务和实践,结合传统研究,提出汉语的基本篇章单位为子句,并从结构、功能、形式等方面给出其定义。分析了逗号与子句的关系,并在标注语料上进行了基于逗号的汉语子句识别研究。首先手工标注了CTB6.0中前100篇文档的逗号是否为子句边界的信息,在标注结果中抽取句法、词汇、长度等特征进行实验,子句识别准确率为90%。然后利用信息增益选出贡献最大的9个特征,使用它们也可获得较高的子句识别准确率。最后仅使用词法信息,子句识别准确率可达84.5%。实验证明子句的定义合理,基于逗号的子句识别在理论上和实验上均可行。
关 键 词:逗号 汉语子句 子句识别
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...