登录    注册    忘记密码

期刊文章详细信息

融合无监督特征的藏文分词方法研究    

Study on Fusion of Unsupervised Features for Tibetan Word Segmentation

  

文献类型:期刊文章

作  者:李亚超[1] 加羊吉[1] 江静[1] 何向真[1] 于洪志[1]

机构地区:[1]西北民族大学中国民族语言文字信息技术重点实验室,甘肃兰州730030

出  处:《中文信息学报》

基  金:国家社科基金青年项目(15CYY043);国家自然科学基金(61262054);甘肃省高等学校科研项目(2016B-007);甘肃省民族语言智能处理重点实验室开放基金;西北民族大学中央高校基本科研业务费专项资金(31920140064;31920150089)

年  份:2017

卷  号:31

期  号:2

起止页码:71-75

语  种:中文

收录情况:BDHX、BDHX2014、CSCD、CSCD2017_2018、JST、RCCSE、ZGKJHX、核心刊

摘  要:藏文分词是藏文信息处理的基础性关键问题,目前基于序列标注的藏文分词方法大都采用音节位置特征和类别特征等。该文从无标注语料中抽取边界熵特征、邻接变化数特征、无监督间隔标注等无监督特征,并将之融合到基于序列标注的分词系统中。从实验结果可以看出,与基线藏文分词系统相比,分词F值提高了0.97%,并且未登录词识别结果也有较大的提高。说明,该文从无标注数据中提取出的无监督特征较为有效,和有监督的分词模型融合到一起显著提高了基线分词系统的效果。

关 键 词:藏文 分词 序列标注  

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心