期刊文章详细信息
文献类型:期刊文章
机构地区:[1]北京大学信息科学技术学院计算语言学研究所计算语言学教育部重点实验室,北京100871
基 金:国家自然科学基金(60975054;61273318);国家社会科学基金(06BYY048)资助~~
年 份:2015
卷 号:38
期 号:2
起止页码:272-281
语 种:中文
收录情况:BDHX、BDHX2014、CSA、CSA-PROQEUST、CSCD、CSCD2015_2016、EI(收录号:20151200650590)、IC、INSPEC、JST、MR、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:字标注分词方法是当前中文分词领域中一种较为有效的分词方法.但因为受制于训练语料的领域和规模,该方法在领域适应性方面效果不佳,影响了该方法在应用系统中的实际应用.在文中,作者提出使用卡方统计量以及边界熵提升未登录词的处理能力,并结合自学习和协同学习策略进一步改善字标注分词方法在领域适应性方面的性能.实验结果证实,文中提出的这些方法有效改善了分词方法的领域适应性.
关 键 词:卡方统计量 边界熵 领域适应性 自举算法 中文分词 社会计算 社交网络
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...