期刊文章详细信息
文献类型:期刊文章
机构地区:[1]江西财经大学信息管理学院,数据与知识工程江西省高校重点实验室,江西南昌330013
基 金:国家自然科学基金资助项目(61262035;61562034);江西省自然科学基金资助项目(20142BAB207028);江西省科技支撑计划项目(20151BBE50082);江西省教育厅科技项目(GJJ14335)~~
年 份:2016
卷 号:47
期 号:9
起止页码:3079-3084
语 种:中文
收录情况:BDHX、BDHX2014、CAS、CSA-PROQEUST、CSCD、CSCD2015_2016、EI(收录号:20164202912118)、IC、INSPEC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:基于数据稀疏问题是影响语言统计模型系统性能的主要问题,而基于词类的语言统计模型是解决这一问题的主要方法之一,利用相邻词语的互信息定义一种词语相似度,在词语相似度的基础上定义词语集合的相似度,进而提出一种能得到全局最优结果、自下而上的词聚类算法。研究结果表明:该词聚类算法执行效率高,聚类效果较好;根据该词聚类模型的结果所构造的基于词类和基于词语的线性插值模型,能较好地缓解统计语言模型中的数据稀疏问题。
关 键 词:自然语言处理 词聚类 互信息 词相似度
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...