期刊文章详细信息
文献类型:期刊文章
机构地区:[1]计算语言学教育部重点实验室(北京大学),北京100871 [2]北京大学计算语言学研究所,北京100871 [3]乐山师范学院智能信息处理及应用实验室,四川乐山614000
基 金:国家自然科学基金项目(60703063;61003206);九十八年度蒋经国国际学术交流基金会奖助项目(RG013-D-09)
年 份:2011
卷 号:48
期 号:4
起止页码:610-616
语 种:中文
收录情况:AJ、BDHX、BDHX2008、CSA-PROQEUST、CSCD、CSCD2011_2012、EI、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:同义词集是重要的语言基础知识,基于大规模语料库的同义词集自动获取是自然语言处理领域的一项基础性研究课题.从大规模语料中自动获取有并列结构关联的词语对,据此形成图,采用Newman算法对图进行划分而自动聚类相似词语.着重研究在Newman算法的基础上,充分挖掘和利用并列结构的特性和汉语的构词特点,采用6种方法对图中边的权值加以改进从而提升效果:分割语料、去除低频边、加重双向边、加重团、加重相同后字、惩罚音节不等.同义词集自动获取的准确率从初始的23.28%提升至53.12%,准确率提高了约30个百分点.
关 键 词:相似词 同义词集 图模型 并列结构 Newman算法 边权值
分 类 号:TP18]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...