登录    注册    忘记密码

期刊文章详细信息

基于大规模语料库的汉语词义相似度计算方法    

Chinese Lexical Semantic Similarity Computing Based on Large-scale Corpus

  

文献类型:期刊文章

作  者:石静[1] 吴云芳[1] 邱立坤[2] 吕学强[3]

机构地区:[1]北京大学计算语言学研究所,北京100871 [2]鲁东大学文学院,山东烟台264025 [3]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101

出  处:《中文信息学报》

基  金:国家863项目(No.2012AA011101);国家自然科学基金(61103089);网络文化与数字传播北京市重点实验定开放课题(ICDD301202)

年  份:2013

卷  号:27

期  号:1

起止页码:1-6

语  种:中文

收录情况:BDHX、BDHX2011、CSCD、CSCD2013_2014、JST、RCCSE、ZGKJHX、核心刊

摘  要:词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用。该文研究了基于大规模语料库的汉语词义相似度计算方法,系统地比较分析了上下文特征权值的选择、向量相似度计算方法、基于窗口和基于依存关系的表征形式、新闻语体和网络语体的差异。实验结果表明,在网络语言语料上,基于窗口选取上下文特征,用互信息PMI来计算权值,采用cosine来计算相似度,取得了最好的词义相似度结果。

关 键 词:词义相似度  上下文特征  权值选择  依存关系  

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心