期刊文章详细信息
文献类型:期刊文章
机构地区:[1]中国人民大学信息学院计算机系,北京100872
基 金:国家自然科学基金(No.70871115)
年 份:2014
卷 号:50
期 号:5
起止页码:33-38
语 种:中文
收录情况:AJ、CSA、CSA-PROQEUST、CSCD、CSCD2013_2014、IC、INSPEC、JST、RCCSE、ZGKJHX、普通刊
摘 要:通过分析已有的基于统计和基于语义分析的文本相似性度量方法的不足,提出了一种新的基于语言网络和词项语义信息的文本相似度计算方法。对文本建立语言网络,计算网络节点综合特征值,选取TOP比例特征词表征文本,有效降低文本表示维度。计算TOP比例特征词间的相似度,以及这些词的综合特征值所占百分比以计算文本之间的相似度。利用提出的相似度计算方法在数据集上进行聚类实验,实验结果表明,提出的文本相似度计算方法,在F-度量值标准上优于传统的TF-IDF方法以及另一种基于词项语义信息的相似度量方法。
关 键 词:语言网络 文本聚类 文本相似度 词语相似度
分 类 号:TP311]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...