期刊文章详细信息
一种结合词项语义信息和TF-IDF方法的文本相似度量方法 ( EI收录)
A Text Similarity Measurement Combining Word Semantic Information with TF-IDF Method
文献类型:期刊文章
机构地区:[1]中山大学信息科学与技术学院,广州510006 [2]广东金融学院计算机科学与技术系,广州510520
基 金:国家自然科学基金(61033010);国家科技重大专项基金(2008ZX10005-013);广东省科技计划项目(2009A080207005;2009B090300450;2010A040303004)资助~~
年 份:2011
卷 号:34
期 号:5
起止页码:856-864
语 种:中文
收录情况:BDHX、BDHX2008、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、EI(收录号:20112314043641)、IC、INSPEC、JST、MR、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增加了文本表示向量的维度,但不能很好地反映两篇文本之间的相似程度.文中在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高TF-IDF值的重要词项.借助外部词典分析词项之间的语义相似度,结合该文提出的词项相似度加权树以及文本语义相似度定义计算两篇文本之间的相似度.最后利用文本相似度在基准文本数据集合上进行聚类实验.实验结果表明文中提出的方法在基于F-度量值标准上优于TF-IDF以及另一种基于词项语义相似性的方法.
关 键 词:文本聚类 词项语义相似度 文本相似度 自然语言处理
分 类 号:TP311]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...