期刊文章详细信息
一种基于语义内积空间模型的文本聚类算法 ( EI收录)
A Novel Text Clustering Algorithm Based on Inner Product Space Model of Semantic
文献类型:期刊文章
机构地区:[1]北京大学信息科学技术学院,北京100871 [2]成都市公安局信息通信处,成都610017
基 金:国家自然科学基金(6473051;60503037);中国博士后科学基金(20060400002);四川省青年科技基金(2007Q14-055);国家"八六三"高技术研究发展计划项目基金(2006AA01Z230);北京市自然科学基金(4062018)资助~~
年 份:2007
卷 号:30
期 号:8
起止页码:1354-1363
语 种:中文
收录情况:BDHX、BDHX2004、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、EI、IC、INSPEC、JST、MR、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的定义建立了针对中文概念、词和文本的相似度度量方法,然后从理论上进行了分析.最后通过一个两阶段处理过程,即向下分裂和向上聚合,完成文本数据的聚类.该方法成功用于中文短文本数据的聚类.实验表明相对于传统方法,文中提供的方法聚类质量更好.
关 键 词:内积空间 文本聚类 概念相似度 相似计算 数据挖掘
分 类 号:TP181]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...