登录    注册    忘记密码

期刊文章详细信息

一种基于语义内积空间模型的文本聚类算法  ( EI收录)  

A Novel Text Clustering Algorithm Based on Inner Product Space Model of Semantic

  

文献类型:期刊文章

作  者:彭京[1] 杨冬青[1] 唐世渭[1] 付艳[1] 蒋汉奎[2]

机构地区:[1]北京大学信息科学技术学院,北京100871 [2]成都市公安局信息通信处,成都610017

出  处:《计算机学报》

基  金:国家自然科学基金(6473051;60503037);中国博士后科学基金(20060400002);四川省青年科技基金(2007Q14-055);国家"八六三"高技术研究发展计划项目基金(2006AA01Z230);北京市自然科学基金(4062018)资助~~

年  份:2007

卷  号:30

期  号:8

起止页码:1354-1363

语  种:中文

收录情况:BDHX、BDHX2004、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、EI、IC、INSPEC、JST、MR、RCCSE、SCOPUS、ZGKJHX、核心刊

摘  要:现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的定义建立了针对中文概念、词和文本的相似度度量方法,然后从理论上进行了分析.最后通过一个两阶段处理过程,即向下分裂和向上聚合,完成文本数据的聚类.该方法成功用于中文短文本数据的聚类.实验表明相对于传统方法,文中提供的方法聚类质量更好.

关 键 词:内积空间 文本聚类 概念相似度 相似计算  数据挖掘  

分 类 号:TP181]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心