登录    注册    忘记密码

期刊文章详细信息

最大距离法选取初始簇中心的K-means文本聚类算法的研究    

K-means text clustering algorithm based on initial cluster centers selection according to maximum distance

  

文献类型:期刊文章

作  者:翟东海[1,2] 鱼江[1] 高飞[2] 于磊[1] 丁锋[2]

机构地区:[1]西南交通大学信息科学与技术学院,成都610031 [2]西藏大学工学院,拉萨850000

出  处:《计算机应用研究》

基  金:国家语委"十二五"科研规划项目(YB125-49);国家教育部科学技术研究重点项目(212167);中央高校基本科研业务费专项资金科技创新项目(SWJTU12CX096);西藏自治区大学生创新性实验训练计划项目(2011CX051)

年  份:2014

卷  号:31

期  号:3

起止页码:713-715

语  种:中文

收录情况:AJ、BDHX、BDHX2011、CSA-PROQEUST、CSCD、CSCD2013_2014、IC、INSPEC、JST、RCCSE、UPD、ZGKJHX、ZMATH、核心刊

摘  要:由于初始簇中心的随机选择,K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题,提出了最大距离法选取初始簇中心的Kmeans文本聚类算法。该算法基于这样的事实:距离最远的样本点最不可能分到同一个簇中。为使该算法能应用于文本聚类,构造了一种将文本相似度转换为文本距离的方法,同时也重新构造了迭代中的簇中心计算公式和测度函数。在实例验证中,对分属于五个类别的1 500篇文本组成的文本集进行了文本聚类分析,其结果表明,与原始的K-means聚类算法以及其他的两种改进的K-means聚类算法相比,新提出的文本聚类算法在降低了聚类总耗时的同时,F度量值也有了明显提高。

关 键 词:K-MEANS聚类算法 最大距离  文本聚类 文本距离  测度函数  F度量值  

分 类 号:TP301.6]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心