期刊文章详细信息
面向大数据处理的并行优化抽样聚类K-means算法
Parallel optimization sampling clustering K-means algorithm for big data processing
文献类型:期刊文章
机构地区:[1]湖南大学信息科学与工程学院,长沙410082
基 金:国家自然科学基金资助项目(61173107);国家863计划项目(2012AA01A301-01)~~
年 份:2016
卷 号:36
期 号:2
起止页码:311-315
语 种:中文
收录情况:AJ、BDHX、BDHX2014、CSA、CSA-PROQEUST、CSCD、CSCD_E2015_2016、IC、INSPEC、JST、RCCSE、ZGKJHX、ZMATH、核心刊
摘 要:针对大数据环境下K-means聚类算法聚类精度不足和收敛速度慢的问题,提出一种基于优化抽样聚类的K-means算法(OSCK)。首先,该算法从海量数据中概率抽样多个样本;其次,基于最佳聚类中心的欧氏距离相似性原理,建模评估样本聚类结果并去除抽样聚类结果的次优解;最后,加权整合评估得到的聚类结果得到最终k个聚类中心,并将这k个聚类中心作为大数据集聚类中心。理论分析和实验结果表明,OSCK面向海量数据分析相对于对比算法具有更好的聚类精度,并且具有很强的稳健性和可扩展性。
关 键 词:大数据 K-均值 概率抽样 欧氏距离 聚类精度
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...