期刊文章详细信息
基于MapReduce的并行聚类算法设计与实现
DESIGN AND IMPLEMENTATION OF PARALLEL CLUSTERING ALGORITHM BASED ON MAPREDUCE
文献类型:期刊文章
机构地区:[1]东北大学秦皇岛分校计算机与通信工程学院,河北秦皇岛066004 [2]东北大学信息工程学院,辽宁沈阳110000
基 金:国家自然科学基金项目(61070162;71071028)
年 份:2014
卷 号:31
期 号:11
起止页码:251-256
语 种:中文
收录情况:BDHX、BDHX2011、CSA、CSA-PROQEUST、CSCD、CSCD2013_2014、IC、ZGKJHX、核心刊
摘 要:针对目前聚类算法对大数据处理效率较低的问题,研究云平台上高效并行化的聚类算法十分必要。在HDFS分布式文件系统基础上,设计一种并行聚类算法P-ISODATA,利用MapReduce编程框架的执行机制将传统ISODATA聚类算法并行化,并在Map阶段之后加入Combine阶段以减少网络传输开销,进一步提高执行效率。实验从著名UCI机器学习库上选取若干数据集作为测试数据,分析了新并行算法P-ISODATA性能,结果表明基于P-ISODATA算法具有优良的加速比、数据伸缩率和扩展率,可以有效地应用于大规模数据的处理。
关 键 词:大数据 聚类算法 云平台 并行处理 MAPREDUCE
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...