登录    注册    忘记密码

期刊文章详细信息

基于MapReduce的并行聚类算法设计与实现    

DESIGN AND IMPLEMENTATION OF PARALLEL CLUSTERING ALGORITHM BASED ON MAPREDUCE

  

文献类型:期刊文章

作  者:刘向东[1] 刘奎[1] 胡飞翔[2] 王翠荣[1]

机构地区:[1]东北大学秦皇岛分校计算机与通信工程学院,河北秦皇岛066004 [2]东北大学信息工程学院,辽宁沈阳110000

出  处:《计算机应用与软件》

基  金:国家自然科学基金项目(61070162;71071028)

年  份:2014

卷  号:31

期  号:11

起止页码:251-256

语  种:中文

收录情况:BDHX、BDHX2011、CSA、CSA-PROQEUST、CSCD、CSCD2013_2014、IC、ZGKJHX、核心刊

摘  要:针对目前聚类算法对大数据处理效率较低的问题,研究云平台上高效并行化的聚类算法十分必要。在HDFS分布式文件系统基础上,设计一种并行聚类算法P-ISODATA,利用MapReduce编程框架的执行机制将传统ISODATA聚类算法并行化,并在Map阶段之后加入Combine阶段以减少网络传输开销,进一步提高执行效率。实验从著名UCI机器学习库上选取若干数据集作为测试数据,分析了新并行算法P-ISODATA性能,结果表明基于P-ISODATA算法具有优良的加速比、数据伸缩率和扩展率,可以有效地应用于大规模数据的处理。

关 键 词:大数据 聚类算法 云平台  并行处理 MAPREDUCE

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心