登录    注册    忘记密码

期刊文章详细信息

Spark环境下的并行模糊C均值聚类算法    

Parallel fuzzy C-means clustering algorithm in Spark

  

文献类型:期刊文章

作  者:王桂兰[1] 周国亮[1] 萨初日拉[1] 朱永利[1]

机构地区:[1]华北电力大学信息与网络管理中心,河北保定071003

出  处:《计算机应用》

基  金:中央高校基本科研业务费专项资金资助项目(13MS103);河北省自然科学基金资助项目(F2014502069)~~

年  份:2016

卷  号:36

期  号:2

起止页码:342-347

语  种:中文

收录情况:AJ、BDHX、BDHX2014、CSA、CSA-PROQEUST、CSCD、CSCD_E2015_2016、IC、INSPEC、JST、RCCSE、ZGKJHX、ZMATH、核心刊

摘  要:针对聚类算法需要处理数据集的规模越来越大、时效性要求越来越高,对算法的大数据适应能力和性能要求更高的问题,提出一种在Spark分布式内存计算平台下的模糊C均值(FCM)算法Spark-FCM。首先对矩阵通过水平分割实现分布式存储,不同向量存储在不同节点;然后基于FCM算法的计算特点,设计了分布式和缓存敏感的常用矩阵操作,包括乘法、转置和加法等;最后基于矩阵操作和Spark平台特点,设计了Spark-FCM算法,主要数据结构采用分布式矩阵存储,具有节点间数据移动少和每个步骤分布式计算特点。通过在单机和集群环境下测试,算法具有良好的可扩展性,并可以适应大规模数据集,算法性能与数据量成线性关系,集群环境下性能比单机提高2~3倍。

关 键 词:SPARK 模糊C均值 矩阵运算 内存计算  

分 类 号:TP393.027]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心