登录    注册    忘记密码

期刊文章详细信息

基于Spark的大数据聚类研究及系统实现    

Research and Implementation of Big Data Clustering Based on Spark

  

文献类型:期刊文章

作  者:王磊[1,2,3] 邹恩岑[1,2,3] 曾诚[4] 奚雪峰[1,2,3] 陆悠[1,2,3]

Wang Lei;Zou Encen;Zeng Cheng;Xi Xuefeng;Lu You(School of Electronic and Information Engineering,Suzhou University of Science and Technology,Suzhou,215009,China;Virtual Reality Key Laboratory of Intelligent Interaction and Application Technology of Suzhou,Suzhou,215009,China;Big Data Key Laboratory of PuKai,Suzhou University of Science and Technology,Suzhou,215009,China;Kunshan Public Security Bureau Command Center,Suzhou,215300,China)

机构地区:[1]苏州科技大学电子与信息工程学院,苏州215009 [2]苏州市虚拟现实智能交互及应用技术重点实验室,苏州215009 [3]苏州科技大学普开大数据重点实验室,苏州215009 [4]昆山市公安局指挥中心,苏州215300

出  处:《数据采集与处理》

基  金:国家自然科学基金(61673290;61750110534;61728205)资助项目;苏州市科技发展计划(SYG201707;SYG201817)资助项目

年  份:2018

卷  号:33

期  号:6

起止页码:1077-1085

语  种:中文

收录情况:AJ、BDHX、BDHX2017、CSA、CSA-PROQEUST、CSCD、CSCD_E2017_2018、IC、INSPEC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊

摘  要:传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结合聚类算法的迭代计算特点,提出并实现了一种基于Spark平台的聚类系统。针对稀疏集和密集集两种不同类型的数据集,系统首先采用不同策略实现数据预处理;其次分析比较了不同聚类算法在Spark平台下的聚类性能,并给出最佳方案;最后利用数据持久化技术提高了计算速度。实验结果表明,所提系统能够有效满足海量数据聚类分析的任务要求。

关 键 词:SPARK 聚类 大数据

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心