期刊文章详细信息
文献类型:期刊文章
LI Shuang;CHEN Rui-rui;LIN Nan(School of Information Engineering, Zhengzhou University of Industrial Technology, Zhengzhou 451199, China;College of Software and Application of Science and Technology, Zhengzhou University, Zhengzhou 451199, China)
机构地区:[1]郑州工业应用技术学院信息工程学院,河南郑州451199 [2]郑州大学软件与应用科技学院,河南郑州451199
基 金:国家自然科学基金项目(61502204)
年 份:2018
卷 号:39
期 号:12
起止页码:3734-3738
语 种:中文
收录情况:BDHX、BDHX2017、CSA、CSA-PROQEUST、IC、INSPEC、JST、RCCSE、ZGKJHX、核心刊
摘 要:为提高大数据聚类效率,提出一种基于Hadoop框架的K均值聚类算法。采用Hadoop框架所用的MapReduce模型,将大数据划分成许多数据块。在Map阶段提出权重K均值聚类算法,对每一个数据块独立聚类,得到聚类中心和权重;在Reduce阶段提出加权融合K均值聚类算法,对Map阶段得到的聚类中心和权重进行融合,得到最终的聚类结果。在HIGGS数据集上进行聚类实验,实验结果表明,该算法在保持聚类准确率的前提下大幅提升了大数据聚类时K均值聚类算法的运算效率。
关 键 词:数据挖掘 K均值聚类 Hadoop框架 大数据 MAPREDUCE模型
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...