登录    注册    忘记密码

会议论文详细信息

大数据随机样本划分模型及相关分析计算技术       

文献类型:会议

作  者:黄哲学 何玉林 魏丞昊 张晓亮

作者单位:深圳大学计算机与软件学院大数据技术与应用研究所 广东 深圳518060 大数据系统计算技术国家工程实验室 广东 深圳 518060

会议文献:第六届中国计算机学会大数据学术会议论文集

会议名称:第六届中国计算机学会大数据学术会议

会议日期:20181011

会议地点:西安

主办单位:中国计算机学会

出版日期:20181011

语  种:中文

摘  要:本文设计了一种新的适用于大数据的管理和分析模型——大数据随机样本划分模型(Random Sample Partition模型,简称RSP模型),它是将大数据文件表达成一系列RSP数据块文件的集合,分布存储在集群节点上.RSP的生成操作使每个RSP数据块的数据分布与大数据的分布保持统计一致,因此,每个RSP数据块是大数据的一个随机样本数据,可以用来估计大数据的统计特征,或建立大数据的分类和回归模型.基于RSP模型,大数据的分析任务可以通过对RSP数据块的分析来完成,不需要对整个大数据进行计算,极大地减少了计算量,降低了对计算资源的要求,提高了集群系统的计算能力和扩展能力.本文首先给出RSP模型的定义、理论基础和生成方法;然后介绍基于RSP数据块的逼近式集成学习Alpha计算框架;之后讨论基于RSP模型和Alpha框架的大数据分析相关计算技术,包括:数据探索与清洗、概率密度函数估计、有监督子空间学习、半监督集成学习、聚类集成、异常点检测;最后讨论RSP模型在分而治之大数据分析和抽样方法上的创新,以及RSP模型和Alpha计算框架实现大规模数据分析的优势.

关 键 词:大数据分析  随机样本划分  逼近式集成学习  

分 类 号:TP311.131]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心