期刊文章详细信息
文献类型:期刊文章
HUANG Zhengpeng;WANG Li;ZHANG Mingfu(School of Information Engineering,Guizhou University of Engineering Science,Bijie 551700,China)
机构地区:[1]贵州工程应用技术学院信息工程学院
基 金:贵州省教育厅青年科技人才成长项目:扶贫大数据的存储结构及访问优化研究(黔教合KY字[2016]289);贵州省教育厅创新群体重大研究项目:精准扶贫多源异构数据融合研究与平台建设(黔教合KY字[2016]057);贵州工程应用技术学院“互联网+”创新创业训练中心(黔教合JX字DC201601号)
年 份:2020
卷 号:43
期 号:3
起止页码:116-120
语 种:中文
收录情况:BDHX、BDHX2017、IC、RCCSE、ZGKJHX、核心刊
摘 要:大数据资源是企业拥有的最重要的战略资源之一,也是管理层制定远景规划,提高市场竞争力的主要方式和途径,但大数据中会存在错误、冗余和不完整的数据,降低了大数据的总体质量。为此设计一种基于云计算的海量大数据智能清洗系统,改善现有大数据清洗系统在脏数据处理性能上的不足。分析了基于云计算的大数据智能清洗系统的总体框架和硬件构成,数据清洗系统的硬件部分由数据预处理模块、数据云聚类模块、数据识别模块和实体划分模块等部分组成;给出了智能大数据清洗系统的总体软件工作流程,并重点分析大数据空间聚类、相似度计算等关键的数据处理技术。验证结果表明,提出的基于云计算的海量大数据智能清洗系统设计的总体功能性较为完善,在系统性能测试方面也能够保持95%以上的数据查准率和召回率。
关 键 词:云计算 海量大数据 智能清洗系统 云聚类 查准率 召回率
分 类 号:TN02-34]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...