期刊文章详细信息

基于Hadoop的SQL查询引擎性能研究
Research on SQL-on-Hadoop systems

文献类型：期刊文章

作　　者：吴黎兵[1] 邱鑫[1,2] 叶璐瑶[1] 王晓栋[2] 聂雷[1]

机构地区：[1]武汉大学计算机学院,武汉430072 [2]英特尔英特尔亚太研发中心,上海201100

出　　处：《华中师范大学学报（自然科学版）》

基　　金：国家自然科学基金项目(61272112;61472287);湖北省自然科学基金重点项目(2015CFA068)

年　　份：2016

卷　　号：50

期　　号：2

起止页码：174-182

语　　种：中文

收录情况：BDHX、BDHX2014、CAS、CSA-PROQEUST、IC、JST、MR、PUBMED、RCCSE、WOS、ZGKJHX、ZMATH、ZR、核心刊

摘　　要：Apache Hadoop处理超大规模数据集有非常出色的表现,相比较于传统的数据仓库和关系型数据库有不少优势.为了让原有业务能够充分利用Hadoop的优势,SQL-on-Hadoop系统越来越受到工业界和学术界的关注.基于Hadoop的SQL查询引擎种类繁多,各有优势,其运算引擎主要包括三种:1传统的Map/Reduce引擎;2新兴的Spark引擎;3基于shared-nothing架构的MPP引擎.本文选取了其中最有代表性的三种SQL查询引擎—Hive、Spark SQL、Impala,并使用了一种类TPC-H的测试基准对它们的决策支持能力进行测试及评估.从实验结果来看,Impala和Spark SQL相对于传统的Hive都有较大的提高,其中Impala的部分查询比Hive快了10倍以上,并且Impala在完成查询所占用的集群资源也是最少的.然而若从稳定性、易用性、兼容性和性能等多个方面进行对比,并不存在各方面均最优的查询引擎,因此在构建基于Hadoop的数据仓库系统时,推荐采用Hive+Impala或者Hive+Spark SQL的混合架构.

关键词：大数据 SQL-on-Hadoop 数据仓库 SPARK SQL IMPALA Hive

分类号：TP311]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

基于Hadoop的SQL查询引擎性能研究
Research on SQL-on-Hadoop systems

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

基于Hadoop的SQL查询引擎性能研究 Research on SQL-on-Hadoop systems

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

基于Hadoop的SQL查询引擎性能研究
Research on SQL-on-Hadoop systems