
相关介绍
Impala是一个架构于hadoop之上的全新、开源MPP查询引擎,提供低延迟、高并发的以读为主的查询。通过Impala,你可以使用SELECT、JOIN和聚集函数等语法,实时地查询储存在HDFS或HBase上的数据。
Impala使用Hive的元数据库、SQL语法、ODBC驱动及用户界面。在使用impala的时候,必须保证hive服务是正常可靠的,至少metastore开启。
Impala跟Hive最大的区别在于:没有使用 MapReduce进行并行计算,Impala把整个查询分成执行计划树,在分发执行计划后,Impala使用拉式获取数据的方式获取结果,把结果数据组成按执行树流式传递汇集,减少的了把中间结果写入磁盘的步骤,再从磁盘读取数据的开销。
官方测试性能比hive快10到100倍,是当前大数据生态圈中执行效率最高的SQL类软件。
关键词:Apache Impala
网址预览
预览图片
数据评估
关于Apache Impala特别声明
本站萌导航网提供的Apache Impala都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由萌导航网实际控制,在2023年1月2日 下午1:45收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,萌导航网不承担任何责任。
相关导航

一款高吞吐量、低延迟的针对流数据和批数据的分布式实时处理引擎

GBase 8a MPP Cluster
实现大数据的全数据(结构化数据、半结构化数据和非结构化数据)存储管理和高效分析

Teradata
全球领先的业务分析解决方案、数据分析解决方案和混合云产品和服务的供应商

Apache Samza
一个分布式流处理框架,基于Kafka消息队列来实现类实时的流式数据处理

APACHE HIVE
Hadoop 生态系统中的第一个SQL框架

Apache Kylin
一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据

Apache Storm
一个免费开源、分布式、高容错的实时计算系统

Apache Drill
Apache Drill是一个低延迟的分布式海量数据(涵盖结构化、半结构化以及嵌套数据)交互式查询引擎,使用ANSI SQL兼容语法,支持本地文件、HDFS、HBase、MongoDB等后端存储,支持Parquet、JSON、CSV、TSV、PSV等数据格式。