相关介绍
Impala是一个架构于hadoop之上的全新、开源MPP查询引擎,提供低延迟、高并发的以读为主的查询。通过Impala,你可以使用SELECT、JOIN和聚集函数等语法,实时地查询储存在HDFS或HBase上的数据。
Impala使用Hive的元数据库、SQL语法、ODBC驱动及用户界面。在使用impala的时候,必须保证hive服务是正常可靠的,至少metastore开启。
Impala跟Hive最大的区别在于:没有使用 MapReduce进行并行计算,Impala把整个查询分成执行计划树,在分发执行计划后,Impala使用拉式获取数据的方式获取结果,把结果数据组成按执行树流式传递汇集,减少的了把中间结果写入磁盘的步骤,再从磁盘读取数据的开销。
官方测试性能比hive快10到100倍,是当前大数据生态圈中执行效率最高的SQL类软件。
关键词:Apache Impala
网址预览

预览图片
数据评估
关于Apache Impala特别声明
本站萌导航网提供的Apache Impala都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由萌导航网实际控制,在2023年1月2日 下午1:45收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,萌导航网不承担任何责任。
相关导航
一个免费开源、分布式、高容错的实时计算系统
Apache Spark
专为大规模数据处理而设计的快速通用的计算引擎
Apache Hadoop
阿帕奇™ Hadoop®项目开发用于可靠、可扩展、分布式计算的开源软件。
Apache Phoenix
一个运行在HBase 上的SQL 框架,绕过了MapReduce
Cloudera
Cloudera提供了一个具有安全数据管理和便携式云原生数据分析的混合数据平台,可更快、更容易地将任何地方的复杂数据转换为可操作的见解。
Apache Calcite
独立于存储与执行的SQL解析、优化引擎,广泛应用于各种离线、搜索、实时查询引擎
Apache Samza
一个分布式流处理框架,基于Kafka消息队列来实现类实时的流式数据处理
GBase 8a MPP Cluster
实现大数据的全数据(结构化数据、半结构化数据和非结构化数据)存储管理和高效分析



