[Hadoop] Impala和Elk

Elk技术特点:
1.支持HDFS数据本地访问的最大化特性。
2.高效率的关系数据库的分布式流水线执行取代了Map/Reduce框架。
3.本地智能过滤扫描减少了网络数据交换流量。
4.充分利用HDFS优良的存储可扩展性支持海量数据。
5.支持标准SQL查询语法(Elk全支持,Impala有少部分不支持)

 

Impala不足点:
1. 单独集群,无法用YARN做统一资源管理
2. 无索引,查询时依靠大量任务扫描,任务较多,资源消耗较大
3. 并发查询时,IO资源不足,扫描速度会受影响,并发查询与Spark+Carbon差距较大
4. Impala内部是类似于MPP流水线架构,依靠内存做中间结果缓存,在做大数据集的查询时容易不稳定。
5. 查询内部没有HA保障,如果查询时失败,需要整个任务重算,hive、spark等任务不会中断会继续在别的节点上重新从出问题的task开始计算,不会重计算
6. Impala只提供SQL能力,Spark可提供SQL\Dataframe, 机器学习,流计算等功能。

分类上一篇:     分类下一篇:

Leave a Reply