[Spark] Hive on Spark vs Spark SQL,以及Spark on HBase

个人还是强烈推荐使用Spark SQL,但是如果考虑到项目的兼容性,可以先考虑采用Hive on Spark作为过渡,因为SQL完全兼容。

 

一、Hive on Spark vs Spark SQL

 

附:

Hive on spark 社区已知问题:

1)HIVE-15104 Hive on Spark generate more shuffle data than hive on mr
这个问题会导致所有的shuffle中间结果, hive on spark比hive on mr都要大. 在distinct count的场景下,会导致性能极大下降,甚至出现oom

2)不支持conditional task
Hive on mr支持map join condition task,在map join失败的时候,可以回滚到shuffle join,但是 hive on spark不支持. 会导致在hive on mr运行成功的sql, 某些数据量情况下hive on spark会运行失败

3)HIVE-13308 HiveOnSpark sumbit query very slow when hundred of beeline exectue at same time
这个问题,提交任务的时候,会有瓶颈点,我们的版本解决了,但是社区没有.

4)HIVE-9044 Union input to a join operator poses problem when converting to map join
Union 的sql语句不支持map join。

 

 

二、 关于Spark on HBase

Spark onHBase,最主要的功能是在HBase上使用条件查询聚合等功能,这样的好处是,要求不高的情况下,数据不用冗余。

所以实际项目中我们是不考虑了

 

 

 

 

分类上一篇:无,已是最新文章    分类下一篇:无,已是最新文章

Leave a Reply