Shark (Hive on Spark)
Shark的开发已经结束, 并被 Spark SQL 纳入其中。有关详细信息, 请参阅此博客文章。
Shark构建在Hive代码库上,通过交换Hive的物理执行引擎部分来实现性能改进。虽然这种方法使Shark用户能够加速他们的Hive查询,但是Shark从Hive继承了一个庞大而复杂的代码库,这使得很难进行优化和维护。当我们开始推动性能优化的边界并将复杂的分析与SQL集成时,我们受到为MapReduce设计的遗留问题的限制。
正是出于这个原因,我们将Shark中的开发作为一个单独的项目结束,并将所有开发资源转移到Spark SQL,这是Spark中的一个新组件。我们正在将我们在Shark中学到的知识应用到Spark SQL中,它是从头开始设计的,以充分利用Spark的强大功能。这种新方法使我们能够更快地进行创新,并最终为用户提供更好的体验和能力。