繁体 English 中英

Apache Spark SQLContext和HiveContext有什么区别？

[英]What is the difference between Apache Spark SQLContext vs HiveContext?

原文 2015-11-12 07:49:10 8 3 apache-spark/ hive/ apache-spark-sql

Apache Spark SQLContext和HiveContext有什么区别？

一些消息来源称，由于HiveContext是SQLContext的超集，因此开发人员应始终使用HiveContext，它具有比SQLContext更多的功能。 但是每个上下文的当前API大多是相同的。

SQLContext / HiveContext更有用的场景是什么？
只有在使用Hive时，HiveContext才更有用吗？
或者SQLContext是否是使用Apache Spark实现大数据应用程序所需的全部内容？

3 个解决方案

Spark 2.0+

Spark 2.0提供本机窗口函数（ SPARK-8641 ），并在解析和更好的SQL 2003合规性方面提供了一些额外的改进，因此它显着减少了Hive对实现核心功能的依赖，因为HiveContext （带有Hive支持的SparkSession ）似乎是稍微不那么重要。

Spark <2.0

显然，如果你想使用Hive，你必须使用HiveContext 。 除此之外，目前最大的差异（Spark 1.5）是对窗口功能和访问Hive UDF的能力的支持。

一般来说，窗口函数是一个非常酷的功能，可以用来以简洁的方式解决相当复杂的问题，而无需在RDD和DataFrame之间来回切换。 性能仍远未达到最佳状态，尤其是没有PARTITION BY子句，但它实际上并不是Spark特有的。

关于Hive UDF，它现在不是一个严重的问题，但在Spark 1.5之前，许多SQL函数已经使用Hive UDF表达并且需要HiveContext才能工作。

HiveContext还提供了更强大的SQL解析器。 使用select statetment选择数据框中的嵌套列时，请参阅示例： py4j.protocol.Py4JJavaError

最后需要HiveContext来启动Thrift服务器。

HiveContext的最大问题是它带有大的依赖性。

在针对Spark SQL编程时，我们有两个入口点，具体取决于我们是否需要Hive支持。 建议的入口点是HiveContext，用于提供对HiveQL和其他Hive相关功能的访问。 更基本的SQLContext提供了不依赖于Hive的Spark SQL支持的子集。

- 对于可能与包含所有Hive依赖项存在冲突的用户存在分离。

- 在SQLContext中找不到的HiveContext的附加功能包括使用更完整的HiveQL解析器编写查询，访问Hive UDF以及从Hive表读取数据的功能。

- 使用HiveContext不需要现有的Hive设置。

HiveContext仍然是sqlcontext的超集，它包含一些额外的属性，例如它可以从hive-site.xml读取配置，万一你有hive使用，否则只需使用sqlcontext

Apache Spark中的forEachAsync和forEachPartitionAsync有什么区别？

[英]What is the difference between forEachAsync vs forEachPartitionAsync in Apache Spark?

spark HiveContext / SQLContext如何检索模式/数据？

[英]How is spark HiveContext/SQLContext retrieving schema/data?

Apache Spark和Apache Arrow有什么区别？

[英]What is the difference between Apache Spark and Apache Arrow?

Spark HiveContext与HbaseContext？

[英]Spark HiveContext vs HbaseContext?

带SQLContext的Apache SPARK :: IndexError

[英]Apache SPARK with SQLContext:: IndexError

Spark DataFrame vs sqlContext

[英]Spark DataFrame vs sqlContext

saveAsObjectFile 和persist in apache spark有什么区别？

[英]What is the difference between saveAsObjectFile and persist in apache spark?

Apache Spark计算和切片之间有什么区别？

[英]What is the difference between Apache Spark compute and slice?

Apache Spark 中的 mapPartitions 和 foreachPartition 有什么区别

[英]What is the Difference between mapPartitions and foreachPartition in Apache Spark

在将hivecontext用于一个数据框而将sqlcontext用于另一个数据框时，比较Spark中的两个数据框

[英]Comparing 2 dataframes in spark when using hivecontext for 1 dataframe and sqlcontext for the other

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Apache Spark中的forEachAsync和forEachPartitionAsync有什么区别？ spark HiveContext / SQLContext如何检索模式/数据？ Apache Spark和Apache Arrow有什么区别？ Spark HiveContext与HbaseContext？带SQLContext的Apache SPARK :: IndexError Spark DataFrame vs sqlContext saveAsObjectFile 和persist in apache spark有什么区别？ Apache Spark计算和切片之间有什么区别？ Apache Spark 中的 mapPartitions 和 foreachPartition 有什么区别在将hivecontext用于一个数据框而将sqlcontext用于另一个数据框时，比较Spark中的两个数据框

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM