繁体 English 中英

"Spark sql 查询与数据框函数"

[英]Spark sql queries vs dataframe functions

原文 2016-02-05 11:03:52 3 4 sql/ performance/ apache-spark/ dataframe/ apache-spark-sql

使用 Spark 执行良好的性能。 我想知道通过SQLContext使用 sql 查询是否更好，或者通过df.select()等 DataFrame 函数进行查询是否更好。

任何的想法？ :)

4 个解决方案

没有任何性能差异。 两种方法都使用完全相同的执行引擎和内部数据结构。 归根结底，一切都归结为个人喜好。

可以说DataFrame<\/code>查询更容易以编程方式构建并提供最小的类型安全性。
普通的 SQL 查询可以更加简洁和易于理解。 它们也是可移植的，无需对每种支持的语言进行任何修改即可使用。 使用HiveContext<\/code> ，这些也可用于公开一些其他方式无法访问的功能（例如，没有 Spark 包装器的 UDF）。

理想情况下，Spark 的催化剂应该优化对相同执行计划的两个调用，并且性能应该相同。 如何打电话只是你的风格问题。 实际上，与 Hortonworks 的报告 ( https:\/\/community.hortonworks.com\/articles\/42027\/rdd-vs-dataframe-vs-sparksql.html<\/a> ) 的报告有所不同，其中 SQL 在您的情况下优于 Dataframes需要 GROUPed 记录，其总计数按记录名称排序。

"

通过使用 DataFrame，可以将 SQL 分解为多个语句\/查询，这有助于调试、轻松增强和代码维护。

将复杂的 SQL 查询分解为更简单的查询并将结果分配给 DF 会带来更好的理解。

通过将查询拆分为多个 DF，开发人员获得了使用缓存、修复（使用唯一\/接近唯一键在分区之间均匀分布数据）的优势。

唯一重要的是使用什么样的底层算法进行分组。 HashAggregation 会比 SortAggregation 更有效。 SortAggregation - 将对行进行排序，然后将匹配的行聚集在一起。 O(n*log n) HashAggregation 使用键作为分组列创建 HashMap，其余列作为 Map 中的值。 Spark SQL 尽可能使用 HashAggregation（如果值的数据是可变的）。 在）

Apache Spark：使用普通 SQL 查询与使用 Spark SQL 方法

[英]Apache Spark: using plain SQL queries vs using Spark SQL methods

Dataframe上的Spark-SQL窗口函数-查找组中的第一个时间戳

[英]Spark-SQL Window functions on Dataframe - Finding first timestamp in a group

Spark / scala中的SQL查询

[英]SQL queries in Spark/scala

SQL函数的单独查询？

[英]separate queries of SQL functions?

sql查询：IN与相等

[英]sql queries : IN vs equal

带有字符串查询的 Spark SQL 中的注释

[英]Comments in Spark SQL with string queries

spark sql 中是否支持嵌套查询？

[英]are nested queries supported in spark sql?

为什么sql数据库不允许在所有查询中都创建函数，而不是在调用程序中构造sql字符串？

[英]Why don't sql databases allow creating functions for all queries vs constructing the sql strings in the calling program?

无法在Spark SQL中执行嵌套SQL查询

[英]Unable to execute nested SQL queries in Spark SQL

查询-SQL与SharePoint

[英]Queries - SQL vs. SharePoint

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Apache Spark：使用普通 SQL 查询与使用 Spark SQL 方法 Dataframe上的Spark-SQL窗口函数-查找组中的第一个时间戳 Spark / scala中的SQL查询 SQL函数的单独查询？ sql查询：IN与相等带有字符串查询的 Spark SQL 中的注释 spark sql 中是否支持嵌套查询？为什么sql数据库不允许在所有查询中都创建函数，而不是在调用程序中构造sql字符串？无法在Spark SQL中执行嵌套SQL查询查询-SQL与SharePoint

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM