繁体 English 中英

我们如何在 Spark 中使用 where 条件来进行 hive 以下查询？

[英]how we can use where condition in spark for below hive query?

原文 2021-03-08 06:02:09 1 1 scala/ apache-spark/ apache-spark-sql

我是火花 scala 框架的新手，下面的查询有子查询。 根据我有限的知识，火花不支持子查询，并且按 function 分组一次支持多列？

select id, email from test1 
where country in (select distinct salary from test2)
group by id ,email ;

在 spark 上面的查询转换成这样，但问题是我们如何使用来自不同数据帧的 where 条件。 我们可以在这里使用连接吗？ 我们如何将整个查询转换为火花？

  val m = test1.select("id","email")
   val k = test2.select("salary").distinct
   val l =  m.groupby("id","salary")

1 个解决方案

您可以尝试使用半连接来表示子查询：

val m = test1.select("id","email","country")
val k = test2.select("salary").distinct

val df = m.join(k, m("country") === k("salary"), "left_semi")
val l = df.select("id","salary").distinct()

我们可以在Spark中编写配置单元查询-UDF

[英]Can we write a hive query in Spark - UDF

我们如何将变量传递给 Spark Dataframe 中的 where 子句

[英]How can we pass a variable to where clause in Spark Dataframe

我们能否通过一次Spark会话同时连接到Bigtable和Hive？

[英]Can we connect to both Bigtable and Hive from one spark session?

我们如何将每 n 行转换为 spark scala 中的列，如下所示

[英]How can we transpose every n rows to column in spark scala as shown like below

如何使用Hive上下文有效地在Spark中查询Hive表？

[英]How to efficiently query a hive table in spark using hive context?

``saveAsTable''之后无法从Hive查询Spark DF-Spark SQL特定格式，与Hive不兼容

[英]Can't query Spark DF from Hive after `saveAsTable` - Spark SQL specific format, which is NOT compatible with Hive

如何在与 Spark 相同的查询结果中使用聚合和连接？

[英]How can I use aggregate with join in the same query result with Spark?

如何使用Spark2的SparkSession查询存储在Hive表中的数据？

[英]How to query data stored in Hive table using SparkSession of Spark2?

如何在 spark 过滤条件中使用 NOT IN 子句

[英]How to use NOT IN clause in filter condition in spark

我们如何在 Pyspark 中使用 import org.apache.spark.sql.catalyst.parser.CatalystSqlParser

[英]How can we use import org.apache.spark.sql.catalyst.parser.CatalystSqlParser in Pyspark

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 我们可以在Spark中编写配置单元查询-UDF 我们如何将变量传递给 Spark Dataframe 中的 where 子句我们能否通过一次Spark会话同时连接到Bigtable和Hive？我们如何将每 n 行转换为 spark scala 中的列，如下所示如何使用Hive上下文有效地在Spark中查询Hive表？ ``saveAsTable''之后无法从Hive查询Spark DF-Spark SQL特定格式，与Hive不兼容如何在与 Spark 相同的查询结果中使用聚合和连接？如何使用Spark2的SparkSession查询存储在Hive表中的数据？如何在 spark 过滤条件中使用 NOT IN 子句我们如何在 Pyspark 中使用 import org.apache.spark.sql.catalyst.parser.CatalystSqlParser

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM