Spark SQL為JDBC查詢生成錯誤的上下限

Question

所以我目前正在使用Spark-SQL進行POC工作，我需要在spark中使用spark-sql查詢來並行化讀取操作

 JavaRDD<Row> dataset = sqlContext.read().jdbc(jdBcConnectionString, getSqlQuery(), "tran_id"
                lowerbound, upperbound, partitions, props).toJavaRDD();

在您檢查生成的查詢之前，每個方法似乎都運行良好，並且工作正常（在我看來，這是MS Sql Server）。

下限查詢是

exec sp_executesql N'SELECT * FROM table_name WHERE tran_id < 770425 or post_tran_id is null'

而上限查詢變為

exec sp_executesql N'SELECT * FROM table_name WHERE tran_id >= 770425'

有人認為，指定范圍的本質是獲取列值介於指定的下限和上限之間的所有行。 但事實並非如此

請我是新來的火花，還有另一種方法可以實現這一目標

Answer 1

有人認為，指定范圍的本質是獲取列值介於指定的下限和上限之間的所有行。

不是，條件正確。 像往常一樣，閱讀文檔比假設假設要好：

請注意，lowerBound和upperBound僅用於確定分區步幅，而不是用於過濾表中的行。 因此，表中的所有行都將被分區並返回。 此選項僅適用於閱讀。

但是在您的情況下， lowerBound似乎等於upperBound 。

請我是新來的火花，還有另一種方法可以實現這一目標

如果要過濾where以下位置應用：

dataset.where(col("tran_id").between(lowerBound, upperBound))

或使用子查詢作為表參數：

sqlContext.read().jdbc(
  jdBcConnectionString,
  "(SELECT * FROM table_name WHERE tran_id BETWEEN 0 AND 42) AS t", props);

Spark SQL為JDBC查詢生成錯誤的上下限

問題描述

1 個解決方案

解決方案1
2 已采納 2017-12-07 18:13:14

Spark SQL為JDBC查詢生成錯誤的上下限

問題描述

1 個解決方案

解決方案1 2 已采納 2017-12-07 18:13:14

解決方案1
2 已采納 2017-12-07 18:13:14