PySpark jdbc斷言錯誤：Py4JError：調用o108.jdbc時發生錯誤

Question

我正在嘗試在DataFrameReader.jdbc（）方法中使用謂詞：

df = sqlContext.read.jdbc(
    url="jdbc:db2://bluemix05.bluforcloud.com:50001/BLUDB:user=****;password=****;sslConnection=true;",  
    table="GOSALES.BRANCH",
    predicates=['WHERE BRANCH_CODE=5']
).cache()

但是，我遇到了以下錯誤：

---------------------------------------------------------------------------
Py4JError                                 Traceback (most recent call last)
...

Py4JError: An error occurred while calling o108.jdbc. Trace:
py4j.Py4JException: Method jdbc([class java.lang.String, class java.lang.String, class [Ljava.lang.Object;, class java.util.Properties]) does not exist

我應該如何將謂詞添加到jdbc方法調用中？

Answer 1

這里至少有兩個問題。 據我所知，這看起來像是一個PySpark錯誤，目前的大師已經解決了。

另一個問題是您使用的條件。 應該只是'BRANCH_CODE = 5'而不是'WHERE BRANCH_CODE = 5' 。

最后，如果僅使用一個謂詞，則將其作為子查詢傳遞是更有意義的，如下所示：

df = sqlContext.read.jdbc( 
    url = url,
    table = "(SELECT * FROM GOSALES.BRANCH WHERE BRANCH_CODE=5) AS tmp")

帶有predicates JDBC查詢會為每個predicates創建一個JDBC分區，因此調優難度更大。 更不用說您必須記住可能的重復。

PySpark jdbc斷言錯誤：Py4JError：調用o108.jdbc時發生錯誤

問題描述

1 個解決方案

解決方案1
3 已采納 2015-11-25 06:11:26

PySpark jdbc斷言錯誤：Py4JError：調用o108.jdbc時發生錯誤

問題描述

1 個解決方案

解決方案1 3 已采納 2015-11-25 06:11:26

解決方案1
3 已采納 2015-11-25 06:11:26