![](/img/trans.png)
[英]py4j.protocol.Py4JError: An error occurred while calling None.None. Trace:
[英]PySpark jdbc predicates error: Py4JError: An error occurred while calling o108.jdbc
我正在嘗試在DataFrameReader.jdbc()方法中使用謂詞:
df = sqlContext.read.jdbc(
url="jdbc:db2://bluemix05.bluforcloud.com:50001/BLUDB:user=****;password=****;sslConnection=true;",
table="GOSALES.BRANCH",
predicates=['WHERE BRANCH_CODE=5']
).cache()
但是,我遇到了以下錯誤:
---------------------------------------------------------------------------
Py4JError Traceback (most recent call last)
...
Py4JError: An error occurred while calling o108.jdbc. Trace:
py4j.Py4JException: Method jdbc([class java.lang.String, class java.lang.String, class [Ljava.lang.Object;, class java.util.Properties]) does not exist
我應該如何將謂詞添加到jdbc方法調用中?
這里至少有兩個問題。 據我所知,這看起來像是一個PySpark錯誤,目前的大師已經解決了。
另一個問題是您使用的條件。 應該只是'BRANCH_CODE = 5'
而不是'WHERE BRANCH_CODE = 5'
。
最后,如果僅使用一個謂詞,則將其作為子查詢傳遞是更有意義的,如下所示:
df = sqlContext.read.jdbc(
url = url,
table = "(SELECT * FROM GOSALES.BRANCH WHERE BRANCH_CODE=5) AS tmp")
帶有predicates
JDBC查詢會為每個predicates
創建一個JDBC分區,因此調優難度更大。 更不用說您必須記住可能的重復。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.