如何使用pyspark從DB2中讀取SQL？

Question

我想使用帶有pySpark的SQL語句連接並從DB2中讀取。 我在互聯網上找到的唯一代碼讀取整個表，如下所示

user = <username>
password = <password>
jdbcURL = "jdbc:db2://xx.xx.xxx.xxx:50000/Database" 
prop = {"user":user, "password":password, "driver":"com.ibm.db2.jcc.DB2Driver",  "sslConnection":"false"} 
table = <schema.table>
df = sqlContext.read.jdbc(url=jdbcURL,table=table,properties=prop) 
df.count()

我想使用類似

 'select * from table limit 100'

能否請你幫忙？

Answer 1

您可以像下面在Pyspark一樣從任何JDBC源中讀取

df = sqlContext.read.format('jdbc').option('url', '{}:{}/{}'.format(domain, port, dbname)).option('driver', 'com.mysql.jdbc.Driver').option('dbtable', '(select * from `{}`) as `{}`'.format(table, table)).option('user', username).option('password', password).load()

希望這可以幫助

Answer 2

根據@ User12345的響應，此操作如下

df = (sqlContext.read.format('jdbc') .option('url', 
    'jdbc:db2://xx.xx.xxx.xxx:50000/myDatabase') .option('driver', 
    'com.ibm.db2.jcc.DB2Driver') .option('dbtable', "(SELECT * FROM mySchema.myTable 
     limit 100) as t") .option('user', user).option('password', password).load()) 
df.count()

如何使用pyspark從DB2中讀取SQL？

問題描述

2 個解決方案

解決方案1
2 已采納 2018-08-21 18:18:16

解決方案2
1 2018-08-22 07:52:27

如何使用pyspark從DB2中讀取SQL？

問題描述

2 個解決方案

解決方案1 2 已采納 2018-08-21 18:18:16

解決方案2 1 2018-08-22 07:52:27

解決方案1
2 已采納 2018-08-21 18:18:16

解決方案2
1 2018-08-22 07:52:27