[英]How to convert complex SQL query to spark-dataframe using python or Scala
我在 spark 中使用 sqlcontext 進行了一次轉換,但我只想使用 Spark Data frame 編寫相同的查詢。 該查詢包括連接操作和 SQL 的 case 語句。 sql查詢寫成如下:
refereshLandingData=spark.sql( "select a.Sale_ID, a.Product_ID,"
"CASE "
"WHEN (a.Quantity_Sold IS NULL) THEN b.Quantity_Sold "
"ELSE a.Quantity_Sold "
"END AS Quantity_Sold, "
"CASE "
"WHEN (a.Vendor_ID IS NULL) THEN b.Vendor_ID "
"ELSE a.Vendor_ID "
"END AS Vendor_ID, "
"a.Sale_Date, a.Sale_Amount, a.Sale_Currency "
"from landingData a left outer join preHoldData b on a.Sale_ID = b.Sale_ID" )
現在我想要scala和python中spark數據幀中的等效代碼。 我嘗試了一些代碼,但它的
不工作。我試過的代碼如下:
joinDf=landingData.join(preHoldData,landingData['Sale_ID']==preHoldData['Sale_ID'],'left_outer')
joinDf.withColumn\
('QuantitySold',pf.when(pf.col(landingData('Quantity_Sold')).isNull(),pf.col(preHoldData('Quantity_Sold')))
.otherwise(pf.when(pf.col(preHoldData('Quantity_Sold')).isNull())),
pf.col(landingData('Quantity_Sold'))).show()
在上面的代碼中加入完美但案例條件不起作用。 我得到--> TypeError: 'DataFrame' object is not callable 我使用的是spark 2.3.2 版本和python 3.7 以及類似的scala 2.11,以防萬一spark-scala 請任何人向我建議任何等效的代碼或指導!
這是一個Scala解決方案:假設landingData
和preHoldData
是你的數據幀
val landingDataDf = landingData.withColumnRenamed("Quantity_Sold","Quantity_Sold_ld")
val preHoldDataDf = preHoldData.withColumnRenamed("Quantity_Sold","Quantity_Sold_phd")
val joinDf = landingDataDf.join(preHoldDataDf, Seq("Sale_ID"))
joinDf
.withColumn("Quantity_Sold",
when(col("Quantity_Sold_ld").isNull , col("Quantity_Sold_phd")).otherwise(col("Quantity_Sold_ld"))
). drop("Quantity_Sold_ld","Quantity_Sold_phd")
您可以對 Vendor_id 執行相同的操作
您的代碼的問題是,您不能在withColumn
操作中引用其他/舊數據withColumn
名稱。 它必須來自您正在操作的數據幀。
下面的代碼適用於 Scala 和 Python,您可能會稍微調整一下。
val preHoldData = spark.table("preHoldData").alias("a")
val landingData = spark.table("landingData").alias("b")
landingData.join(preHoldData,Seq("Sale_ID"),"leftouter")
.withColumn("Quantity_Sold",when(col("a.Quantity_Sold").isNull, col("b.Quantity_Sold")).otherwise(col("a.Quantity_Sold")))
.withColumn("Vendor_ID",when(col("a.Vendor_ID").isNull, col("b.Vendor_ID")).otherwise(col("a.Vendor_ID")))
.select(col("a.Sale_ID"),col("a.Product_ID"),col("Quantity_Sold"),col("Vendor_ID"),col("a.Sale_Date"),col("a.Sale_Amount"),col("a.Sale_Currency"))
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.