我如何比較 PySpark 中另一個 dataframe 的列

Question

我有兩個數據框：
首先是 AVG 值：

+----------+-----+  
| Category | AVG |  
+----------+-----+  
| Categ    | 1.0 |  
+----------+-----+  
| Categ2   | 0.5 | 
+----------+-----+
...

...
第二個有閑置類別：Category、Name、Price
問題是：如何從第一個表中刪除所有價格低於平均價格的記錄？
我試過這樣：

dataGreaterAvge = data.where(data.Price >= avgCategoryPrice.where(data.Category == avgCategoryPrice.Category).collect()[0]["avg(Price)"])

dataGreaterAvge  - First dataframe
data - Second dataframe

但是，這並不能正常工作，因為它只從平均值表中獲取第一個元素的值

Answer 1

Spark 像 SQL 一樣工作......所以......

首先，您需要加入數據框。

a = df1.alias('a')
b = df2.alias('b')
df_joined = a.join(b, a.Category == b.Category)

那么您將能夠正確過濾

from pyspark.sql import functions as f

df_joined.select(col('a.category'),col('a.AVG'))\
         .where(col('a.AVG') > f.avg(col('b.avg')).groupBy(col('a.AVG'))

我如何比較 PySpark 中另一個 dataframe 的列

問題描述

1 個解決方案

解決方案1
1 已采納 2020-05-09 14:43:16

我如何比較 PySpark 中另一個 dataframe 的列

問題描述

1 個解決方案

解決方案1 1 已采納 2020-05-09 14:43:16

解決方案1
1 已采納 2020-05-09 14:43:16