繁体   English   中英

我如何比较 PySpark 中另一个 dataframe 的列

[英]How i can compare columns from another dataframe in PySpark

我有两个数据框:
首先是 AVG 值:

+----------+-----+  
| Category | AVG |  
+----------+-----+  
| Categ    | 1.0 |  
+----------+-----+  
| Categ2   | 0.5 | 
+----------+-----+
... 

...
第二个有闲置类别:Category、Name、Price
问题是:如何从第一个表中删除所有价格低于平均价格的记录?
我试过这样:

dataGreaterAvge = data.where(data.Price >= avgCategoryPrice.where(data.Category == avgCategoryPrice.Category).collect()[0]["avg(Price)"])

dataGreaterAvge  - First dataframe
data - Second dataframe

但是,这并不能正常工作,因为它只从平均值表中获取第一个元素的值

Spark 像 SQL 一样工作......所以......

首先,您需要加入数据框。

a = df1.alias('a')
b = df2.alias('b')
df_joined = a.join(b, a.Category == b.Category)

那么您将能够正确过滤

from pyspark.sql import functions as f

df_joined.select(col('a.category'),col('a.AVG'))\
         .where(col('a.AVG') > f.avg(col('b.avg')).groupBy(col('a.AVG'))

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM