簡體   English   中英

如何在 pyspark dataframe 過濾器中給出多個條件?

[英]How to give multiple conditions in pyspark dataframe filter?

我必須在 pyspark dataframe 上使用 OR 應用具有多個條件的過濾器。

我正在嘗試創建一個單獨的 dataframe。日期值必須小於 max_date 或日期必須為無。

怎么做?

我嘗試了以下 3 個選項,但都失敗了。

df.filter(df['Date'] < max_date or df['Date'] == None).createOrReplaceTempView("Final_dataset")

final_df = df.filter(df['Date'] != max_date | df['Date'] is None)

final_df = df.filter(df['Date'] != max_date or df['Date'] is None)
final_df = df.filter((df.Date < max_date) | (df.Date.isNull()))

常規邏輯 python 運算符在 Pyspark 條件下不起作用; 您需要使用按位運算符。 它們也可能有點棘手,因此您可能需要額外的括號來消除表達式的歧義。

在這里看看: Boolean 運算符與按位運算符

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM