![](/img/trans.png)
[英]Filter spark dataframe with multiple conditions on multiple columns in Pyspark
[英]How to give multiple conditions in pyspark dataframe filter?
我必須在 pyspark dataframe 上使用 OR 應用具有多個條件的過濾器。
我正在嘗試創建一個單獨的 dataframe。日期值必須小於 max_date 或日期必須為無。
怎么做?
我嘗試了以下 3 個選項,但都失敗了。
df.filter(df['Date'] < max_date or df['Date'] == None).createOrReplaceTempView("Final_dataset")
final_df = df.filter(df['Date'] != max_date | df['Date'] is None)
final_df = df.filter(df['Date'] != max_date or df['Date'] is None)
final_df = df.filter((df.Date < max_date) | (df.Date.isNull()))
常規邏輯 python 運算符在 Pyspark 條件下不起作用; 您需要使用按位運算符。 它們也可能有點棘手,因此您可能需要額外的括號來消除表達式的歧義。
在這里看看: Boolean 運算符與按位運算符
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.