基於另一個列值的 pandas dataframe 列上的條件過濾器閾值

Question

假設我有一個包含兩列的 dataframe，我想根據由第一列的值確定的不同閾值來過濾第二列的值。 這樣的閾值在字典中定義，其鍵是第一列值，字典值是閾值。 還將有一個默認值來匹配沒有任何指定值的列。

例如：

thresholds_dict = {"A": 5, "B": 2, "C": 4, "default": 0}

sample_dataframe = 
| Column1 | Column2 |
|   A     | 3       |
|   A     | 6       |
|   B     | 4       |
|   B     | 1       |
|   C     | 2       |
|   D     | 0       |

//Get threshold from dict based on value of Column1 on ...
result_dataframe = sample_dataframe[sample_dataframe[Column2] >= ...] 

result_dataframe =
| Column1 | Column2 |
|   A     | 6       |
|   B     | 4       |
|   D     | 0       |

實現這一目標的最佳方法是什么？ （不確定在...部分寫什么）。

Answer 1

PySpark 版本。

您的 dataframe：

from pyspark.sql import functions as F

sample_dataframe = spark.createDataFrame(
    [("A", 3),
     ("A", 6),
     ("B", 4),
     ("B", 1),
     ("C", 2),
     ("D", 0)],
    ["Column1", "Column2"]
)
thresholds_dict = {"A": 5, "B": 2, "C": 4, "default": 0}

腳本：

comparison = F.when(F.lit(False), None)
for k, v in thresholds_dict.items():
    comparison = comparison.when(F.col("Column1") == k, v)
comparison = comparison.otherwise(thresholds_dict["default"])

result_dataframe = sample_dataframe.filter(F.col("Column2") >= comparison)

result_dataframe.show()
# +-------+-------+
# |Column1|Column2|
# +-------+-------+
# |      A|      6|
# |      B|      4|
# |      D|      0|
# +-------+-------+

基於另一個列值的 pandas dataframe 列上的條件過濾器閾值

問題描述

1 個解決方案

解決方案1
0 2022-04-21 16:12:27

基於另一個列值的 pandas dataframe 列上的條件過濾器閾值

問題描述

1 個解決方案

解決方案1 0 2022-04-21 16:12:27

解決方案1
0 2022-04-21 16:12:27