如何為 PySpark 數據框中的新列生成最大值？

Question

假設我有一個 pyspark 數據框 df。

+---+---+
|  a|  b|
+---+---+
|  1|  2|
|  2|  3|
|  4|  5|
+---+---+

我想添加新列 c。

c 列 = 最大值（0，b 列 - 100）

+---+---+---+
|  a|  b|  c|
+---+---+---+
|  1|200|100|
|  2|300|200|
|  4| 50|  0|
+---+---+---+

我應該如何在 pyspark 數據框中生成新的 c 列？ 提前致謝！

Answer 1

希望你看起來像這樣：

from pyspark.sql.functions import col, lit, greatest

df = spark.createDataFrame(
    [
        (1, 200), 
        (2, 300),
        (4, 50),
    ],
    ["a", "b"]  
)
df_new = df.withColumn("c", greatest(lit(0), col("b")-lit(100)))
.show()

如何為 PySpark 數據框中的新列生成最大值？

問題描述

1 個解決方案

解決方案1
1 已采納 2022-07-18 21:43:30

如何為 PySpark 數據框中的新列生成最大值？

問題描述

1 個解決方案

解決方案1 1 已采納 2022-07-18 21:43:30

解決方案1
1 已采納 2022-07-18 21:43:30