以与 pyspark 类似的方式在 pandas 中分配一个新列

Question

我有以下 dataframe：

df = pd.DataFrame([['A', 1],['B', 2],['C', 3]], columns=['index', 'result'])

指数	结果
一个	1
乙	2
C	3

我想创建一个新列，例如将“结果”列乘以 2，我只是想知道在 pandas 中是否有办法做到这一点，就像 pyspark 那样。

In pyspark:
df = df\
.withColumn("result_multiplied", F.col("result")*2)

我不喜欢每次我必须执行操作时都写 dataframe 的名称，因为它在 pandas 中完成，例如：

In pandas:
df['result_multiplied'] = df['result']*2

Answer 1

使用DataFrame.assign ：

df = df.assign(result_multiplied = df['result']*2)

或者，如果列result在代码中处理之前是必要的 lambda function 用于处理列result中的计数值：

df = df.assign(result_multiplied = lambda x: x['result']*2)

查看差异列的示例result_multiplied由多个原始df['result']计数，因为result_multiplied1在mul(2)之后使用乘列：

df = df.mul(2).assign(result_multiplied = df['result']*2,
                      result_multiplied1 = lambda x: x['result']*2)
print (df)
  index  result  result_multiplied  result_multiplied1
0    AA       2                  2                   4
1    BB       4                  4                   8
2    CC       6                  6                  12

以与 pyspark 类似的方式在 pandas 中分配一个新列

问题描述

1 个解决方案

解决方案1
1 已采纳 2021-04-06 11:13:11

以与 pyspark 类似的方式在 pandas 中分配一个新列

问题描述

1 个解决方案

解决方案1 1 已采纳 2021-04-06 11:13:11

解决方案1
1 已采纳 2021-04-06 11:13:11