Pandas 将自定义 function 应用到每个 dataframe 结果和 Z9516DFB15F51C7EE19A4D46DZC0

Question

如何将自定义 function 应用于 Pandas dataframe df1的每一行，其中：

function 使用df1中的列中的值
function 使用来自另一个 dataframe df2的值
结果按列附加到df1

例子：

df1 = pd.DataFrame([1, 2, 3], columns=["x"])

df2 = pd.DataFrame({"set1": [0, 0, 0, 0], "set2": [100, 200, 300, 400]})

display(df1, df2)

和定制function

def myfunc(df2, x=df1["x"]):
    # Something simple but custom
    ans = df2["set1"] + df2["set2"] * x
    return ans

所需的 output 是

	X	运行1	运行2	运行3	运行4
0	1	100	200	300	400
1	2	200	400	600	800
2	3	300	600	900	1200

这是一个示例 function 调用； 但是如何将它与 oneliner 一起应用以获得所需的 dataframe output？

test = myfunc(df2,x=3)
print(test)

Answer 1

如果你真的需要一个定制的 function，你可以使用apply ：

# Modified slightly to make using it easier~
def myfunc(x, df2):
    return df2["set1"] + df2["set2"] * x

df1 = df1.join(df1.x.apply(myfunc, args=(df2,)).add_prefix('run'))
print(df1)

# Output:

   x  run0  run1  run2  run3
0  1   100   200   300   400
1  2   200   400   600   800
2  3   300   600   900  1200

也就是说，通常有一种方法可以使用 pandas 方法做任何你想做的事情：

df = df1.merge(df2, 'cross')
df['value'] = df.set1 + df.set2 * df.x
df['run'] = df.groupby('x')['value'].cumcount() + 1
df = df.pivot(index='x', columns='run', values='value')
df.columns = [f'{df.columns.name}{x}' for x in df.columns]
print(df.reset_index())

# Output:

   x  run1  run2  run3  run4
0  1   100   200   300   400
1  2   200   400   600   800
2  3   300   600   900  1200

Answer 2

你可以做

df1 = df1.join(df1.apply(lambda x  : myfunc(df2, x['x']),axis=1))
Out[152]: 
   x    0    1    2     3
0  1  100  200  300   400
1  2  200  400  600   800
2  3  300  600  900  1200

Answer 3

这特定于您的示例myfunc但可以使用dot进行矢量化

df1[['x']].dot(
    df2['set1'].add(df2['set2']).to_frame().T.values
).rename(
    columns={i:f'run{i+1}' for i in df2.index}
).assign(
    x = df1['x'],
)

Pandas 将自定义 function 应用到每个 dataframe 结果和 Z9516DFB15F51C7EE19A4D46DZC0

问题描述

3 个解决方案

解决方案1
1 2022-09-07 03:33:51

解决方案2
0 2022-09-07 00:30:50

解决方案3
0 2022-09-07 00:46:51

Pandas 将自定义 function 应用到每个 dataframe 结果和 Z9516DFB15F51C7EE19A4D46DZC0

问题描述

3 个解决方案

解决方案1 1 2022-09-07 03:33:51

解决方案2 0 2022-09-07 00:30:50

解决方案3 0 2022-09-07 00:46:51

解决方案1
1 2022-09-07 03:33:51

解决方案2
0 2022-09-07 00:30:50

解决方案3
0 2022-09-07 00:46:51