有效地計算數據框中兩行之間的差異

Question

考慮我有一個如下數據框：

>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame([[1, 2], [3, 4]], columns=['f1', 'f2'], index=['r1', 'r2'])
>>> df
    f1  f2
r1   1   2
r2   3   4

我應該如何有效地計算r1和r2行之間的絕對差，並創建另一行作為r3以保留結果。 也就是說結果將如下所示：

>>> for cn in df.columns:
...     diff_dat.append(abs(df[cn]['r1'] - df[cn]['r2']))
... 
>>> diff_dat
[2, 2]
>>> df.append(pd.DataFrame([diff_dat], index=['r3'], columns=df.columns))
    f1  f2
r1   1   2
r2   3   4
r3   2   2

Answer 1

你可以這樣做：

In [576]: df.append(df.diff().dropna().abs())
Out[583]: 
     f1   f2
r1  1.0  2.0
r2  3.0  4.0
r2  2.0  2.0

Answer 2

使用loc來選擇行，減去，獲取abs並最后通過setting with enlargement添加新行：

df.loc['r3'] = (df.loc['r1'] - df.loc['r2']).abs()
print (df)
    f1  f2
r1   1   2
r2   3   4
r3   2   2

1000列的性能：

np.random.seed(123)
df = pd.DataFrame(np.random.randint(10, size=(2, 1000)), index=['r1', 'r2']).add_prefix('f')-5

#Mayank Porwal solution
In [40]: %timeit df.append(df.diff().dropna().abs())
1.51 ms ± 19.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

#jezrael solution
In [41]: %timeit df.loc['r3'] = (df.loc['r1'] - df.loc['r2']).abs()
663 µs ± 54.2 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

#NaT3z solution
In [42]: %timeit df.loc["r3"] = df.apply(lambda c: abs(c["r1"] - c["r2"]), axis=0)
967 µs ± 80.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

為了提高性能，可以使用numpy ：

In [49]: %timeit df.loc['r3'] = np.abs(df.loc['r1'].values - df.loc['r2'].values)
414 µs ± 1.68 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

Answer 3

最簡單的解決方案是使用帶有行索引的.loc函數。

（編輯以刪除與jezrael編寫的代碼相同的代碼）

如果您不熟悉熊貓，我建議您檢查一下DataFrame.apply函數，因為它允許對數據進行更廣泛的操作（按行和按列）。 解決方案如下所示：

df["r3"] = df.apply(lambda c: abs(c["r1"] - c["r2"]), axis=0)

pandas.DataFrame.apply是一個功能強大的工具，可讓您將函數應用於數據集中的行或列，並利用pandas向量化的優勢。

有效地計算數據框中兩行之間的差異

問題描述

3 個解決方案

解決方案1
5 2019-01-22 07:10:51

解決方案2
3 已采納 2019-01-22 07:09:18

解決方案3
2 2019-01-22 07:17:22

有效地計算數據框中兩行之間的差異

問題描述

3 個解決方案

解決方案1 5 2019-01-22 07:10:51

解決方案2 3 已采納 2019-01-22 07:09:18

解決方案3 2 2019-01-22 07:17:22

解決方案1
5 2019-01-22 07:10:51

解決方案2
3 已采納 2019-01-22 07:09:18

解決方案3
2 2019-01-22 07:17:22