Pandas 划分兩個不同大小的數據幀

Question

我有一個數據框 df1 為：

col1 col2 Val1 Val2
A    g    4    6
A    d    3    8
B    h    5    10
B    p    7    14

我有另一個數據框 df2 為：

col1 Val1 Val2
A    2    3
B    1    4

我想通過DF2基於COL1，VAL1和val2使該行划分DF1 A由DF2整除行A從df1 。

我的df1.div(df2)最終輸出如下：

col1 col2 Val1 Val2
A    g    2    2
A    d    1.5  2
B    h    5    2.5
B    p    7    3.5

Answer 1

將col1和col2轉換為MultiIndex ，還將第二個DataFrame col1轉換為索引，然后使用DataFrame.div ：

df = df1.set_index(['col1', 'col2']).div(df2.set_index('col1')).reset_index()
#alternative with specify level of index
#df = df1.set_index(['col1', 'col2']).div(df2.set_index('col1'), level=0).reset_index()
print (df)
  col1 col2  Val1      Val2
0    A    g   2.0  2.000000
1    A    d   1.5  2.666667
2    B    h   5.0  2.500000
3    B    p   7.0  3.500000

Answer 2

我認為你的例子有一個小錯誤。 對於 col Val2，第 2 行 - 8/3 應為 2.67。 所以最終輸出df1.div(df2)應該是：

  col1 col2  Val1      Val2
0    A    g   2.0  2.000000
1    A    d   1.5  2.666667
2    B    h   5.0  2.500000
3    B    p   7.0  3.500000

無論如何，這是一個可能的解決方案：

構建 2 個 dfs

import pandas as pd

df1 = pd.DataFrame(data={'col1':['A','A','B','B'], 'col2': ['g','d','h','p'], 'Val1': [4,3,5,7], 'Val2': [6,8,10,14]}, columns=['col1','col2','Val1','Val2'])

df2 = pd.DataFrame(data={'col1':['A','B'], 'Val1': [2,1], 'Val2': [3,4]}, columns=['col1','Val1','Val2'])

print (df1)
print (df2)

輸出：

>>>
col1 col2  Val1  Val2
0    A    g     4     6
1    A    d     3     8
2    B    h     5    10
3    B    p     7    14

  col1  Val1  Val2
0    A     2     3
1    B     1     4

現在我們可以在 col: col1上對df1和df2進行INNER JOIN 。 如果您不熟悉 SQL 連接，請查看： sql-join 。 我們可以使用merge()方法加入pandas

## join df1, df2

merged_df = pd.merge(left=df1, right=df2, how='inner', on='col1')

print (merged_df)

輸出：

>>>
col1 col2  Val1_x  Val2_x  Val1_y  Val2_y
0    A    g       4       6       2       3
1    A    d       3       8       2       3
2    B    h       5      10       1       4
3    B    p       7      14       1       4

現在我們已經得到了df1和df2的對應列，我們可以簡單地計算除法並刪除冗余列：

# Val1 = Val1_x/Val1_y, Val2 = Val2_x/Val2_y

merged_df['Val1'] = merged_df['Val1_x']/merged_df['Val1_y']
merged_df['Val2'] = merged_df['Val2_x']/merged_df['Val2_y']

# delete the cols: Val1_x,Val1_y,Val2_x,Val2_y

merged_df.drop(columns=['Val1_x', 'Val1_y', 'Val2_x', 'Val2_y'], inplace=True)

print (merged_df)

最終輸出：

  col1 col2  Val1      Val2
0    A    g   2.0  2.000000
1    A    d   1.5  2.666667
2    B    h   5.0  2.500000
3    B    p   7.0  3.500000

我希望這能解決你的問題:)

Answer 3

您可以使用pandas.merge()函數在pandas.merge() 之間執行類似數據庫的連接，然后使用結果來划分列值：

# merge against col1 so we get a merged index
merged = pd.merge(df1[["col1"]], df2)
df1[["Val1", "Val2"]] = df1[["Val1", "Val2"]].div(merged[["Val1", "Val2"]])

這產生：

  col1 col2  Val1      Val2
0    A    g   2.0  2.000000
1    A    d   1.5  2.666667
2    B    h   5.0  2.500000
3    B    p   7.0  3.500000

Pandas 划分兩個不同大小的數據幀

問題描述

3 個解決方案

解決方案1
3 已采納 2020-01-19 14:45:51

解決方案2
2 2020-01-19 15:58:08

解決方案3
1 2020-01-19 14:49:54

Pandas 划分兩個不同大小的數據幀

問題描述

3 個解決方案

解決方案1 3 已采納 2020-01-19 14:45:51

解決方案2 2 2020-01-19 15:58:08

解決方案3 1 2020-01-19 14:49:54

解決方案1
3 已采納 2020-01-19 14:45:51

解決方案2
2 2020-01-19 15:58:08

解決方案3
1 2020-01-19 14:49:54