如何在不使用 python 循環的情況下創建引用數據框和字典的當前列的條件列？

Question

我有一個數據農場

import pandas as pd

df = pd.DataFrame({"type":  ["A" ,"A1" ,"A" ,"A1","B" ],
                  "group":  ["g1", "g2","g2","g2","g1"]})

我有一本字典

 dic ={"AlphaA": {"A":  {"g1":"A_GRP1",  "g2":"A_GRP2"},
                  "A1": {"g1":"A1_GRP1", "g2":"A1_GRP2"}},
       "AlphaB": {"B":  {"g1":"B_GRP1",  "g2":"B_GRP2"}},
      }

我必須創建一個列名“值”，它將使用數據框和字典並獲取分配給它的值

申請條件：

如果類型是“A”或“A1”，它應該引用字典鍵 AlphaA 並獲取相應組的值並將其分配給新列
如果類型是“B”，它應該引用字典鍵 AlphaB 並獲取相應組的值

第一行示例：
類型是“A”，因此引用字典鍵“AlphaA”
組是“g1
因此：

dictt["AlphaA"]["A"]["g1"]          #would be the answer

所需輸出

 final_df = pd.DataFrame({"type" :  ["A" ,"A1" ,"A" ,"A1","B" ],
                          "group":  ["g1", "g2","g2","g2","g1"],
                          "value":  ["A_GRP1", "A1_GRP2", "A_GRP2",
                                     "A1_GRP2", "B_GRP1"]})

我能夠使用循環來實現這一點，但它需要很多時間，
因此尋找一些快速的技術。

Answer 1

假設dic輸入字典，您可以將字典值合並到單個字典中（在ChainMap的幫助下），轉換為 DataFrame 並取消unstack到 Series 並merge ：

from collections import ChainMap
s = pd.DataFrame(dict(ChainMap(*dic.values()))).unstack()

# without ChainMap
# d = {k: v for d in dic.values() for k,v in d.items()}
# pd.DataFrame(d).unstack()

out = df.merge(s.rename('value'), left_on=['type', 'group'], right_index=True)

輸出：

  type group    value
0    A    g1   A_GRP1
1   A1    g2  A1_GRP2
3   A1    g2  A1_GRP2
2    A    g2   A_GRP2
4    B    g1   B_GRP1

Answer 2

將DataFrame.join與通過字典理解從字典創建的 Series 一起使用：

d1 = {(k1, k2): v2 for k, v in d.items() for k1, v1 in v.items() for k2, v2 in v1.items()}
df = df.join(pd.Series(d1).rename('value'), on=['type','group'])
print (df)
  type group    value
0    A    g1   A_GRP1
1   A1    g2  A1_GRP2
2    A    g2   A_GRP2
3   A1    g2  A1_GRP2
4    B    g1   B_GRP1

Answer 3

您可以刪除原始字典的外鍵並嘗試應用於行

d = {k:v for vs in d.values() for k, v in vs.items()}
df['value'] = (df.assign(value=df['type'].map(d))
               .apply(lambda row: row['value'][row['group']], axis=1)
               )

print(d)

{'A': {'g1': 'A_GRP1', 'g2': 'A_GRP2'}, 'A1': {'g1': 'A1_GRP1', 'g2': 'A1_GRP2'}, 'B': {'g1': 'B_GRP1', 'g2': 'B_GRP2'}}

print(df)

  type group    value
0    A    g1   A_GRP1
1   A1    g2  A1_GRP2
2    A    g2   A_GRP2
3   A1    g2  A1_GRP2
4    B    g1   B_GRP1

如何在不使用 python 循環的情況下創建引用數據框和字典的當前列的條件列？

問題描述

3 個解決方案

解決方案1
3 已采納 2022-05-31 09:35:57

解決方案2
0 2022-05-31 09:35:39

解決方案3
0 2022-05-31 09:41:49

如何在不使用 python 循環的情況下創建引用數據框和字典的當前列的條件列？

問題描述

3 個解決方案

解決方案1 3 已采納 2022-05-31 09:35:57

解決方案2 0 2022-05-31 09:35:39

解決方案3 0 2022-05-31 09:41:49

解決方案1
3 已采納 2022-05-31 09:35:57

解決方案2
0 2022-05-31 09:35:39

解決方案3
0 2022-05-31 09:41:49