從字典鍵和值中填充 dataframe：有效方式

Question

我以下面的 dataframe 為例。

df_test = pd.DataFrame(data=0, index=["green","yellow","red"], columns=["bear","dog","cat"])

我有以下字典，其中的鍵和值與我的 dataframe 的索引和列相同或相關。

d = {"green":["bear","dog"], "yellow":["bear"], "red":["bear"]}

我根據提供的鍵和值填充了我的 dataframe，使用：

for k, v in d.items():
    for x in v:
        df_test.loc[k, x] = 1

我的問題是 dataframe 和我正在使用的字典非常大，計算時間太長。 有沒有更有效的方法來做到這一點？ 也許迭代 dataframe 中的行而不是字典中的鍵和值？

Answer 1

因為性能很重要，所以使用MultiLabelBinarizer ：

d = {"green":["bear","dog"], "yellow":["bear"], "red":["bear"]}

from sklearn.preprocessing import MultiLabelBinarizer

mlb = MultiLabelBinarizer()
df = pd.DataFrame(mlb.fit_transform(list(d.values())),
                  columns=mlb.classes_,
                  index=list(d.keys()))
print (df)
        bear  dog
green      1    1
yellow     1    0
red        1    0

然后通過DataFrame.reindex添加缺失的列和索引標簽：

df_test = df.reindex(columns=df_test.columns, index=df_test.index, fill_value=0)
print (df_test)
        bear  dog  cat
green      1    1    0
yellow     1    0    0
red        1    0    0

Answer 2

使用get_dummies()

# convert dict to a Series
s = pd.Series(d)
# explode your list into columns and get dummies
df = pd.get_dummies(s.apply(pd.Series), prefix='', prefix_sep='')

          bear    dog
green        1      1
yellow       1      0
red          1      0

更新

# convert dict to a Series
s = pd.Series(d)

# create a new data frame
df = pd.DataFrame(s.values.tolist(), index=s.index)

# get_dummies
new_df = pd.get_dummies(df, prefix='', prefix_sep='')

從字典鍵和值中填充 dataframe：有效方式

問題描述

2 個解決方案

解決方案1
1 已采納 2020-04-03 13:36:12

解決方案2
0 2020-04-03 13:26:31

更新

從字典鍵和值中填充 dataframe：有效方式

問題描述

2 個解決方案

解決方案1 1 已采納 2020-04-03 13:36:12

解決方案2 0 2020-04-03 13:26:31

更新

解決方案1
1 已采納 2020-04-03 13:36:12

解決方案2
0 2020-04-03 13:26:31