Python Pandas：為源列的每個不同值創建一個新列（使用布爾輸出作為列值）

Question

我試圖根據內容在幾列中拆分數據框的源列，然后按照以下方式用布爾值1或0填充這些新生成的列：

原始數據幀：

ID   source_column
A    value 1
B    NaN
C    value 2
D    value 3
E    value 2

生成以下輸出：

ID   source_column    value 1    value 2    value 3
A    value 1          1          0          0
B    NaN              0          0          0
C    value 2          0          1          0
D    value 3          0          0          1
E    value 2          0          1          0

我想過手動創建每個不同的列，然后使用每個列的函數和.apply，用1或0填充新列，但這是非常無效的。

有一種快速有效的方法嗎？

Answer 1

你可以試試：

df = pd.get_dummies(df, columns=['source_column'])

或者如果你喜歡sklearn

from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder()
matrix=enc.fit_transform(df['source_column'])

Answer 2

您可以使用pandas函數get_dummies，並將結果添加到df，如下所示

In [1]: col_names = df['source_column'].dropna().unique().tolist()

In [2]: df[col_names] = pd.get_dummies(df['source_column'])

In [3]: df
Out[3]: 
  ID source_column  value 1  value 2  value 3
0  A       value 1        1        0        0
1  B          NaN         0        0        0
2  C       value 2        0        1        0
3  D       value 3        0        0        1
4  E       value 2        0        1        0

Answer 3

所以有這種可能性（有點hacky）。

從示例數據中讀取DataFrame：

In [4]: df = pd.read_clipboard().drop("ID", axis=1)

In [5]: df
Out[5]:
   source_column
A            1.0
B            NaN
C            2.0
D            3.0
E            2.0

之后，添加一個df['foo'] = 1的新列。

然后使用取消堆棧：

In [22]: df.reset_index().set_index(['index', 'source_column']).unstack().fillna(0).rename_axis([None]).astype(int)
Out[22]:
              foo
source_column NaN 1.0 2.0 3.0
A               0   1   0   0
B               1   0   0   0
C               0   0   1   0
D               0   0   0   1
E               0   0   1   0

然后，您當然必須重命名您的列並刪除Nan col，但這應該在第一次運行時滿足您的需求。

編輯：

其他抑制nan列的方法，你可以使用groupby + value_counts（hacky也是如此）：

In [30]: df.reset_index().groupby("index").source_column.value_counts().unstack().fillna(0).astype(int).rename_axis([None])
Out[30]:
source_column  1.0  2.0  3.0
A                1    0    0
C                0    1    0
D                0    0    1
E                0    1    0

這是相同的想法（取消堆疊）但是抑制了默認情況下要考慮的nan值。 您當然必須將其合並到原始數據框上，以便在需要時保留具有nan值的行。 所以，兩種方法都可以正常工作，您可以選擇最能滿足您需求的方法。

Answer 4

pd.concat([df,pd.crosstab(df.index,df.source_column)],1).fillna(0)

Out[1028]: 
  ID source_column  value1  value2  value3
0  A        value1     1.0     0.0     0.0
1  B             0     0.0     0.0     0.0
2  C        value2     0.0     1.0     0.0
3  D        value3     0.0     0.0     1.0
4  E        value2     0.0     1.0     0.0

Python Pandas：為源列的每個不同值創建一個新列（使用布爾輸出作為列值）

問題描述

4 個解決方案

解決方案1
3 2018-02-06 15:57:23

解決方案2
3 2018-02-06 16:07:40

解決方案3
1 2018-02-06 15:49:59

編輯：

解決方案4
1 2018-02-06 16:09:40

Python Pandas：為源列的每個不同值創建一個新列（使用布爾輸出作為列值）

問題描述

4 個解決方案

解決方案1 3 2018-02-06 15:57:23

解決方案2 3 2018-02-06 16:07:40

解決方案3 1 2018-02-06 15:49:59

編輯：

解決方案4 1 2018-02-06 16:09:40

解決方案1
3 2018-02-06 15:57:23

解決方案2
3 2018-02-06 16:07:40

解決方案3
1 2018-02-06 15:49:59

解決方案4
1 2018-02-06 16:09:40