熊貓數據透視表

Question

我有一個包含以下列的 Pandas 數據框：

SecId   Date           Sector     Country
184149  2019-12-31     Utility    USA
184150  2019-12-31     Banking    USA
187194  2019-12-31     Aerospace  FRA
...............
128502  2020-02-12     CommSvcs   UK
...............

SecId & Date 列是索引。 我想要的是以下..

SecId   Date          Aerospace Banking CommSvcs ........  Utility AFG CAN .. FRA .... UK   USA ...
184149  2019-12-31        0        0       0                  1     0   0      0        0    1
184150  2019-12-31        0        1       0                  0     0   0      0        0    1
187194  2019-12-31        1        0       0                  0     0   0      1        0    0
................
128502  2020-02-12        0        0       1                  0     0   0      0        1    0
................

什么是有效的方法來解決這個問題？ 原始數據每天都經過非規范化處理，可能有數百萬行。

Answer 1

您可以使用get_dummies 。 您可以預先將其轉換為分類 dtype 以定義將創建哪些列。

代碼：

SECTORS = df.Sector.unique()
df["Sector"] = df.Sector.astype(pd.Categorical(SECTORS))
COUNTRIES = df.Country.unique()
df["Country"] = df.Country.astype(pd.Categorical(COUNTRIES))

df2 = pd.get_dummies(data=df, columns=["Sector", "Country"], prefix="", pefix_sep="")

輸出：

    SecId        Date  Aerospace  Banking  Utility  FRA  USA
0  184149  2019-12-31          0        0        1    0    1
1  184150  2019-12-31          0        1        0    0    1
2  187194  2019-12-31          1        0        0    1    0

Answer 2

按照@BEN_YO 的建議嘗試：

pd.get_dummies(df,columns=['Sector', 'Country'], prefix='', prefix_sep='')

輸出：

    SecId        Date  Aerospace  Banking  Utility  FRA  USA
0  184149  2019-12-31          0        0        1    0    1
1  184150  2019-12-31          0        1        0    0    1
2  187194  2019-12-31          1        0        0    1    0

熊貓數據透視表

問題描述

2 個解決方案

解決方案1
2 2020-11-16 21:00:30

解決方案2
1 已采納 2020-11-16 21:20:25

熊貓數據透視表

問題描述

2 個解決方案

解決方案1 2 2020-11-16 21:00:30

解決方案2 1 已采納 2020-11-16 21:20:25

解決方案1
2 2020-11-16 21:00:30

解決方案2
1 已采納 2020-11-16 21:20:25