在熊貓數據框中將一列拆分為具有特定名稱的多列

Question

我有以下數據框：

pri    sec
TOM    AB,CD,EF
JACK   XY,YZ
HARRY  FG
NICK   KY,NY,SD,EF,FR

我需要以下帶有列名的輸出（基於列“秒”中存在多少個分隔字段）：

pri    sec             sec0  sec1  sec2  sec3 sec4
TOM    AB,CD,EF        AB    CD    EF    NaN  NaN
JACK   XY,YZ           XY    YZ    NaN   NaN  NaN
HARRY  FG              FG    NaN   NaN   NaN  NaN
NICK   KY,NY,SD,EF,FR  KY    NY    SD    EF   ER

我能得到任何建議嗎？

Answer 1

使用join + split + add_prefix ：

df = df.join(df['sec'].str.split(',', expand=True).add_prefix('sec'))
print (df)
     pri             sec sec0  sec1  sec2  sec3  sec4
0    TOM        AB,CD,EF   AB    CD    EF  None  None
1   JACK           XY,YZ   XY    YZ  None  None  None
2  HARRY              FG   FG  None  None  None  None
3   NICK  KY,NY,SD,EF,FR   KY    NY    SD    EF    FR

如果需要NaN添加fillna ：

df = df.join(df['sec'].str.split(',', expand=True).add_prefix('sec').fillna(np.nan))
print (df)
     pri             sec sec0 sec1 sec2 sec3 sec4
0    TOM        AB,CD,EF   AB   CD   EF  NaN  NaN
1   JACK           XY,YZ   XY   YZ  NaN  NaN  NaN
2  HARRY              FG   FG  NaN  NaN  NaN  NaN
3   NICK  KY,NY,SD,EF,FR   KY   NY   SD   EF   FR

Answer 2

嘗試以下代碼（解釋為注釋）。 它在“秒”列中找到項目的最大長度並相應地創建名稱：

maxlen = max(list(map(lambda x: len(x.split(",")) ,df.sec))) # find max length in 'sec' column
cols = ["sec"+str(x)   for x in range(maxlen)]      # create new column names 
datalist = list(map(lambda x: x.split(","), df.sec)) # create list from entries in "sec" 
newdf = pd.DataFrame(data=datalist, columns=cols)   # create dataframe of new columns
newdf = pd.concat([df, newdf], axis=1)              # add it to original dataframe
print(newdf)

輸出：

     pri             sec sec0  sec1  sec2  sec3  sec4
0    TOM        AB,CD,EF   AB    CD    EF  None  None
1   JACK           XY,YZ   XY    YZ  None  None  None
2  HARRY              FG   FG  None  None  None  None
3   NICK  KY,NY,SD,EF,FR   KY    NY    SD    EF    FR

在熊貓數據框中將一列拆分為具有特定名稱的多列

問題描述

2 個解決方案

解決方案1
28 已采納 2018-01-11 12:30:27

解決方案2
1 2018-01-11 15:38:20

在熊貓數據框中將一列拆分為具有特定名稱的多列

問題描述

2 個解決方案

解決方案1 28 已采納 2018-01-11 12:30:27

解決方案2 1 2018-01-11 15:38:20

解決方案1
28 已采納 2018-01-11 12:30:27

解決方案2
1 2018-01-11 15:38:20