Pandas read_csv 與 MultiIndex 列

Question

我有一個看起來像這樣的 csv 文件：

;a1;;;;;;a2;;;;;
;b1;;;b2;;;b1;;;b2;;
;c1;c2;c3;c1;c2;c3;c1;c2;c3;c1;c2;c3
0;0.9803;0.6223;0.3398;0.1376;0.3197;0.4410;0.9854;0.2557;0.4300;0.2170;0.4303;0.2307
1;0.1125;0.2934;0.8716;0.4591;0.4254;0.1810;0.6816;0.7632;0.7135;0.1945;0.0215;0.1310
2;0.1479;0.3473;0.1396;0.1298;0.9051;0.7637;0.9413;0.0467;0.9106;0.2931;0.0108;0.0220
3;0.6559;0.3842;0.8389;0.4315;0.2748;0.2193;0.9306;0.6496;0.6549;0.0835;0.8225;0.0136

當使用 pandas 閱讀時，我得到：

df = pd.read_csv(file_path, delimiter=";", header=[0,1,2], index_col=0)

print(df)

       a1 Unnamed: 2_level_0 Unnamed: 3_level_0 Unnamed: 4_level_0      a2 Unnamed: 6_level_0 Unnamed: 7_level_0 Unnamed: 8_level_0
       b1 Unnamed: 2_level_1                 b2 Unnamed: 4_level_1      b1 Unnamed: 6_level_1                 b2 Unnamed: 8_level_1
       c1                 c2                 c1                 c2      c1                 c2                 c1                 c2
0  0.6979             0.1863             0.4639             0.3777  0.7896             0.3321             0.8255             0.1357
1  0.8593             0.4796             0.4800             0.6605  0.3322             0.8397             0.5421             0.5000
2  0.0205             0.0679             0.3378             0.0636  0.9365             0.4386             0.4939             0.9106
3  0.0052             0.2623             0.8616             0.6671  0.6522             0.8673             0.0300             0.6935

如何讓 pandas 將標頭識別為 MultiIndex 並獲得沒有未命名列的 output？

       a1                                                               a2
       b1                                    b2                         b1                              b2
       c1                 c2                 c1                 c2      c1                 c2                 c1                 c2
0  0.6979             0.1863             0.4639             0.3777  0.7896             0.3321             0.8255             0.1357
1  0.8593             0.4796             0.4800             0.6605  0.3322             0.8397             0.5421             0.5000
2  0.0205             0.0679             0.3378             0.0636  0.9365             0.4386             0.4939             0.9106
3  0.0052             0.2623             0.8616             0.6671  0.6522             0.8673             0.0300             0.6935

多謝你們！

Answer 1

我認為這里任何體面的解決方案都必須以某種方式使用pandas.MultiIndex 。

您可以做的是將 header 行（ nrows=3 ）分別讀入DataFrame並將其轉換為可以傳遞給pandas.MultiIndex.from_arrays()的列表列表。

訣竅是將選項keep_default_na設置為False ，以便NaN值被清除並且不會出現在結果標題中。

headers = pd.read_csv(file_path, header=None, nrows=3, delimiter=';',
                      index_col=0, keep_default_na=False).values.tolist()
df = pd.read_csv(file_path, delimiter=';', header=[0, 1, 2], index_col=0)
df.columns = pd.MultiIndex.from_arrays(headers)
print(df)

這給出了所需的 output：

       a1                                              a2                                        
       b1                      b2                      b1                      b2                
       c1      c2      c3      c1      c2      c3      c1      c2      c3      c1      c2      c3
0  0.9803  0.6223  0.3398  0.1376  0.3197  0.4410  0.9854  0.2557  0.4300  0.2170  0.4303  0.2307
1  0.1125  0.2934  0.8716  0.4591  0.4254  0.1810  0.6816  0.7632  0.7135  0.1945  0.0215  0.1310
2  0.1479  0.3473  0.1396  0.1298  0.9051  0.7637  0.9413  0.0467  0.9106  0.2931  0.0108  0.0220
3  0.6559  0.3842  0.8389  0.4315  0.2748  0.2193  0.9306  0.6496  0.6549  0.0835  0.8225  0.0136

從理論上講，您還可以 devise 一種解決方案，該解決方案只讀取一次文件，然后在出現“未命名”的情況下對標頭進行一些操作 - 但這種方法不太可靠（您不應該假設 header一般格式）。

Pandas read_csv 與 MultiIndex 列

問題描述

1 個解決方案

解決方案1
0 已采納 2021-01-19 06:58:23

Pandas read_csv 與 MultiIndex 列

問題描述

1 個解決方案

解決方案1 0 已采納 2021-01-19 06:58:23

解決方案1
0 已采納 2021-01-19 06:58:23