Pandas：根據 MultiIndex 中整個列的相同值有條件地刪除列 dataframe

Question

我有一個 dataframe 如下：

data = {('5105', 'Open'): [1.99,1.98,1.99,2.05,2.15],
        ('5105', 'Adj Close'): [1.92,1.92,1.96,2.07,2.08],
        ('5229', 'Open'): [0.01]*5,
        ('5229', 'Adj Close'): [0.02]*5,
        ('7076', 'Open'): [1.02,1.01,1.01,1.06,1.06],
        ('7076', 'Adj Close'): [0.90,0.92,0.94,0.94,0.95]}

df = pd.DataFrame(data)

   5105            5229            7076          
   Open Adj Close  Open Adj Close  Open Adj Close
0  1.99      1.92  0.01      0.02  1.02      0.90
1  1.98      1.92  0.01      0.02  1.01      0.92
2  1.99      1.96  0.01      0.02  1.01      0.94
3  2.05      2.07  0.01      0.02  1.06      0.94
4  2.15      2.08  0.01      0.02  1.06      0.95

如上面的 dataframe，我們可以看到df['5229'] Open和Adj Close兩列在整個列中分別具有相同的值。 所以，我打算放棄它，因為它對我的分析沒有用。

我有兩個疑問：

如果它的子列在整個列中分別具有相同的值，我如何將列放在第 0 級（即第 1 列）？
另一方面，如果只有一個子列在整個列中具有相同的值，我該如何刪除它？

由於這是基於條件的丟棄，我想知道df.drop在這種情況下是否仍然有效？

根據我的第一個和第二個查詢，在我上面的例子中，由於Open和Adj Close在整個列中具有相同的值，我想完全放棄它。

預期的 output 是：

   5105            7076          
   Open Adj Close  Open Adj Close
0  1.99      1.92  1.02      0.90
1  1.98      1.92  1.01      0.92
2  1.99      1.96  1.01      0.94
3  2.05      2.07  1.06      0.94
4  2.15      2.08  1.06      0.95

編輯

真的很感謝回答問題的人。 為了更簡潔，我試圖從 dataframe 中刪除包含 200 多列的列，條件是該特定列中的所有值都相同。

Answer 1

試試nunique

df = df.loc[:,~(df.nunique()==1).values]
Out[125]: 
   5105            7076          
   Open Adj Close  Open Adj Close
0  1.99      1.92  1.02      0.90
1  1.98      1.92  1.01      0.92
2  1.99      1.96  1.01      0.94
3  2.05      2.07  1.06      0.94
4  2.15      2.08  1.06      0.95

Answer 2

嘗試這個：

df.drop('5229',level=0,axis=1)

Output：

   5105            7076          
   Open Adj Close  Open Adj Close
0  1.99      1.92  1.02      0.90
1  1.98      1.92  1.01      0.92
2  1.99      1.96  1.01      0.94
3  2.05      2.07  1.06      0.94
4  2.15      2.08  1.06      0.95

Answer 3

我們可以使用unstack + groupby + nunique來獲取每列中唯一值的數量。 然后 select 只有loc值超過 1 的列：

out = df[df.unstack().groupby(level=[0,1]).nunique().loc[lambda x: x!=1].index]

Output：

       5105            7076      
  Adj Close  Open Adj Close  Open
0      1.92  1.99      0.90  1.02
1      1.92  1.98      0.92  1.01
2      1.96  1.99      0.94  1.01
3      2.07  2.05      0.94  1.06
4      2.08  2.15      0.95  1.06

Answer 4

你可以試試這個：

for a, b in df.columns:
    if df[a][b].duplicated(keep=False).sum() == df[a][b].size:
        df.drop((a, b), axis=1, inplace=True)

結果：

   5105            7076          
   Open Adj Close  Open Adj Close
0  1.99      1.92  1.02      0.90
1  1.98      1.92  1.01      0.92
2  1.99      1.96  1.01      0.94
3  2.05      2.07  1.06      0.94
4  2.15      2.08  1.06      0.95

Pandas：根據 MultiIndex 中整個列的相同值有條件地刪除列 dataframe

問題描述

編輯

4 個解決方案

解決方案1
1 2022-03-31 03:22:03

解決方案2
0 2022-03-31 02:30:17

解決方案3
0

解決方案4
0 已采納 2022-03-31 02:48:57

Pandas：根據 MultiIndex 中整個列的相同值有條件地刪除列 dataframe

問題描述

編輯

4 個解決方案

解決方案1 1 2022-03-31 03:22:03

解決方案2 0 2022-03-31 02:30:17

解決方案3 0

解決方案4 0 已采納 2022-03-31 02:48:57

解決方案1
1 2022-03-31 03:22:03

解決方案2
0 2022-03-31 02:30:17

解決方案3
0

解決方案4
0 已采納 2022-03-31 02:48:57