對於 MultiIndex 級別 0 中的每個唯一索引值，如果另一列中的值（字符串）不唯一，則打印索引

Question

我正在使用如下所示的面板數據（僅包括相關列）：

Ticker Year Account_number Industry
AAA    2018  xxxx           Fossil
       2019  xxxx           Fossil
       2020  xxxx           Fossil
BBB    2018  yyyy           Materials
       2019  yyyy           Services
       2020  yyyy           Materials
CCC    2018  zzzz           Services
       2019  zzzz           Services
       2020  zzzz           Services

代碼（MultiIndex 的第 0 級）用於識別面板中的單個和唯一單元。 每個單元的觀察時間超過 3 年（MultiIndex 的第 1 級）。

當我groupby('Industry')時，我最終會重復計算單位，因為同一個股票代碼與多個行業相關聯（如股票代碼“BBB”）。

目標是識別和打印存在此問題的代碼，並將它們分配給單個行業。

如果行業列中的字符串不是唯一的，我正在考慮一些返回代碼的代碼，以便我以后可以手動更改它。

謝謝你的幫助！

PS這是我在這里的第一個問題，所以如果您希望我更具體或顯示有關 df 的更多詳細信息，請告訴我

Answer 1

如果每個Ticker的所有Industry值都應該相同，那么您應該反過來執行此操作。

不要在Industry上使用groupby() ，而是在Ticker上使用groupby() ，然后循環遍歷數據幀並僅返回那些grouped_df.Ticker.nunique() > 1

對於 MultiIndex 級別 0 中的每個唯一索引值，如果另一列中的值（字符串）不唯一，則打印索引

問題描述

1 個解決方案

解決方案1
0 2022-09-22 19:13:19

對於 MultiIndex 級別 0 中的每個唯一索引值，如果另一列中的值（字符串）不唯一，則打印索引

問題描述

1 個解決方案

解決方案1 0 2022-09-22 19:13:19

解決方案1
0 2022-09-22 19:13:19