如何將 DataFrame 行數限制為特定列中的第 X 個唯一值？

Question

例如，我們有以下 DataFrame：

我們會知道我們想要在 A 列中有 x（比如 3）個唯一值。那么所需的 output 將是：

我考慮過遍歷有問題的列，通過跟蹤並獲取具有正確索引的 DataFrame 的子集來計算唯一值的數量。 我仍然是 Python 的新手，我相信會有更有效的方法來做到這一點，請分享您的解決方案。 贊賞！

Answer 1

您可以嘗試series.factorize索引從 0 開始的唯一值，然后 select 是 <= n-1 的值（因為索引從 0 開始），因此也保留訂單：

n=3
df[df['A'].factorize()[0]<=n-1]

Answer 2

您可以使用np.random.choice到 select 唯一的 id，然后使用這些 id 到isin行：

selected_ids = np.random.choice(df['A'].unique(), replace=False, size=3)

df[df['A'].isin(selected_ids)]