檢查數據框中的 ID 是否存在於另一個數據框中的最快方法

Question

我有大熊貓數據框（大約一百萬行）和一個 id-s 列表（數組長度為 100,000）。 對於 df1 中的每個 id，我必須檢查該 id 是否在我的列表中（稱為special ）並相應地對其進行標記：

df['Segment'] = df['ID'].apply(lambda x: 1 if x in special else np.nan)

問題是這非常慢，因為百萬 id-s lambda 表達式檢查該 id 是否在 100,000 個條目的列表中。 有沒有更快的方法來實現這一點？

Answer 1

 df['Segment'] = df['ID'].isin(special).astype(int)

我們也可以使用Series.view ：

df['Segment'] = df['ID'].isin(special).view('uint8')

df['Segment'] = np.where(df['ID'].isin(special),1 ,0)