匹配 2 個不同的 dataframe 但長度不同的列值

Question

檢查數據集圖像

我有 TOTAL 2 個數據集，其中 dataset1 具有大約 40 個條目的 PATIENTID 列，另一個 dataset2 具有大約 700 個條目的相同 PATIENTID

我想檢查 dataset1 的 PATIENTID 是否存在於 dataset2 中。

我在 Python Jupyter 筆記本中嘗試過，但通過 Python 代碼無法正常工作。

PatientsNotTreated=unique(Datase1.PatientID)[!unique(Dataset1.PatientID) in unique(Dataset2.PatientID)]
PatientsNotTreated

我收到錯誤：

PatientsNotTreated=unique(Datase1.PatientID)[!unique(Dataset1.PatientID) in unique(Dataset2.PatientID)]
                                                     ^
    SyntaxError: invalid syntax

我預計 daTASET2 中不存在的患者 ID 的 output

Answer 1

使用Series.isin與DataFrame.loc進行布爾索引。 最后使用Series.unique ：

arr_out=Dataset1.loc[~Dataset1['PatientID'].isin(Dataset2['PatientID']),'PatientID'].unique()

arr_in=Dataset1.loc[Dataset1['PatientID'].isin(Dataset2['PatientID']),'PatientID'].unique()

根據患者使用過濾 dataset1：

Dataset1_filtered=Dataset1.loc[~Dataset1['PatientID'].isin(Dataset2['PatientID'])]

匹配 2 個不同的 dataframe 但長度不同的列值

問題描述

1 個解決方案

解決方案1
1 已采納 2019-10-08 01:00:27

匹配 2 個不同的 dataframe 但長度不同的列值

問題描述

1 個解決方案

解決方案1 1 已采納 2019-10-08 01:00:27

解決方案1
1 已采納 2019-10-08 01:00:27