![](/img/trans.png)
[英]Make dataframe having different column length with the given lists of different length
[英]Match column values of 2 different dataframe but of different length
我有 TOTAL 2 個數據集,其中 dataset1 具有大約 40 個條目的 PATIENTID 列,另一個 dataset2 具有大約 700 個條目的相同 PATIENTID
我想檢查 dataset1 的 PATIENTID 是否存在於 dataset2 中。
我在 Python Jupyter 筆記本中嘗試過,但通過 Python 代碼無法正常工作。
PatientsNotTreated=unique(Datase1.PatientID)[!unique(Dataset1.PatientID) in unique(Dataset2.PatientID)]
PatientsNotTreated
我收到錯誤:
PatientsNotTreated=unique(Datase1.PatientID)[!unique(Dataset1.PatientID) in unique(Dataset2.PatientID)]
^
SyntaxError: invalid syntax
我預計 daTASET2 中不存在的患者 ID 的 output
使用Series.isin與DataFrame.loc進行布爾索引。 最后使用Series.unique :
arr_out=Dataset1.loc[~Dataset1['PatientID'].isin(Dataset2['PatientID']),'PatientID'].unique()
arr_in=Dataset1.loc[Dataset1['PatientID'].isin(Dataset2['PatientID']),'PatientID'].unique()
根據患者使用過濾 dataset1:
Dataset1_filtered=Dataset1.loc[~Dataset1['PatientID'].isin(Dataset2['PatientID'])]
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.