簡體   English   中英

根據其他列在一列中填充 nan 值

[英]Fill nan values in one column based on other columns

我正在處理一個包含平均結婚年齡的數據集。 在這個數據集上,我正在做數據清理工作。 在執行此過程時,我遇到了一個功能,我必須在位置列中填寫“NaN”值。 但是在位置列中有多個唯一值,我想在位置中填充 nan 值。 我需要一些關於如何在具有許多唯一值的列中填充這些 Nan 值的建議。

在此處輸入圖像描述

我已附上數據集以供參考, DataSet

我建議分 3 個步驟進行:

  1. 用最常見的位置或單獨的值“未知”填充位置的缺失值;
  2. 用該特征按位置的平均值填充“age_of_marriage”的缺失值;
  3. 如果“age_of_marriage”還有任何缺失值,請用平均值填充它們。
df = pd.read_csv('https://raw.githubusercontent.com/atharva07/Age-of-marriage/main/age_of_marriage_data.csv', sep=',')
df['location'] = df['location'].fillna('Unknown')
df['age_of_marriage'] = df.groupby(['location'])['age_of_marriage'].apply(lambda x: x.fillna(x.median()))
df['age_of_marriage'] = df['age_of_marriage'].fillna(df['age_of_marriage'].mean())

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM