刪除存在 null 值的列的重復項

Question

我有一個 dataframe df1 並且第 1 列（col1）包含客戶 ID。 Col2 填充了銷售額，並且缺少一些值

我的問題是，我只想在缺少銷售價值的地方刪除 col1 中的重復客戶 ID。

我試着寫一個 function 說：

def drop(i):
          if i[col2] == np.nan:
             i.drop_duplicates(subset = 'col1')
          else:
             return i['col1']

我收到一個錯誤，說系列的真值不明確

感謝您的閱讀。 將不勝感激一個解決方案

Answer 1

以下應該工作，使用groupby ， apply ， dropna ， reset_index

假設您的數據是這樣的

輸入：

col1    col2
0   1001    2.0
1   1001    NaN
2   1002    4.0
3   1002    NaN

代碼：

import pandas as pd
import numpy as np

#Dummy data
data = {
    'col1':[1001,1001,1002,1002],
    'col2':[2,np.nan,4,np.nan],
}

df = pd.DataFrame(data)

#Solution
df.groupby('col1').apply(lambda group: group.dropna(subset=['col2'])).reset_index(drop=True)

output：

col1    col2
0   1001    2.0
1   1002    4.0

刪除存在 null 值的列的重復項

問題描述

1 個解決方案

解決方案1
1 2021-02-26 14:56:23

刪除存在 null 值的列的重復項

問題描述

1 個解決方案

解決方案1 1 2021-02-26 14:56:23

解決方案1
1 2021-02-26 14:56:23