使用pandas中的groupby用模式替換缺失值時的IndexError

Question

我有一個需要缺失價值處理的數據集。

 Column                      Missing Values

 Complaint_ID                    0         
 Date_received                   0         
 Transaction_Type                0         
 Complaint_reason                0         
 Company_response              22506         
 Date_sent_to_company            0         
 Complaint_Status                0         
 Consumer_disputes             7698

現在的問題是，當我嘗試使用groupby用其他columns模式替換缺少的values時：

碼：

data11["Company_response"] = 
data11.groupby("Complaint_reason").transform(lambda x: x.fillna(x.mode() 
[0]))["Company_response"]

data11["Consumer_disputes"] = 
data11.groupby("Transaction_Type").transform(lambda x: x.fillna(x.mode() 
[0]))["Consumer_disputes"]

我收到以下錯誤：

堆棧跟蹤

Traceback (most recent call last):

File "<ipython-input-89-8de6a010a299>", line 1, in <module>
    data11["Company_response"] = data11.groupby("Complaint_reason").transform(lambda x: x.fillna(x.mode()[0]))["Company_response"]

  File "C:\Anaconda3\lib\site-packages\pandas\core\groupby.py", line 3741, in transform
    return self._transform_general(func, *args, **kwargs)

  File "C:\Anaconda3\lib\site-packages\pandas\core\groupby.py", line 3699, in _transform_general
    res = path(group)

  File "C:\Anaconda3\lib\site-packages\pandas\core\groupby.py", line 3783, in <lambda>
    lambda x: func(x, *args, **kwargs), axis=self.axis)

  File "C:\Anaconda3\lib\site-packages\pandas\core\frame.py", line 4360, in apply
    ignore_failures=ignore_failures)

  File "C:\Anaconda3\lib\site-packages\pandas\core\frame.py", line 4456, in _apply_standard
    results[i] = func(v)

  File "C:\Anaconda3\lib\site-packages\pandas\core\groupby.py", line 3783, in <lambda>
    lambda x: func(x, *args, **kwargs), axis=self.axis)

  File "<ipython-input-89-8de6a010a299>", line 1, in <lambda>
    data11["Company_response"] = data11.groupby("Complaint_reason").transform(lambda x: x.fillna(x.mode()[0]))["Company_response"]

  File "C:\Anaconda3\lib\site-packages\pandas\core\series.py", line 601, in __getitem__
    result = self.index.get_value(self, key)

  File "C:\Anaconda3\lib\site-packages\pandas\core\indexes\base.py", line 2434, in get_value
    return libts.get_value_box(s, key)

  File "pandas\_libs\tslib.pyx", line 923, in pandas._libs.tslib.get_value_box (pandas\_libs\tslib.c:18843)

  File "pandas\_libs\tslib.pyx", line 939, in pandas._libs.tslib.get_value_box (pandas\_libs\tslib.c:18560)

IndexError: ('index out of bounds', 'occurred at index Consumer_disputes')

我檢查了dataframe及其所有列的length ，它是相同的：43266。

我也發現了類似的問題，但沒有正確的答案：點擊這里

請幫助解決錯誤。

IndexError :('index out of bounds'，'發生在索引Consumer_disputes'）

以下是數據集的快照，如果它有任何幫助：數據集快照

我成功使用以下代碼。 但它並不完全符合我的目的。 盡管有助於填補缺失的值。

data11['Company_response'].fillna(data11['Company_response'].mode()[0], 
inplace=True)
data11['Consumer_disputes'].fillna(data11['Consumer_disputes'].mode()[0], 
inplace=True)

Edit1 :(附加樣本）

輸入給定：

預期產出：

您可以看到Tr-1和Tr-3的公司響應的缺失值通過采用投訴原因的模式來填充。 對於消費者糾紛，類似於采用交易類型的方式，對於Tr-5。

下面的代碼段由數據框和代碼組成，供那些想要復制並試一試的人使用。

復制代碼

import pandas as pd
import numpy as np

data11=pd.DataFrame({'Complaint_ID':['Tr-1','Tr-2','Tr-3','Tr-4','Tr-5','Tr-6'],
                    'Transaction_Type':['Mortgage','Credit card','Bank account or service','Debt collection','Credit card','Mortgage'],
                    'Complaint_reason':['Loan servicing, payments, escrow account','Incorrect information on credit report',"Cont'd attempts collect debt not owed","Cont'd attempts collect debt not owed",'Payoff process','Loan servicing, payments, escrow account'],
                    'Company_response':[np.nan,'Company chooses not to provide a public response',np.nan,'Company believes it acted appropriately as authorized by contract or law','Company has responded to the consumer and the CFPB and chooses not to provide a public response','Company disputes the facts presented in the complaint'],
                    'Consumer_disputes':['Yes','No','No','No',np.nan,'Yes']})

data11.isnull().sum()

data11["Company_response"] = data11.groupby("Complaint_reason").transform(lambda x: x.fillna(x.mode()[0]))["Company_response"]
data11["Consumer_disputes"] = data11.groupby("Transaction_Type").transform(lambda x: x.fillna(x.mode()[0]))["Consumer_disputes"]

Answer 1

引發錯誤是因為對於至少一個組，相應聚合列中的值僅包含np.nan值。 在這種情況下， pd.Series([np.nan]).mode()返回一個空系列，當你取第一個值時會導致錯誤。

所以，你可以使用像transform(lambda x: x.fillna(x.mode()[0] if not x.mode().empty else "Empty") )這樣的東西transform(lambda x: x.fillna(x.mode()[0] if not x.mode().empty else "Empty") ) 。

Answer 2

嘗試：

data11["Company_response"] = data11.groupby("Complaint_reason")['Company_response'].transform(lambda x: x.fillna(x.mode()[0]))

data11["Consumer_disputes"] = data11.groupby("Transaction_Type")['Consumer_disputes'].transform(lambda x: x.fillna(x.mode()[0]))

Answer 3

@Mikhail Berlinkov幾乎肯定是正確的。 我能夠重現你的錯誤，然后使用dropna()來避免它：

data11.groupby("Transaction-Type").transform(
    lambda x: x.fillna(x.mode() [0]))["Consumer-disputes"]  
# Returns IndexError

data11.dropna().groupby("Transaction-Type").transform(
    lambda x: x.fillna(x.mode() [0]))["Consumer-disputes"]  
# Works

使用pandas中的groupby用模式替換缺失值時的IndexError

問題描述

堆棧跟蹤

復制代碼

3 個解決方案

解決方案1
2 2019-01-01 16:42:05

解決方案2
1 已采納 2019-01-01 20:09:16

解決方案3
0 2019-01-02 07:53:49

使用pandas中的groupby用模式替換缺失值時的IndexError

問題描述

堆棧跟蹤

復制代碼

3 個解決方案

解決方案1 2 2019-01-01 16:42:05

解決方案2 1 已采納 2019-01-01 20:09:16

解決方案3 0 2019-01-02 07:53:49

解決方案1
2 2019-01-01 16:42:05

解決方案2
1 已采納 2019-01-01 20:09:16

解決方案3
0 2019-01-02 07:53:49