获取 Pandas Dataframe 中每个特征的值不正确的行百分比的最快方法

Question

下面的代码是我所拥有的。 似乎适用于?, '和''但不适用于np.NaN 。 有什么建议？

另外，我是 Pandas/Python 的新手，因此想知道是否有更快的方法来做到这一点

如果超过 X%（比如 5%）的行有缺失值，我正在考虑将特征视为可疑。 您经常使用的任何其他数据清理初始检查

for col in df.columns:
  pcnt_missing = df[df[col].isin(['?','',' ',np.NaN])][col].count() * 100.0 / df[col].count()
  if pcnt_missing > 1:
    print(f"Col = {col}, Percent missing ={pcnt_missing:.2f}")

Answer 1

如果可以替换值? 、 ''和' '使用np.nan ，您可以使用数据np.nan的sum和长度轻松计算缺失值的百分比。 您可以使用apply替换缺失值：

import pandas as pd
import numpy as np

df = pd.DataFrame({'a': [1,2,3,4], 'b': [2, '', '?', 4], 'c': [' ', np.nan, '', 5]})

def replace(x):
    idx = x.isin(['', ' ', '?'])
    x[idx] = np.nan
    return x

replaced = df.apply(replace, axis=1) % Values are replaced here

现在，您可以使用以下命令计算每列缺失值的百分比：

replaced.isna().sum(axis=0) * 100 / len(replaced)

Output:

a     0.0
b    50.0
c    75.0
dtype: float64

Answer 2

使用布尔逻辑与isna ，使用@Ricardo埃里克森设置：

df = pd.DataFrame({'a': [1,2,3,4], 'b': [2, '', '?', 4], 'c': [' ', np.nan, '', 5]})

(df.isna() | df.isin(['?','',' '])).mean()

输出：

a    0.00
b    0.50
c    0.75
dtype: float64

使用isna检查 NaN 并使用| , OR 布尔运算符，并使用isin ，另外您可以使用mean来查找缺失的百分比。

获取 Pandas Dataframe 中每个特征的值不正确的行百分比的最快方法

问题描述

2 个解决方案

解决方案1
0 2020-10-19 02:13:10

解决方案2
0 2020-10-19 02:27:12

获取 Pandas Dataframe 中每个特征的值不正确的行百分比的最快方法

问题描述

2 个解决方案

解决方案1 0 2020-10-19 02:13:10

解决方案2 0 2020-10-19 02:27:12

解决方案1
0 2020-10-19 02:13:10

解决方案2
0 2020-10-19 02:27:12