繁体   English   中英

如何用 1 替换数据帧的所有非 NaN 条目,用 0 替换所有 NaN

[英]How to replace all non-NaN entries of a dataframe with 1 and all NaN with 0

我有一个包含 71 列和 30597 行的数据框。 我想用 1 替换所有非 nan 条目,用 0 替换 nan 值。

最初,我尝试对数据帧的每个值进行 for 循环,这花费了太多时间。

然后我使用了data_new=data.subtract(data)这意味着将数据帧的所有值减去自身,以便我可以将所有非空值设为 0。但是由于数据帧有多个字符串条目而发生错误。

您可以获取df.notnull()的返回值,当 DataFrame 包含NaNFalse ,否则为True并将其转换为整数,在 DataFrame 为NaN0 ,否则为1

newdf = df.notnull().astype('int')

如果您真的想写入原始数据帧,这将起作用:

df.loc[~df.isnull()] = 1  # not nan
df.loc[df.isnull()] = 0   # nan

使用notnull通过astype将 boolean 转换为int

print ((df.notnull()).astype('int'))

样本:

import pandas as pd
import numpy as np

df = pd.DataFrame({'a': [np.nan, 4, np.nan], 'b': [1,np.nan,3]})
print (df)
     a    b
0  NaN  1.0
1  4.0  NaN
2  NaN  3.0

print (df.notnull())
       a      b
0  False   True
1   True  False
2  False   True

print ((df.notnull()).astype('int'))
   a  b
0  0  1
1  1  0
2  0  1

.fillna()上有一个方法.fillna()可以满足您的需求。 例如:

df = df.fillna(0)  # Replace all NaN values with zero, returning the modified DataFrame

要么

df.fillna(0, inplace=True)   # Replace all NaN values with zero, updating the DataFrame directly

我建议制作一个新专栏,而不是仅仅更换。 如有必要,您始终可以删除前一列,但通过对另一列的操作填充列的源总是有帮助的。

例如,如果 df['col1'] 是现有列

df['col2'] = df['col1'].apply(lambda x: 1 if not pd.isnull(x) else np.nan)

其中 col2 是新列。 如果 col2 有字符串条目,也应该工作。

我进行了大量数据分析,并且有兴趣寻找新的/更快的执行操作方法。 我从未遇到过 jezrael 的方法,所以我很好奇将它与我常用的方法(即通过索引替换)进行比较。 注意:这不是对 OP 问题的回答,而是对 jezrael 方法效率的说明。 由于这不是一个答案,如果人们认为它没有用(并且在被低估之后被遗忘!),我将删除这篇文章。 如果您认为我应该删除它,请发表评论。

我创建了一个中等大小的数据框,并使用 df.notnull().astype(int) 方法和简单的索引(我通常会这样做)进行了多次替换。 事实证明,后者慢了大约五倍。 对于任何进行大规模更换的人来说,仅供参考。

from __future__ import division, print_function

import numpy as np
import pandas as pd
import datetime as dt


# create dataframe with randomly place NaN's
data = np.ones( (1e2,1e2) )
data.ravel()[np.random.choice(data.size,data.size/10,replace=False)] = np.nan

df = pd.DataFrame(data=data)

trials = np.arange(100)


d1 = dt.datetime.now()

for r in trials:
    new_df = df.notnull().astype(int)

print( (dt.datetime.now()-d1).total_seconds()/trials.size )


# create a dummy copy of df.  I use a dummy copy here to prevent biasing the 
# time trial with dataframe copies/creations within the upcoming loop
df_dummy = df.copy()

d1 = dt.datetime.now()

for r in trials:
    df_dummy[df.isnull()] = 0
    df_dummy[df.isnull()==False] = 1

print( (dt.datetime.now()-d1).total_seconds()/trials.size )

这分别产生 0.142 秒和 0.685 秒的时间。 谁是赢家,一目了然。

对于 fmarc 的回答:

df.loc[~df.isnull()] = 1  # not nan
df.loc[df.isnull()] = 0   # nan

上面的代码对我不起作用,下面的代码有效。

df[~df.isnull()] = 1  # not nan
df[df.isnull()] = 0   # nan

与熊猫 0.25.3

如果您只想更改特定列中的值,您可能需要创建一个临时数据框并将其分配给原始数据框的列:

change_col = ['a', 'b']
tmp = df[change_col]
tmp[tmp.isnull()]='xxx'
df[change_col]=tmp

使用: df.fillna(0)

用 0 填充 NaN。

在这里,我将建议采用特定列,如果该列中的行是 NaN,则将其替换为 0 或该列中有值将其替换为 1

下面这行会将您的列更改为 0

df.YourColumnName.fillna(0,inplace=True)

现在非南部分的其余部分将被以下代码替换为 1

df["YourColumnName"]=df["YourColumnName"].apply(lambda x: 1 if x!=0 else 0)

同样可以通过不定义列名称应用于总数据框

通常有两个步骤 - 替换所有非 NAN 值,然后替换所有 NAN 值。

  1. dataframe.where(~dataframe.notna(), 1) - 此行将所有非 nan 值替换为 1。
  2. dataframe.fillna(0) - 此行将所有 NAN 替换为 0

旁注:如果您查看 pandas 文档, .where替换所有值为False值 - 这很重要。 这就是为什么我们使用反转来创建掩码~dataframe.notna() ,其中.where()将替换值

试试这个:

df.notnull().mul(1)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM