如何将pandas系列中的'NaN'字符串转换为dropna的空值？

Question

I tried a couple methods to clean rows containing NaN from a particular Series in my DataFrame only to realize every NaN entry is a 'NaN' string, not a null value. 我尝试了几种方法来清除DataFrame中特定系列中包含NaN行，只是意识到每个NaN条目都是'NaN'字符串，而不是空值。

In my specific example, each row represents a country and so I want to remove all countries that do not have a GDP value in the 'GDP per Capita' column from the DataFrame. 在我的特定示例中，每一行代表一个国家，因此我想从DataFrame中删除'GDP per Capita'列中没有GDP值的所有国家。

Some things I tried (that failed): 我尝试过的一些事情（失败了）：

df_noGDP = df
df_noGDP.dropna(axis=0, subset=['GDP per Capita'])

and 和

df_noGDP = df.loc[df['GDP per Capita'] != np.nan]

When I call df_noGDP , I see that no NaN values are removed. 当我调用df_noGDP ，我看到没有删除NaN值。 I figure I'm either making a silly syntax error somewhere or I need to convert my data types. 我认为我在某个地方犯了一个愚蠢的语法错误，或者我需要转换我的数据类型。

Answer 1

Do: 做：

df_noGDP=df_noGDP.replace('NaN',np.nan)

Or: 要么：

df_noGDP.replace('NaN','np.nan,inplace=1)

Then your stuff would work as expected. 然后您的东西将按预期工作。

Answer 2

First convert your strings to NaN values: 首先将您的字符串转换为NaN值：

df = df.replace('NaN', np.nan)

Then assign back or specify your method to be in-place: 然后分配回去或指定您的方法就位：

df = df.dropna(subset=['GDP per Capita'])           # not in place version
df.dropna(subset=['GDP per Capita'], inplace=True)  # in place version

Alternatively, use loc with notnull , since NaN != NaN by design : 或者，将loc与notnull一起notnull ，因为NaN != NaN 是设计 notnull ：

df = df.loc[df['GDP per Capita'].notnull()]

如何将pandas系列中的'NaN'字符串转换为dropna的空值？

问题描述

2 个解决方案

解决方案1
1 2018-12-11 03:28:26

解决方案2
1 已采纳 2018-12-11 03:30:30

如何将pandas系列中的&#39;NaN&#39;字符串转换为dropna的空值？

问题描述

2 个解决方案

解决方案1 1 2018-12-11 03:28:26

解决方案2 1 已采纳 2018-12-11 03:30:30

如何将pandas系列中的'NaN'字符串转换为dropna的空值？

解决方案1
1 2018-12-11 03:28:26

解决方案2
1 已采纳 2018-12-11 03:30:30