Python dataframe -.astype(str).astype(int) 给出错误 ValueError: invalid literal for int() with base 10: ''

Question

我正在尝试将 dataframe 列从 object 转换为 int 使用：

df['col'].astype(str).astype(int)

但我收到一个错误

ValueError: invalid literal for int() with base 10: ''

因为有些元素是空的。 我该如何处理并克服/摆脱这个错误？

这是我的专栏的一部分：

Answer 1

问题是 int 列存储在 int32 或 int64 numpy arrays 中，并且两个 dtype 都没有空值的概念。 如果向 int 列添加 NaN 值后立即将其转换为浮点类型，这并非偶然。

对于 Pandas >=0.24 的最新版本，您可以尝试使用可为空的 integer 扩展 dtype：

df['A'] = pd.Series(np.where(df['A'].isna()|(df['A']==''), pd.NA,
           df.loc[df['A']!='','A'].apply(int).reindex(df.index)
           .fillna(0)), dtype=pd.Int64Dtype)

但要注意 is 被明确声明为实验性的：

笔记

IntegerArray 目前是实验性的。 其 API 或实现可能会在没有警告的情况下更改。

Answer 2

首先填充空元素，然后将它们转换为 int。 它将通过上述错误。 所以首先填充列中的所有空元素然后应用这个......

df['col'].replace('','0',inplace=True)

df['col'].astype(int)

例如：

df=pd.DataFrame(['1','2','4','3',''])
df.replace('','0',inplace=True)
df=df.astype('int')

Python dataframe -.astype(str).astype(int) 给出错误 ValueError: invalid literal for int() with base 10: ''

问题描述

2 个解决方案

解决方案1
1 已采纳 2020-05-29 13:02:09

解决方案2
0 2020-05-29 12:47:58

Python dataframe -.astype(str).astype(int) 给出错误 ValueError: invalid literal for int() with base 10: ''

问题描述

2 个解决方案

解决方案1 1 已采纳 2020-05-29 13:02:09

解决方案2 0 2020-05-29 12:47:58

解决方案1
1 已采纳 2020-05-29 13:02:09

解决方案2
0 2020-05-29 12:47:58