Pandas - 根据列对行进行分组并将 NaN 替换为非空值

Question

我正在尝试根据目标“分组依据”列在我的 dataframe 上使用字符串创建一些聚合。

想象一下，我有以下 dataframe 和 4 列：

我想根据列“Col1”对所有行进行分组，在 o NaN 组的情况下，其值不是 null。

想要的output是这样的：

我也尝试使用普通的：

import pandas as pd
from tabulate import tabulate

df = pd.DataFrame({'Col1': ['A', 'B', 'A'],
                   'Col2': ['X', 'Z', 'X'],
                   'Col3': ['Y', 'D', ''],
                   'Col4': ['', 'E', 'V'],})

print(tabulate(df, headers='keys', tablefmt='psql'))
df2 = df.groupby(['Col1'])
print(tabulate(df2, headers='keys', tablefmt='psql'))

但它没有对 NaN 值进行分组......

我怎样才能做到这一点？

谢谢！

Answer 1

如果可以简单地询问每个组的第一个非缺失值，请使用GroupBy.first ：

df = pd.DataFrame({'Col1': ['A', 'B', 'A'],
                   'Col2': ['X', 'Z', 'X'],
                   'Col3': ['Y', 'D', np.nan],
                   'Col4': [np.nan, 'E', 'V'],})


df2 = df.groupby(['Col1'], as_index=False).first()
print (df2)
  Col1 Col2 Col3 Col4
0    A    X    Y    V
1    B    Z    D    E

Answer 2

使用first()更简洁明了。 另一种但不太酷的方法是：

df.replace('', np.nan) \
.groupby('Col1', as_index=False) \
.fillna(method='bfill') \
.groupby('Col1') \
.nth(0)

Output：

Col1    Col2    Col3    Col4
A   X   Y   V
B   Z   D   E

甚至你可以使用head()而不是nth() ：

df.replace('', np.nan) \
.groupby('Col1', as_index=False) \
.fillna(method='bfill') \
.groupby('Col1') \
.head(1) \ 
.set_index('Col1')

Output：

Col1    Col2    Col3    Col4
A   X   Y   V
B   Z   D   E

Answer 3

只需在已经启动的 DataFrame 上使用 df.replace() 将它们替换为 np.nan

df.replace('', np.nan)

Pandas - 根据列对行进行分组并将 NaN 替换为非空值

问题描述

3 个解决方案

解决方案1
4 已采纳 2020-02-11 11:36:04

解决方案2
0 2020-02-11 15:24:15

解决方案3
-1 2020-02-11 11:47:25

Pandas - 根据列对行进行分组并将 NaN 替换为非空值

问题描述

3 个解决方案

解决方案1 4 已采纳 2020-02-11 11:36:04

解决方案2 0 2020-02-11 15:24:15

解决方案3 -1 2020-02-11 11:47:25

解决方案1
4 已采纳 2020-02-11 11:36:04

解决方案2
0 2020-02-11 15:24:15

解决方案3
-1 2020-02-11 11:47:25