折叠 Pandas 行以消除 NaN 条目

Question

让我们考虑以下 DataFrame

姓名	一个	乙	C	D
汤姆	10.0	钠	钠	钠
汤姆	钠	15.0	钠	钠
汤姆	钠	钠	20.0	钠
汤姆	钠	钠	钠	25.0
汤姆	30.0	钠	钠	钠
汤姆	钠	钠	钠	40.0
约翰	1.0	钠	钠	钠
约翰	钠	2.0	钠	钠
约翰	钠	钠	3.0	钠
约翰	钠	钠	钠	4.0
约翰	5.0	钠	钠	钠
约翰	钠	6.0	钠	钠
约翰	钠	钠	7.0	钠
约翰	钠	钠	钠	8.0

我想折叠它以限制 DataFrame 中的NaN值的数量 - 可以是连续的，即如果可能的话组合相邻的行，但我关心的是折叠后AD列的值对应于相同的Name

我的完美结果将是

姓名	一个	乙	C	D
汤姆	10.0	15.0	20.0	25.0
汤姆	30.0	钠	钠	40.0
约翰	1.0	2.0	3.0	4.0
约翰	5.0	6.0	7.0	8.0

据我了解， Pandas groupby('Name')不会成功，因为它会为每个名称留下一个条目。

如果这有任何帮助，我使用字典来创建 dataframe。 字典看起来像这样：

{
    "a": {
        "tom": [10.0, 30.0],
        "john": [1.0, 5.0]
    },
    "b": {
        "tom": [15.0],
        "john": [2.0, 6.0]
    },
    .....
}

所以，基本上，我在字典中取每个数字，然后用这个数字创建一行，然后合并所有的行。

有没有一种简单的方法来折叠生成的 DataFrame 或者在给定这样的字典的情况下构建更紧凑的 DataFrame

Answer 1

您可以.groupby + .transform （向上“移动”值）。 然后删除包含所有NaN值的行：

print(
    df.set_index("Name")
    .groupby(level=0)
    .transform(lambda x: sorted(x, key=lambda k: pd.isna(k)))
    .dropna(axis=0, how="all")
    .reset_index()
)

印刷：

   Name     A     B     C     D
0   tom  10.0  15.0  20.0  25.0
1   tom  30.0   NaN   NaN  40.0
2  john   1.0   2.0   3.0   4.0
3  john   5.0   6.0   7.0   8.0

折叠 Pandas 行以消除 NaN 条目

问题描述

1 个解决方案

解决方案1
2 已采纳 2021-05-24 21:02:29

折叠 Pandas 行以消除 NaN 条目

问题描述

1 个解决方案

解决方案1 2 已采纳 2021-05-24 21:02:29

解决方案1
2 已采纳 2021-05-24 21:02:29