Pivot - 通过重复的熊猫数据框转置列

Question

我有一个名为“ID”的列的 DataFrame，该列具有重复的观察结果。 每个“ID”行都有一个或多个“文章”值列。 我想通过“ID”转置整个数据框分组，在唯一“ID”的同一行添加新列。

我拥有的：

ID  Article_1   Article_2
1   Banana      Coconut
2   Apple       Strawberry
1   Apple   
3   Tomatoe 
1   Pineapple   
2   Banana  
4   Apple   
5   Apple       Strawberry
3   Apple

我想要的是：

ID     Article_1    Article_2   Article_3   Article_4
0001    Banana      Coconut     Apple       Pineapple
0002    Apple       Strawberry  Banana      NaN
0003    Tomatoe     Apple       NaN         NaN
0004    Apple       NaN         NaN         NaN
0005    Apple       Strawberry  NaN         NaN

新编辑：

我遇到过一些顺序很重要的情况。

我的DF：

ID  Article     Article_2
1   Banana      NaN
2   Apple       NaN
1   Apple       Coconut
3   Tomatoe     Coconut
1   Pineapple   Tropical
2   Banana      Coconut
4   Apple       Coconut
5   Apple       Coconut
3   Apple       Pineapple

第一个@Erfan 解决方案的输出：

        Article_1   Article_2   Article_3   Article_4   Article_5   Article_6
0001    Banana      Apple       Pineapple   NaN         Coconut     Tropical
0002    Apple       Banana      NaN         Coconut     NaN         NaN
0003    Tomatoe     Apple       Coconut     Pineapple   NaN         NaN
0004    Apple       Coconut     NaN         NaN         NaN         NaN
0005    Apple       Coconut     NaN         NaN         NaN         NaN

我需要的：

        Article_1   Article_2   Article_3   Article_4   Article_5   Article_6
0001    Banana      Apple       Pineapple   Coconut     Tropical    NaN     
0002    Apple       Banana      Coconut     NaN         NaN         NaN
0003    Tomatoe     Apple       Coconut     Pineapple   NaN         NaN
0004    Apple       Coconut     NaN         NaN         NaN         NaN
0005    Apple       Coconut     NaN         NaN         NaN         NaN

我不能在同一行中使用具有 NaN 值的 Article_5 和具有值的 Article_6。

Answer 1

如果文章的顺序不重要，我们可以使用DataFrame.melt将您的文章转为行。

然后我们使用DataFrame.pivot_table聚合到每个ID 。 虽然我们使用GroupBy.cumcount为ID每篇article提供唯一标识符：

dfn = df.melt(id_vars='ID', value_vars=['Article_1', 'Article_2'])
dfn = dfn.pivot_table(index='ID', 
                      columns=dfn.groupby('ID')['value'].cumcount().add(1),
                      values='value',
                      aggfunc='first').add_prefix('Article_').rename_axis(None, axis='index')

     Article_1   Article_2   Article_3 Article_4
0001    Banana       Apple   Pineapple   Coconut
0002     Apple      Banana  Strawberry       NaN
0003   Tomatoe       Apple         NaN       NaN
0004     Apple         NaN         NaN       NaN
0005     Apple  Strawberry         NaN       NaN

Pivot - 通过重复的熊猫数据框转置列

问题描述

1 个解决方案

解决方案1
1 已采纳 2020-02-27 10:53:57

Pivot - 通过重复的熊猫数据框转置列

问题描述

1 个解决方案

解决方案1 1 已采纳 2020-02-27 10:53:57

解决方案1
1 已采纳 2020-02-27 10:53:57