如何使用基于另一个DataFrame的列将一个DataFrame列转移到真值表？

Question

我有一个带有user_id和category df 。 我想将此转换为真值表，以确定该用户是否至少有一个该类别的条目。 但是，最终表还应包含“df_list”中出现的所有类别的列，这些列可能根本不会出现在df 。

现在我使用groupby + size创建真值表，然后检查是否缺少任何列，然后手动将这些列设置为False ，但我想知道是否有一种方法可以在初始groupby步骤中完成此操作。

这是一个例子：

import pandas as pd
df = pd.DataFrame({'user_id': [1,1,1,2,2],
                 'category': ['A', 'B', 'D', 'A', 'F']})
df_list = pd.DataFrame({'category': ['A', 'B', 'C', 'D', 'E', 'F']})

df_truth = df.groupby(['user_id', 'category']).size().unstack(fill_value=0).astype(bool)
#category     A      B      D      F
#user_id                            
#1         True   True   True  False
#2         True  False  False   True

然后到达所需的输出然后我做：

missing_vals = df_list.category.unique()[~pd.Series(df_list.category.unique()).isin(df_truth.columns)]
for element in missing_vals:
    df_truth.loc[:,element] = False
#category     A      B      D      F      C      E
#user_id                                          
#1         True   True   True  False  False  False
#2         True  False  False   True  False  False

Answer 1

选项1
crosstab
我建议将该列转换为分类dtype。 然后crosstab / pivot将处理其余部分。

i = df.user_id
j = pd.Categorical(df.category, categories=df_list.category)

pd.crosstab(i, j).astype(bool)

col_0       A      B      C      D      E      F
user_id                                         
1        True   True  False   True  False  False
2        True  False  False  False  False   True

选项2
unstack + reindex
要修复现有代码，可以使用reindex简化第二步：

(df.groupby(['user_id', 'category'])
   .size()
   .unstack(fill_value=0)
   .reindex(df_list.category, axis=1, fill_value=0)
   .astype(bool)
)

category     A      B      C      D      E      F
user_id                                          
1         True   True  False   True  False  False
2         True  False  False  False  False   True

如何使用基于另一个DataFrame的列将一个DataFrame列转移到真值表？

问题描述

1 个解决方案

解决方案1
4 已采纳 2018-03-31 23:04:59

如何使用基于另一个DataFrame的列将一个DataFrame列转移到真值表？

问题描述

1 个解决方案

解决方案1 4 已采纳 2018-03-31 23:04:59

解决方案1
4 已采纳 2018-03-31 23:04:59