创建虚拟变量和数据整理

Question

我有一个看起来像这样的数据框：

我需要创建一个新的数据框，其中学生姓名是索引，课程编号是列，值为 0 或 1，具体取决于学生是否参加了该课程。

我已经尝试过pd.get_dummies()函数，但结果太乱了，无法使用，因为我仍然必须将学生姓名压缩为仅在行中出现一次。

我对如何实现所需的数据框的想法不多了。

Answer 1

让我们创建源数据框：

import pandas as pd 

df1 = pd.DataFrame({
    'Student name': ['Bill Mumy', 'Geraldine Ferraro', 'Geraldine Ferraro', 'Laura Lippman', 'Laura Lippman', 'Edward Koch', 'Celeste Holm'],
    'Course number': ['ARTS516', 'ARTS516', 'ARTS516', 'ARTS516', 'ARTS516', 'ARTS401', 'ARTS401']
})
df1.head(10)

输出：

要将学生姓名转换为行并将课程名称转换为列，可以使用“pivot_table”函数：

df2 = df1.pivot_table(index = 'Student name', columns = 'Course number', aggfunc = 'size')
df2.head(10)

输出：

要将 Nan 值替换为零并将数值替换为一个函数，可以使用“applymap”：

df2 = df2.applymap(lambda x: 0 if pd.isna(x) else 1)
df2.head(10)

输出：

创建虚拟变量和数据整理

问题描述

1 个解决方案

解决方案1
1 2020-09-28 07:24:42

创建虚拟变量和数据整理

问题描述

1 个解决方案

解决方案1 1 2020-09-28 07:24:42

解决方案1
1 2020-09-28 07:24:42