标签[dummy-variable] - 堆栈内存溢出

Pandas，将多个虚拟变量按名称合并为一列 - Pandas, merge multiple dummy variables into one column by name

我有一个包含一个 VALUE 列和多个代表 TYPES 的虚拟变量的数据文件。我在下面复制了一个简短的例子。我需要每种类型的平均值（我可以得到）和一个具有命名类型的列（我似乎无法得到）。欢迎指点。这是我的输入数据。我可以像这样得到平均值，但不能将三个虚拟变量合并到一个分类列中：我想要一些 ...

根据条件创建虚拟列和输入值 - Create a dummy column and input value based on condition

我有包含主题列表（主题 1-6；0 表示未分配主题）及其值的数据。我想为每个主题和每个 label 创建一个新列，并用值填充该列。这是桌子的样子...... 我应该怎么做才能创建一个看起来像这样的表？评论编号话题价值 label t1p 时间 t2p t2n t3p t3n t4p ...

从列表变量中创建一个虚拟变量 python - Creating a dummy out of a list variable python

我有一个 pandas dataframe 看起来像这样：我想做的是创建 N 虚拟变量，其中 N 是变量 tech_classes 中出现的名称总数（请注意 Y02P 20/10 是一个唯一名称，就好像它是：Y02P_20/10 等 Y02B 30/ 13 等）。只要 docdb 在 tech ...

创建虚拟列并从其他列输入值 - Create dummy column and input value from other column

我有包含主题列表（主题 1-5；0 表示未分配主题）及其值的数据。我想为每个主题创建一个新列并用值填充该列。这是桌子的样子...... 我应该怎么做才能创建一个看起来像这样的表？评论编号话题价值 t1 t2 t3 t4 t5 01 2个 -4 0 -4 0 0 0 02 ...

如何在不丢失重复值的情况下将 dataframe 从长形更改为宽形？ - How to change dataframe from long to wide shape without losing duplicated values?

我给出了示例 dataframe：import pandas as pd df = pd.DataFrame({ 'company_name': ['do holdings co', 'real estate b.v.', 'real estate b.v.','rea ...

将多个具有相同名称的假人合并为一个 - Merging multiple dummies with same name into one

我的问题如下：我虚拟化了多列：类型 1 类型 2 火叶子叶子火进入输入 1$fire 输入$叶输入 2$fire type2$叶 1个 0 0 1个 0 1个 1个 0 我已经删除了列名称的第一部分火叶子火叶子 1个 0 0 1个 0 1个 1个 0 我怎样才能得到这个结果？火叶子 ...

创建虚拟变量并根据条件进行填充 - Create dummy variabel and fill based on condition

我有一个由在线评论组成的 dataframe。我在每个实例中都分配了主题（主题 1-5；0 表示未分配主题）和标签（正面或负面）。我想为每个主题和 label 创建一个虚拟变量。这就是我的数据的样子...... 评论编号话题 label 01 2个消极的 02 2个积极的 03 0 消极 ...

如何仅针对在 Python Pandas 中占名义变量至少 40% 的类别进行虚拟编码 (pd.get_dummies())？ - How to make dummy coding (pd.get_dummies()) only for categories which share in nominal variables is at least 40% in Python Pandas?

我有如下所示的 DataFrame：而且我只需要对变量中份额至少为 40% 的类别进行虚拟编码 ( pandas.get_dummies() )。因此，在 COL2 中，只有类别“A”的变量份额至少为 40%，在 COL3 类别中，“Y”和“Z”类别的变量份额至少为 40%。因此，结果我需要 ...

如何仅在具有适当数量的类别和列中足够的份额类别的变量上制作虚拟列？ - How to make dummy columns only on variables witch appropriate number of categories and suffisant share category in column?

我在 Python Pandas 中有 DataFrame，如下所示（两种类型的列：数字和对象）：数据类型： COL1 - 数字 COL2 - object COL3 - object 列1 列2 列3 ... 列 111 一种是 ... ... 222 一种是 ... ... 3 ...

如何用数据列表构造虚拟矩阵 - How to construct dummy matrix with a list of data

样本数据是这样的：数据1： x1 x2 x3 x4 1个 2个 3个 4个 2个 3个 -1 -1 北美北美北美北美 0 0 0 0 1个 -1 -1 -1 北美北美北美北美 4个 3个 -1 -1 0 0 0 0 data1[,1]表示data1[,1]属于组 ...

如何为 dataframe 中的特定行/观察创建虚拟变量？ - How do I create dummy variables for specific rows/observations in a dataframe?

我正在做 Wooldridge 的Introductory Econometrics: A Modern Approach的第 9 章中的问题 C12(iii)。该问题要求读者首先确定变量“bs”大于 0.5 的所有观察结果。然后，该问题要求读者为这些观察值中的每一个分配一个虚拟变量，以用于回 ...

虚拟编码后是否可以有一个同时包含 3 个特征的特征向量？ - Can there be a feature vector containing 3 features at once after dummy encoding?

我正在尝试复制一个 neural.network 项目。它使用虚拟编码来处理其数据具有的 3 个分类（标称）特征。它说明了 3 个功能中的 1 个功能的预期结果，具有 4 个级别的业务类型。结果显示了一个 3 维特征向量。我以为我必须为其他 2 个功能（一个有 90 个级别，另一个有 53 ...

根据 R 中两个分类变量的滞后条件匹配创建虚拟变量 - Create a dummary variable based on lagged conditional match of two categorical variables in R

我正在尝试创建一个虚拟变量，当从公司外部雇用该人（外部雇用）时该变量等于 1，当该人从公司内部雇用（晋升）时该变量等于 0。我的数据包含年度日期、公司名称、员工姓名和角色名称。下面给出了我的数据示例：日期公司名员工姓名角色名称 2013-01-01 一种佐伊经理 2014-01-01 一种佐伊 ...

在双变量中显示永久变化的变量 - Variable that shows permanent change in a dicthomous variable

我正在尝试创建一个虚拟变量来说明另一个虚拟变量的变化，该虚拟变量对于我的横截面时间序列面板数据是二分法的。换句话说，我有一个包含 3 个值的变量（将把它称为名为open的变量）： 1 0 NA 。 open表示一个国家是否经历了向更开放社会的过渡，这样，变量很可能会重复出现。我正在尝试编写 3 ...

如何为pyspark数据框中具有多个虚拟变量的每个元素获取虚拟变量 - How to get dummies for each elements having multiple dummy variables in pyspark dataframe

这是我的原始数据框：我想要的是这样的数据框：我试过但它没有用。谢谢！！ ...

为什么 pd.get_dummies() 从指定的数据集中删除我的列？ - Why pd.get_dummies() removing my columns from the dataset other than the one specified?

我有一个名为 data1 的数据集，其中包含标题和标签。标签列的每一行都用逗号指定一个标签。我使用了这段代码：这在打印 data1.head() 之后打印标签的所有正确虚拟列，但从 dataframe 中删除标题，即 data1。我go一下怎么解决这个问题？编辑：数据集示例1 标题标签一 ...

创建一个变量来说明另一个变量的变化 - Creating a variable that illustrate change in another variable

我正在尝试创建一个变量来说明双变量的变化。换句话说，我有一个虚拟变量来说明某事在特定年份是否活跃。我需要新变量来解释虚拟变量的变化，同时解释年份和国家。我试图在下面的变量NewChangeVariable中说明我试图创建的虚拟对象。假设NewChangeVariable对dummy变量发生积 ...

如何根据列中每个单元格内的多个值在 R 中创建虚拟变量 - How to create dummy variables in R based on multiple values within each cell in a column

我有一个名为 cookbooks4 的数据集，目前看起来像这样数据集很长，我只包含了第一行，但正如您所想象的，每个食谱都有自己的成分。我需要为项目（成分）创建虚拟变量。我想 select 所有独特的成分并将它们放在一个列中。我应该得到看起来像这样的东西。请记住，这是第一行，我应该有大约 6 ...

用 tidyverse 拓宽 Rstudio 中的数据集 - Widen the dataset in Rstudio with tidyverse

我有一个关于订单数据的大型数据集，一些客户重新购买了它，而另一些则没有。简单的样本数据集如下。这意味着杰克已经订购了 3 次该商品，并且他重新购买了该商品；爱丽丝点了两次； Ann、Mark和Grace只点了一次就没有回购。因此，我如何为这些客户改变一个新变量，比如 whether_to ...

大学作业：python 中的逻辑回归 - College assignment: Logistic regression in python

我在大学的定量方法课程中有一项作业要做。我们得到了一篇广受欢迎且知名的论文，我的工作是复制该论文的一些结果。该论文是关于劳动力市场歧视的，并声称有证据表明名字听起来像白人的人比名字听起来像非裔美国人的人更有可能得到面试的回电。我将要做一些逻辑回归。我的结果变量 (Y) 是回调，我的预测变量 ...