我们如何在不指定列名的情况下对所有列使用dplyr ( tidyverse ) 按行获取第一个非缺失值 -合并? 示例数据: 我们可以使用do.call ,但这看起来不太整洁: 这有效,但我不想指定列: 类似于data.table : 失败的尝试: 有任何想法吗? ...
我们如何在不指定列名的情况下对所有列使用dplyr ( tidyverse ) 按行获取第一个非缺失值 -合并? 示例数据: 我们可以使用do.call ,但这看起来不太整洁: 这有效,但我不想指定列: 类似于data.table : 失败的尝试: 有任何想法吗? ...
我有一张表格,其中包含针对多项式因子(“响应”)的对照组和治疗组的频率,具有三个级别(阴性、中性、阳性)。 我想为每个级别计算处理和控制之间的差异以及置信区间,并将它们添加到表中。 我正在寻找可以应用于比较治疗组和对照组的几个相似频率表的东西,其中response类别不同(例如不太可能,50-50, ...
我搜索了很多,包括过去建议的问题,但没有找到答案。 来自 R 和 tidyverse,新加入 Python 和 pandas。 我想向 dataframe 的子集添加一列,该列将逐行对特定列求和。 我知道如何分多个步骤完成,但我想知道是否有可能一次性完成,尽可能接近 R 中的 tidyverse ...
我仍在尝试弄清楚rowwise在 R/dplyr 中的工作原理。 例如我有这段代码: res dataframe 看起来像这样: 我不明白的是为什么paste0可以获取一行中的每个单元格并将它们粘贴在一起(本质上执行逐行操作),但mean不能那样做。 我错过了什么,是否有任何规则可以在不调用ro ...
我很难将 for 循环重构为 dplyr pipe。我需要引用数据框 a 和之前计算的行。 关于如何从 dplyr pipe 上的 a 获取 b 的任何建议? 非常感谢! ...
发布我上一篇文章中的更新问题,因为我认为我请求的输出有点过于复杂group_by edit distance between rows over multiple columns 。 在这里,我简化了所需的输出。 我有以下数据框。 输入: class表示老师的名字, id表示学生用户 ID,并且 ...
我有以下数据框。 输入: class表示老师姓名, id表示学生用户 ID,并且, q1 , q2 , q3和q4表示不同试题的分数要求: 我有兴趣寻找潜在的作弊案例。 我假设如果学生在同一个class,并且在不同问题上的分数相似,那么他们很可能作弊了。 为此,我想计算绝对距离或差异,按cla ...
我想计算特定值在多个列中出现的次数,并将出现次数放在新列中。 我的数据集有很多缺失值,但只有当整行仅由 NA 组成时,它才应该返回 NA。 如果可能的话,我更喜欢与 dplyr 管道一起使用的东西。 示例数据集: 我试过 rowwise() 和 rowSums。 这里有一些不工作的例子: ...
我需要一个变量,它按行分别报告五个数字变量中哪个最高。 这是我的数据 我的新变量x1对于第 1 行等于 2,对于第 2 行等于 5,等等,指示每一行的行最大值的位置。 我尝试使用rowwise不成功 回报 ...
我有一个数据,每次有多个行 ID 和 -infinite 值,我想使用 R 包 dplyr 和 tidyverse 来计算每个 ID 每次 -infinite 的平均数。 这是我的数据: 在实际数据中,我有 100 多列,但为了简化,我只放了 x 和 y。 预期结果: 想法是使用一些特定的列根据特定 ...
信息:所以我有 2 个数据框,我们称它们为 dfa 和 dfb。 Dfa 有一个我感兴趣的东西的主列表,而 dfb 有一个我想在 dfa 中检查的东西的列表,如果它们已经存在的话。 根据 dfa 中的项目是否已经存在于 b 中,我正在使用左连接将列中的一些信息从 dfb(注)转移到 dfa。 目标 ...
我有一个数据集,其中每一行都由住院 ID 标识。 每一行都包含有关住院 ID、入院和出院日期以及发生住院的医院的标识和负责该医院的医生的信息。 我想知道,对于每次住院,在同一医院的其他医生执行的给定住院开始前 30 天内结束的所有其他住院的 ID。 以下是 2 家医院的 2 位医生进行 8 次住院 ...
我有三个数据集,其中一个可以生成如下: df_x是响应变量, df_y是回归量, df_z是回归量的未来值。 我尝试在df_y中的每一行与其在df_x中的对应行之间构建嵌套线性回归模型,如下所示: 现在,我想根据df_z中的数据为每一行( country )添加预测,其中它给出了基于 model ...
我想使用 tidyverse 计算 tibble 中两个向量的几何平均值。 计算的平均值应按行对两个变量进行。 为此,我在下面编写了 function,它确实有效,但我只是想知道如何以更有效的编码方式完成或编写此操作,更高效的意思是更少的代码,更快和更整洁。 有更好的想法吗? 只是大声思考,在这种 ...
这是另一个未解决问题的后续,该问题是一项相当简单的任务,即根据前几列的信息更新大量列(~10,000)。 行数约为100M,数据大小在TB范围内,排除collect方法。 在有几百列的情况下,使用 UDF 的逐列方法会失败(对于 1500 列不行)。 此外,Spark 似乎大部分时间都使用了大约 ...
我有一个数据表,其中包含存储在列中的离散分布的概率。 例如, dt <- data.table(p1 = c(0.5, 0.25, 0.1), p2 = c(0.25, 0.5, 0.1), p3 = c(0.25, 0.25, 0.8)) 我想使用同一行中的概率创建一个随机变量的新列。 ...
样本数据: 我想要的输出: 这个想法是我试图用每行中的字母“U”替换最小的数值。 另请注意,我将“桶列”视为具有非唯一行。 但是,有一些例外; 如果该行有超过 1 个“<4”实例,则不要更改该行中的任何内容。 如果该行已经至少有 1 个“U”实例,则不要更改该行中的任何内容 ...
我创建了一个函数,该函数使用sf包中的st_join()从一组纬度和经度坐标中提取国会区(多边形),使用不同的 shapefile 来识别国会区,具体取决于“国会”参数指定的。 (这是必要的,因为地区会定期重绘,因此边界会随着时间而变化。)下一步是将函数逐行应用于包含多行坐标(以及相关的“国会”值 ...
我正在尝试自动计算多组列的每行平均分数。 例如,一组列可以代表不同比例的项目。 这些列也被系统地命名(scale_itemnumber)。 例如,下面的虚拟数据框包含来自三个不同尺度的项目。 (可能并非每个量表的所有项目都包括在内,此处表示为缺失的 VAR_3)。 我想要做的是为每个构造创建一个额 ...
我有一个由两个变量和超过 100000 个条目组成的数据集。 一个小子集是: master_id ID 1 1 2 2 2 ...