使用multidplyr时,我不一致地收到以下错误(即,对于相同的数据,有时我会收到错误,有时不会): rs_init 中的错误(self、private、super、options、wait、wait_timeout):无法启动 R session,超时我的设置如下: 其中recursive_f ...
使用multidplyr时,我不一致地收到以下错误(即,对于相同的数据,有时我会收到错误,有时不会): rs_init 中的错误(self、private、super、options、wait、wait_timeout):无法启动 R session,超时我的设置如下: 其中recursive_f ...
我有两个具有相同名称的列和行的数据框。 我想按行合并它们,但从 df$x 和 df$y 开始,列需要并排。 到目前为止,我尝试过,但没有按要求获得 output。 Output 需要 Output ...
不确定你们是否都能在没有可重现示例数据的情况下帮助我,但我在运行下面的代码时遇到了问题。 我正在尝试使用 multidplyr 包,但它似乎没有找到我的列。 我正在运行下面的代码: 一切都运行到模型 <- 正确,但它在那里失败,说它找不到对象组。 这是 by_group 数据框的样子。 ...
我有一个函数,我将它应用于不同的坐标集以在我的 tibble 中创建四个新列。 此函数的启动时间相当长(将基因组加载到 RAM,将 tibble 转换为 GRanges,并检索序列),但速度相对较快,因此 100 和 1,000,000 序列之间没有太大区别。 有没有办法将mutate中的每个 co ...
我想使用multidplyr,它还没有任何summarise_at。 我有数百甚至数千,所以 summarise_at 是必要的,但不幸的是,在 multidplyr 中不可用。 寻找替代方案来解决它。 我什至试过这个 ...
我正在尝试并行化 pipe。 在 pipe 中有一个 tidyr 命令(“tidyr::complete”)。 一旦并行运行,这会破坏代码,因为无法识别 object class。 dplyr 中是否有替代方案来完成? 串行 并行(失败) 这是错误信息 ...
这个问题类似于 R 中非常大数据的其他问题,但我找不到如何合并/加入然后在两个 dfs 上执行计算的示例(而不是读取大量数据帧并使用 mclapply 来执行计算)。 这里的问题不是加载数据(大约需要 20 分钟,但它们确实加载了),而是合并和总结。 我已经尝试了所有我能找到的 data.tabl ...
我有一个数据集 基于这三列,我需要在同一个表中添加新变量 预期产出 ...
继此处和此处的问题之后,我正在尝试使multidplyr的最新版本与自定义函数一起使用。 通过可重复的示例,我尝试过: 但我收到Computation failed错误。 我尝试了不同的排序和其他一些小的变化,但没有运气。 是否可以在最新版本的multidplyr自定义函数导出到集群? 如果 ...
我曾尝试使用devtools::install_github("hadley/multidplyr") 但是当我使用它时我收到错误 ...
我正在使用 R 总结多个 .CSV 文件中的“A”列,我已经为 1 个 csv 文件准备了代码,无论如何我可以一次性处理所有 csv 文件并作为一个输出? 这是输出看起来像 我想要的是 有可能实现吗? 谢谢你们 ...
我正在编写用于分析一组 dplyr 数据的代码。 这是我的 table_1 的样子: 我的 table_2 看起来像这样: 我想基于表 1 列“A”,如果 A>6,则在表 1 中创建一列“G”,等于“ C*D+C*E ” 基本上,这就像将表 2 作为一个因素...... 有什么办 ...
我已经阅读了一些关于这些主题的问题以及一些教程,但未能解决我的问题,所以决定问问自己。 我有大量类型的大文件,比如 A、B、C; 我需要在某些条件下离开加入 B、C 和 A。 我在具有 64 个 CPU 和 240GB 的远程服务器上工作,因此很自然地我想并行使用它的电源和处理。 我拥有的一个重要 ...
该问题类似于几天前已经发布的问题, 折叠行从0到0 与以前的问题不同的是,我们如何仅对时间差小于或等于60的行按ID折叠行。 例如,使用相同的数据集 这通过ID计算时差 导致此新列差异如下所示 现在,仅按时间差小于或等于60(即diff <= 60的In ...
我正在R中进行大约80000个时间序列断点检测计算。我使用了所有这些截然不同的时间序列,无法应用ARIMA模型,因此我要按时间序列计算线性模型,然后提取断点并使用回归的拟合结果计算来自最后一个断点的趋势。 在上面的示例中,算法将检测三个断点(一个倾斜,一个相当平坦和一个下降)。 这非常适 ...
我正在寻找一种快速的方法来从表中删除所有支配的行(最好使用并行处理,以利用多个核心)。 “支配行”是指所有列中小于或等于另一行的行。 例如,在下表中: 第2行和第3行是占优势的行(在这种情况下,它们都由第1行支配),应该被删除。 第1行和第4行不受任何其他行的控制,应该保留,导 ...
我试图并行化ape::dist_topo() ,该函数可计算无根树之间的距离。 通常,该函数的工作方式如下(提示:4棵随机树,每棵5片叶子): 我创建了一个函数来计算data.frame中的2乘2的距离(以便按行在簇中拆分): 正如预期的那样,结果是相同的(无论名称如何)。 ...
我正在使用RJDBC包连接到Oracle DB。 我需要检索大量数据,并且我想通过不同的核心分发查询。 我知道该表有五百万条记录。 因此,我编写了一个SQL查询,如下所示: 然后我分发到核心并设置环境核心 然后我尝试进行查询: 我收到此错误,我真的不知道该怎么办。 ...
TL;博士 如何从多列上的multiplyr拆分中进行“分区”? 动机: 我不满意使用32个内核中的一个来进行勤奋的总结,所以我尝试使用多个dplyer我在多个列上操作。 例: 插图显示按单列分组,但是当我这样做时,我的其他分组列不予考虑。 码: 那么分年, ...
我遇到了multidplyr的分区功能的问题。 我的目标是按列名称组找到摘要统计信息。 例如: 现在,我想使用上述rcols对象查找汇总统计信息。 我可以使用以下几行在dplyr中进行操作。 现在我想通过使用multidplyr包来做同样的事情。 但是上面的行没有按 ...