标签[multidplyr] - 堆栈内存溢出

如何在 multidplyr 中设置超时 - How to set time out in multidplyr

使用multidplyr时，我不一致地收到以下错误（即，对于相同的数据，有时我会收到错误，有时不会）： rs_init 中的错误（self、private、super、options、wait、wait_timeout）：无法启动 R session，超时我的设置如下：其中recursive_f ...

如何按 x 和 y 行合并两个数据框，但列应该并排（df1$x）（df2$y）？ - how to merge two data frame by rows of x and y but columns should be side (df1$x) by side (df2$y)?

我有两个具有相同名称的列和行的数据框。我想按行合并它们，但从 df$x 和 df$y 开始，列需要并排。到目前为止，我尝试过，但没有按要求获得 output。 Output 需要 Output ...

is.data.frame(.l) 中的错误：找不到对象“组” - Error in is.data.frame(.l) : object 'group' not found

不确定你们是否都能在没有可重现示例数据的情况下帮助我，但我在运行下面的代码时遇到了问题。我正在尝试使用 multidplyr 包，但它似乎没有找到我的列。我正在运行下面的代码：一切都运行到模型 <- 正确，但它在那里失败，说它找不到对象组。这是 by_group 数据框的样子。 ...

使用multdplyr将不同的dplyr :: mutate cols发送到不同的核心？ - Send different dplyr::mutate cols to different cores with multdplyr?

我有一个函数，我将它应用于不同的坐标集以在我的 tibble 中创建四个新列。此函数的启动时间相当长（将基因组加载到 RAM，将 tibble 转换为 GRanges，并检索序列），但速度相对较快，因此 100 和 1,000,000 序列之间没有太大区别。有没有办法将mutate中的每个 co ...

用于 summarise_at 的 R multidplyr 是否可以解决？ - R multidplyr for summarise_at work around?

我想使用multidplyr，它还没有任何summarise_at。我有数百甚至数千，所以 summarise_at 是必要的，但不幸的是，在 multidplyr 中不可用。寻找替代方案来解决它。我什至试过这个 ...

并行计算，在 dplyr 中哪个替代 tidyr::complete？ - Parallel computing, which alternative to tidyr::complete in dplyr?

我正在尝试并行化 pipe。在 pipe 中有一个 tidyr 命令（“tidyr::complete”）。一旦并行运行，这会破坏代码，因为无法识别 object class。 dplyr 中是否有替代方案来完成？串行并行（失败）这是错误信息 ...

如何使用 multidplyr 和并行在 R 中加入、分组和汇总大型数据帧 - How to join, group and summarise large dataframes in R with multidplyr and parallel

这个问题类似于 R 中非常大数据的其他问题，但我找不到如何合并/加入然后在两个 dfs 上执行计算的示例（而不是读取大量数据帧并使用 mclapply 来执行计算）。这里的问题不是加载数据（大约需要 20 分钟，但它们确实加载了），而是合并和总结。我已经尝试了所有我能找到的 data.tabl ...

根据 r 中的多个条件在数据框中创建一个新变量 - create a new variable in the data frame based on multiple criteria in r

我有一个数据集基于这三列，我需要在同一个表中添加新变量预期产出 ...

如何将自定义函数导出到 multidplyr 中的集群？ - How to export custom functions to clusters in multidplyr?

继此处和此处的问题之后，我正在尝试使multidplyr的最新版本与自定义函数一起使用。通过可重复的示例，我尝试过：但我收到Computation failed错误。我尝试了不同的排序和其他一些小的变化，但没有运气。是否可以在最新版本的multidplyr自定义函数导出到集群？如果 ...

如何使用 Windows 10 和 R 3.4.4 安装和调用包“multidplyr” - How to install and call package ‘multidplyr’ using windows 10 and R 3.4.4

我曾尝试使用devtools::install_github("hadley/multidplyr") 但是当我使用它时我收到错误 ...

使用一个代码处理多个 .csv 文件，并作为一个整体输出 - porcess multiple .csv files with code for one, and output as whole

我正在使用 R 总结多个 .CSV 文件中的“A”列，我已经为 1 个 csv 文件准备了代码，无论如何我可以一次性处理所有 csv 文件并作为一个输出？这是输出看起来像我想要的是有可能实现吗？谢谢你们 ...

将不同数据框中的列相乘 - Multiply columns in different dataframes

我正在编写用于分析一组 dplyr 数据的代码。这是我的 table_1 的样子：我的 table_2 看起来像这样：我想基于表 1 列“A”，如果 A>6，则在表 1 中创建一列“G”，等于“ C*D+C*E ” 基本上，这就像将表 2 作为一个因素...... 有什么办 ...

R：为什么并行（很多）慢？将并行用于（左）加入大量大文件的最佳策略是什么？ - R: Why parallel is (much) slower? What is best strategy in using parallel for a (left) join a large collection of big files?

我已经阅读了一些关于这些主题的问题以及一些教程，但未能解决我的问题，所以决定问问自己。我有大量类型的大文件，比如 A、B、C；我需要在某些条件下离开加入 B、C 和 A。我在具有 64 个 CPU 和 240GB 的远程服务器上工作，因此很自然地我想并行使用它的电源和处理。我拥有的一个重要 ...

根据条件崩溃 - Collapse based on a condition

该问题类似于几天前已经发布的问题，折叠行从0到0 与以前的问题不同的是，我们如何仅对时间差小于或等于60的行按ID折叠行。例如，使用相同的数据集这通过ID计算时差导致此新列差异如下所示现在，仅按时间差小于或等于60（即diff <= 60的In ...

在R中并行运行断点（lm）检测 - Run breakpoint (lm) detection in parallel in R

我正在R中进行大约80000个时间序列断点检测计算。我使用了所有这些截然不同的时间序列，无法应用ARIMA模型，因此我要按时间序列计算线性模型，然后提取断点并使用回归的拟合结果计算来自最后一个断点的趋势。在上面的示例中，算法将检测三个断点（一个倾斜，一个相当平坦和一个下降）。这非常适 ...

R：从表中删除支配行的快速方法是什么？ - R: What is a fast way to remove dominated rows from a table?

我正在寻找一种快速的方法来从表中删除所有支配的行（最好使用并行处理，以利用多个核心）。 “支配行”是指所有列中小于或等于另一行的行。例如，在下表中：第2行和第3行是占优势的行（在这种情况下，它们都由第1行支配），应该被删除。第1行和第4行不受任何其他行的控制，应该保留，导 ...

用multidplyr向量化无法呈现正确的输出 - Vectorizing with multidplyr does not render the correct output

我试图并行化ape::dist_topo() ，该函数可计算无根树之间的距离。通常，该函数的工作方式如下（提示：4棵随机树，每棵5片叶子）：我创建了一个函数来计算data.frame中的2乘2的距离（以便按行在簇中拆分）：正如预期的那样，结果是相同的（无论名称如何）。 ...

Dplyr和RJDBC：无法为签名“ JDBCConnection”，“ tbl_df”找到函数“ dbGetQuery”的继承方法 - Dplyr and RJDBC : unable to find an inherited method for function ‘dbGetQuery’ for signature ‘“JDBCConnection”, “tbl_df”

我正在使用RJDBC包连接到Oracle DB。我需要检索大量数据，并且我想通过不同的核心分发查询。我知道该表有五百万条记录。因此，我编写了一个SQL查询，如下所示：然后我分发到核心并设置环境核心然后我尝试进行查询：我收到此错误，我真的不知道该怎么办。 ...

使用multidplyr时如何拆分多列 - how to split by multiple columns when using multidplyr

TL;博士如何从多列上的multiplyr拆分中进行“分区”？动机：我不满意使用32个内核中的一个来进行勤奋的总结，所以我尝试使用多个dplyer我在多个列上操作。例：插图显示按单列分组，但是当我这样做时，我的其他分组列不予考虑。码：那么分年， ...

如何在R中将列名称的向量传递到multidplyr的分区函数中 - How to pass vector of column names into multidplyr's partition function in R

我遇到了multidplyr的分区功能的问题。我的目标是按列名称组找到摘要统计信息。例如：现在，我想使用上述rcols对象查找汇总统计信息。我可以使用以下几行在dplyr中进行操作。现在我想通过使用multidplyr包来做同样的事情。但是上面的行没有按 ...