cost 264 ms
is.data.frame(.l) 中的错误:找不到对象“组” - Error in is.data.frame(.l) : object 'group' not found

不确定你们是否都能在没有可重现示例数据的情况下帮助我,但我在运行下面的代码时遇到了问题。 我正在尝试使用 multidplyr 包,但它似乎没有找到我的列。 我正在运行下面的代码: 一切都运行到模型 <- 正确,但它在那里失败,说它找不到对象组。 这是 by_group 数据框的样子。 ...

使用multdplyr将不同的dplyr :: mutate cols发送到不同的核心? - Send different dplyr::mutate cols to different cores with multdplyr?

我有一个函数,我将它应用于不同的坐标集以在我的 tibble 中创建四个新列。 此函数的启动时间相当长(将基因组加载到 RAM,将 tibble 转换为 GRanges,并检索序列),但速度相对较快,因此 100 和 1,000,000 序列之间没有太大区别。 有没有办法将mutate中的每个 co ...

如何使用 multidplyr 和并行在 R 中加入、分组和汇总大型数据帧 - How to join, group and summarise large dataframes in R with multidplyr and parallel

这个问题类似于 R 中非常大数据的其他问题,但我找不到如何合并/加入然后在两个 dfs 上执行计算的示例(而不是读取大量数据帧并使用 mclapply 来执行计算)。 这里的问题不是加载数据(大约需要 20 分钟,但它们确实加载了),而是合并和总结。 我已经尝试了所有我能找到的 data.tabl ...

如何将自定义函数导出到 multidplyr 中的集群? - How to export custom functions to clusters in multidplyr?

继此处和此处的问题之后,我正在尝试使multidplyr的最新版本与自定义函数一起使用。 通过可重复的示例,我尝试过: 但我收到Computation failed错误。 我尝试了不同的排序和其他一些小的变化,但没有运气。 是否可以在最新版本的multidplyr自定义函数导出到集群? 如果 ...

R:为什么并行(很多)慢? 将并行用于(左)加入大量大文件的最佳策略是什么? - R: Why parallel is (much) slower? What is best strategy in using parallel for a (left) join a large collection of big files?

我已经阅读了一些关于这些主题的问题以及一些教程,但未能解决我的问题,所以决定问问自己。 我有大量类型的大文件,比如 A、B、C; 我需要在某些条件下离开加入 B、C 和 A。 我在具有 64 个 CPU 和 240GB 的远程服务器上工作,因此很自然地我想并行使用它的电源和处理。 我拥有的一个重要 ...

根据条件崩溃 - Collapse based on a condition

该问题类似于几天前已经发布的问题, 折叠行从0到0 与以前的问题不同的是,我们如何仅对时间差小于或等于60的行按ID折叠行。 例如,使用相同的数据集 这通过ID计算时差 导致此新列差异如下所示 现在,仅按时间差小于或等于60(即diff <= 60的In ...

在R中并行运行断点(lm)检测 - Run breakpoint (lm) detection in parallel in R

我正在R中进行大约80000个时间序列断点检测计算。我使用了所有这些截然不同的时间序列,无法应用ARIMA模型,因此我要按时间序列计算线性模型,然后提取断点并使用回归的拟合结果计算来自最后一个断点的趋势。 在上面的示例中,算法将检测三个断点(一个倾斜,一个相当平坦和一个下降)。 这非常适 ...

R:从表中删除支配行的快速方法是什么? - R: What is a fast way to remove dominated rows from a table?

我正在寻找一种快速的方法来从表中删除所有支配的行(最好使用并行处理,以利用多个核心)。 “支配行”是指所有列中小于或等于另一行的行。 例如,在下表中: 第2行和第3行是占优势的行(在这种情况下,它们都由第1行支配),应该被删除。 第1行和第4行不受任何其他行的控制,应该保留,导 ...

用multidplyr向量化无法呈现正确的输出 - Vectorizing with multidplyr does not render the correct output

我试图并行化ape::dist_topo() ,该函数可计算无根树之间的距离。 通常,该函数的工作方式如下(提示:4棵随机树,每棵5片叶子): 我创建了一个函数来计算data.frame中的2乘2的距离(以便按行在簇中拆分): 正如预期的那样,结果是相同的(无论名称如何)。 ...

Dplyr和RJDBC:无法为签名“ JDBCConnection”,“ tbl_df”找到函数“ dbGetQuery”的继承方法 - Dplyr and RJDBC : unable to find an inherited method for function ‘dbGetQuery’ for signature ‘“JDBCConnection”, “tbl_df”

我正在使用RJDBC包连接到Oracle DB。 我需要检索大量数据,并且我想通过不同的核心分发查询。 我知道该表有五百万条记录。 因此,我编写了一个SQL查询,如下所示: 然后我分发到核心并设置环境核心 然后我尝试进行查询: 我收到此错误,我真的不知道该怎么办。 ...

如何在R中将列名称的向量传递到multidplyr的分区函数中 - How to pass vector of column names into multidplyr's partition function in R

我遇到了multidplyr的分区功能的问题。 我的目标是按列名称组找到摘要统计信息。 例如: 现在,我想使用上述rcols对象查找汇总统计信息。 我可以使用以下几行在dplyr中进行操作。 现在我想通过使用multidplyr包来做同样的事情。 但是上面的行没有按 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM