我在 R 中有一个简单的表,其中包含 3 列(名为“countries_A”、“countries_B”和“countries_C”),每列包含 4 个国家/地区。 现在我想做的是编写一个 function 在表中搜索特定国家,比如“意大利”,然后返回该国家所在列的所有元素作为向量或列表(除了那个特 ...
我在 R 中有一个简单的表,其中包含 3 列(名为“countries_A”、“countries_B”和“countries_C”),每列包含 4 个国家/地区。 现在我想做的是编写一个 function 在表中搜索特定国家,比如“意大利”,然后返回该国家所在列的所有元素作为向量或列表(除了那个特 ...
我想更快地执行以下操作。 逻辑:我有big包含 4 个元素1, 2, 3, 4的向量。 我还有一个相同长度的阈值向量1.1, 3.1, 4.1, 5.1 。 我希望每个元素找到第一个下一个元素的索引高于相应的阈值。 在这种情况下,我预期的 output 是 2, 3, NA, NA : 第一个元素( ...
我想在lapply循环中对group_by中across几个变量进行dtplyr ,我发现在调用lazy_dt()之后我无法使用与dplyr相同的语法。 使用相同的语法,我在使用dtplyr调用lazy_dt后遇到问题。 任何想法? 编辑:在https://github.com/tidyverse/ ...
使用 dtplyr 和 mutate 时,有没有办法让我的数据表看起来像我的目标表? 一张假表 一个虚拟函数 我想使用这种类型的语法 最终结果将如下所示 我想要一个通用解决方案,适用于返回的列数可变的函数,但这可能吗? ...
我目前正在处理一个中等大小的 dataframe,称为d.mkt ( > 2M行和12列)。 由于dplyr在应用summarise() function 与group_by_at结合时太慢,我试图使用data.table编写一个等效语句来加速dplyr的summarise计算部分。 然而,在 ...
如何获得 data.table 格式的最终查询? 如果不可能:如何将查询从 dplyr 重写为 data.table? 错误:参数 1 必须是数据帧或命名的原子向量。 ...
我正在构建一个 R 包,我想在其中使用dtplyr来执行各种数据操作。 我的问题是dtplyr似乎只有在我导入整个data.table (即使用 roxygen #' @import data.table ) #' @import data.table 。 没有这个,我会收到如下错误: 如果我可 ...
我第一次尝试dtplyr & data.table在我现有的dplyr代码中做一些时间优化。 问题:如果我使用data.table / dtplyr数据 object 那么我无法使用 ggplot plot 。 在管道/链命令中绘图之前,如果我只是将data.table / dtplyr ...
所以我正在做一个项目,该项目需要我将数据帧与来自 dplyr 的 semi_join 和 anti_join 结合起来。 但是,我没有创建一个 data.frame 作为 output,而是得到一个 dtplyr_step_subset object,我无法使用它,我不知道它是如何工作的。 (请注 ...
我正在尝试在 R Shiny 中创建仪表板。 作为此仪表板的一部分,我有一个非常大的数据集,其中有一个反应性添加的列,而该数据集的三个反应性子集是通过在不同日期进行过滤产生的。 到目前为止,我已经通过 dplyr 并使用过滤器和变异函数实现了上述目标。 但是,我注意到代码中的这些点似乎在减慢它的速度 ...
我需要使用 data.table 加速代码。 我被困在如何引用从向量中索引的变量上。 数据: dtplyr 代码: data.table 尝试: 这适用于单个变量: ...
尝试使用 dtplyr 按组汇总列时,分组似乎不起作用。 由于 group 变量是我的 function 的输入,因此我尝试使用 group_by_ 仅接收错误消息。 数据: Function: ...
我想知道是否有人知道dplyr扩展包( dbplyr和dtplyr )是否允许在通常的 dplyr 工作流程中进行非 equi 连接? 我很少需要data.table ,但快速非等连接是我总是需要setDT的唯一时刻,然后执行连接,然后使用as_tibble()切换回来。 我浏览了 github 包 ...
我正在尝试将 dtplyr 应用于 SQL 服务器数据库。 如下图我成功申请了dplyr,但是不知道怎么申请dtplyr 我怎样才能做到这一点? ...
我有一个大型数据集,我正在尝试使用 dtplyr 进行整理。 它由用于不同位置的大量(>1000)日期值对组成。 原版使用 pivot_longer,它在 dplyr 中工作正常,但在 dtplyr 中出现错误。 有没有办法解决这个问题,保持 dtplyr 的性能优势? 这有效 但这给出了错误 ...
想象一下以下数据框的片段: 我想要做的是根据ActivityName 中的重复条目创建两个新列。 具体来说,我想将同一活动的两个后续行合并为一行,并带有开始和完成时间戳(从时间开始,以秒为单位)。 鉴于并非ActivityName中的所有条目都有匹配的第二个条目(但是,最多两个连续条目是相同 ...
我想知道是否有更快的方法使用 data.table/dplyr 按组替换基于先前值的值。 假设我的原始数据表如下所示: 这看起来如下: 在这里,对于每个人(姓名)和时间段(年),有一列(治疗)指示他们是否已被分配治疗。 我正在考虑另一种治疗方法,即一旦一个人接受治疗,该人就会继续接受治疗 ...
我是否应该将我的学习精力投入到 R 中的数据整理中,特别是在dplyr 、 dtplyr和data.table之间? 我主要使用dplyr ,但当数据太大时,我会使用data.table ,这种情况很少见。 所以现在dtplyr v1.0 作为data.table的接口出来了,从表面上看,我似乎再也 ...
使用 dplyr 可以轻松执行组过滤器选择。 在下面的例子中,我们有一些公司今年不同季度的数据。 我现在想过滤到第一季度没有第四季度数据的公司(在本例中是第二家公司),去掉季度标签。df <- data.frame(companyId = c(rep(1, 4), ...
如果我运行以下简单示例,我会得到预期的 output: 请注意,使用添加.x和.y后缀的标准dplyr格式正确管理冲突的列a 。 但是,如果我现在尝试删除其中一列: 有趣的a ,如果我尝试 select 列之一( select(ax) ),我会得到同样的错误,但是......如果我改为尝试selec ...