
[英]fast counting of appearences in R data.table
我有一个大的data.table (大约 500 行和 250 万列)。 列是不同的特征,可以有 4 种状态(这里是"normal", "medium", "high", NA )。 我想为每个特征计算这些状态的出现次数。 为此,我编写了一个基本上可以在较小的dt中运行的脚本。 但是,在我的完整d ...
[英]fast counting of appearences in R data.table
我有一个大的data.table (大约 500 行和 250 万列)。 列是不同的特征,可以有 4 种状态(这里是"normal", "medium", "high", NA )。 我想为每个特征计算这些状态的出现次数。 为此,我编写了一个基本上可以在较小的dt中运行的脚本。 但是,在我的完整d ...
[英]filtering specific time for each date in data table in r
我有一个 data.table,其中一列作为日期时间 我想删除每个日期包含 14:21:00 到 14:23:00 之间时间的所有行。 我在R 为每个组过滤时间序列数据和R 在 R 中尝试了使用参考时间表过滤数据的解决方案,但它们对于每个日期都是不可复制的。 ...
[英]Extracting the first element from strsplit, applied across each row element in data.table in R
我有以下数据集: 我想得到一个新的数据集 以便它采用列b的元素的第一个元素。 我试着做 但它不起作用。 有没有办法在data.table中应用这样的东西? ...
[英]Trying to find all duplicates, but by group in R
我试图找到重复项,但基于分组。 我要使用的分组变量称为 MRN(即 BMIdf$MRN)。 换句话说,我想找到重复项,但前提是它是特定 MRN id 的重复项。 我不确定如何将该分组合并到我的语法中。 这是我到目前为止所拥有的。 只有当它与给定的 MRN id 重复时,我如何才能返回 TRUE? 对 ...
[英]data.table text filtering R
我正在尝试过滤 data.table 的一些文本,寻找与 dplyr::filter 类似的方法(出于效率原因,我使用 data.table 方法)。 但是,data.table 中的过滤过程只返回找到完全匹配的字符串。 相反,dplyr::filter 返回找到模式的行,而不仅仅是当它是精确模式 ...
[英]Conditional non-equi join in data.table
我有一个包含一些缺失数据的数据集(实际上 <1%)。 我们将使用其他站点的数据来填充缺失的数据。 我们有一个名为dt1的data.table ,其中包含数据。 我们还有另一个名为dt2的data.table ,这是一个站点索引,可用于替换 ( rsite ) 站点中丢失的数据。 在dt1中, ...
[英]Check if value meets condition and is between two dates
我有 DATA 有 STUDENT PASS DATE 并且我希望创建 VARIABLE WANT 这样: 对于每个学生,找到MAXIMUM(DATE)然后检查该学生是否在MAXIMUM(DATE)和 'DATE' 是MAXIMUM(DATE)的值之前 6 个月之间的任何时间有任何值 PASS = ...
[英]Using dplyr in R to check whether observations are present in the next time period in panel data
我有一个看起来像这样的数据集: ID 年放价值 1个 2020 一种 20 1个 2020 乙 30 1个 2021年 C 28 1个 2021年丁 21 1个 2022年乙 28 1个 2022年 F 21 2个 2020 一种 20 2个 2020 乙 30 2个 2021 ...
[英]Count the number of overlaps between groups
我有两个看起来像这样的大型数据集。library(tidyverse) dat1 <- tibble(chrom=c(rep(c("Chr1","Chr2"),each=5)), start=c(9885,11944, 13271,15104,19059,25 ...
[英]data.table with extended `==` function not working in R
这是下面的后续问题。 如何将 `==` 行为扩展到包含 NA 的向量? 在链接中,假设我们想比较 使用"%==%" <- function(a, b) (.is.na(a) &.is.na(b) & a==b) | (is.na(a) & is.na(b)) "%= ...
[英]How can I use dcast based on multiple columns?
我在 data.table DT 中有关于此表格的数据: 年价值命令 '1981' 2个 1个 '1981' 8个 2个 '1981' 16 3个 '2005' 3个 1个 '2005' 9 2个 '2005' 27 3个我想首先根据特定年份内的订单创建新列,但如果我移动它,则按 ...
[英]Row-wise cumulative product on large data.table benchmarking
假设我有一个大的 data.table,大约有 1000 列和 100,000 行,如下所示: 将这些视为代表“每日死亡率”。 我想计算每月的存活率,所以我有以下代码块: 我无法找到如上所示的行累积产品的任何基准测试。 您能想到以 data.table 方式执行此操作的任何更好/更清洁/更快的方法吗 ...
[英]R rowbind nested list elements while having higher level list names
我有一个像下面L这样的嵌套列表。 所有列表都具有相同的结构,但它们的名称不同。 我想对a1中的所有数据帧进行行绑定,同时有两个额外的列以具有更高级别的列表名称。 我能够用几行来做到这一点......但应该有一种更简单的方法来做到这一点,也许使用 package purrr。 我的愿望是有test4。 ...
[英]Concatenate values across multiple rows for various IDs in R
我的问题与以下线程高度相关: concatenate values across two rows in R 主要区别在于我只想连接那些具有相同 ID 的行。 所以我需要包括某种分组,但我做不到。 我尝试了上述线程中的解决方案,但这连接了所有六行: 显然这是行不通的,因为我没有按 ID 分组。 但是 ...
[英]R setorder corrupts original data table 2 generations ago
这里发生了什么,setorder 的应用导致原始选项卡的N列未排序,而其他列是,因此 corrputing data.table? 设置密钥时不会发生... ...
[英]R data.table Vectorising Column Multiplication
假设我有一个这样的 data.table(假设它有很多列,例如“a1,...,a100,...”和类似的“b1,...,b100,...”) 这样 output 看起来像这样: 我想创建新的列c1, c2这样我就有了 output 如果不使用慢循环,如何实现这一点? ...
[英]how to create a new variable in df1 with the sum of a variable in df2 based on a start and end date in df1?
作为@akrun 对这个问题Sum variable between dates in R? 的第一个答案,我的问题的完美答案已经存在? @akrun 的答案正是我要找的,但是当我使用原始问题中的示例数据运行代码时,我没有得到两个日期之间值列的总和,而是得到了最后一个值日期间隔... 有什么建议 ...
[英]How to merge two data.tables on the closest value, but also by group in R?
我有这个数据:library(data.table) bioargo <- data.table( grp = c("a", "a", "b", "b"), val = 1:4, x = c(2.1, 2.2, 1.9, 3) ) hplc <- data.table( ...
[英]Create data tables for export based on values in a column
使用这个 SO 问题作为起点,如果我的数据如下所示: 我如何使用该问题的最高投票答案中的循环示例来创建基于 state 值命名的用于导出的数据表? 我的目标是将每个州特定的 data.table 导出到 csv 以进行单独分析。 这些是大型数据集,因此更喜欢使用 data.table packag ...
[英]Adding column sums to a data.table as a new row at the end
我正在对 data.table 进行一些操作并获得结果。 到目前为止,一切都很好。 接下来,我希望结果也显示某些列的总和,但我无法让它工作。 我按 x1=1 的行过滤表,并按 Group1 计算指标: 给予 我只想在上表中添加一行,给出所有列的总和。 我可以做 并在一个单独的控制台中获得答案,但是 ...