标签[data.table]

R data.table包是data.frame的扩展,用于快速内存数据分析。 将dt标记用于带有Shiny(DT)的DataTables包。

0
0回复
17

R:跨组内的所有列对应用函数和/或回归(由时间定义)

数据集看起来像这样 第一列是时间(年-月)所有其他列都是公司 a、公司 b、公司 c 等的数值。下面是假数据 该操作需要在每组时间内对每对 a、b、c 列应用函数和/或运行回归 应用任意函数(对两列求和)后,预期输出将如下所示 该函数可以是具有两个输入的任意函数(公司 a、公司 b、公司 c 等的列
0
1回复
25

创建回归线上方数据点的数据表

我有一个适合固定效应模型的面板数据集: 我用蓝色的固定效应回归线绘制了 progenyMean 与 damMean 的关系图: 我想确定固定效应回归线上方的ID并创建此信息的数据表。 每个唯一ID都有多个数据点,因此一个ID可能在回归线的上方和下方都有点。 我已经计算了固定效应模型( fitted
0
1回复
13

在R中使用data.table,除了创建新变量之外,如何将整个.SD提供给j?[复制]

这个问题在这里已经有了答案: 将 .SD 与重命名的变量与 .SD 列的名称相结合1 个回答 3 小时前关闭。 在交互式会话中,当您只是摆弄和探索数据集时,
1
1回复
23

R:将mutate跨字符调用转换为data.table

如果我找不到解释如何执行此tidyverse到data.table转换的原始帖子,我tidyverse data.table 。 我想在所有字符向量中进行mutate ,替换字符向量中的<NA>值。 如何将以下文本转换为data.table ?
2
1回复
25

data.table映射的最佳方式

我有以下 data.table 和 2 个向量: 我想将从 dt 中的 v1 中找到的值替换为 v2 中的值。 如果我发现“hi”,我将替换为“HI”,如果我发现“no”,我将替换为“NO”。 我发现的最简单的方法是: 在data.table 的j 参数中使用mapply 是否有更好的方法甚至方法来
0
0回复
37

结合dtplyr和multidplyr处理大型mutate操作

我正在结合dtplyr和multidplyr库来处理在非常大的数据库上执行的一些基本变异/汇总操作。 final_db_partition,合并后有时是 30m 行。 我不知道我是否做错了什么,但是 R 会话中止了,或者我完成了我的记忆。 R 版本 4.0.5 (2021-03-31) / 平台
1
1回复
43

data.table方式创建滞后变量[重复]

这个问题在这里已经有了答案: 如何在时间序列中自动创建 n 个滞后? (3 个回答) 2 天前关闭。 我对data.table包很dat
1
2回复
63

R在值之间查找

我对 R 比较陌生,我正在尝试在多个数据帧之间进行查找。 我有 df1 显示我的车何时进入/退出我们的车队。 df2 显示正在维修的时间。 我想创建 df3,它显示一组特定的汽车(每个 colheaders)它们是否在给定的时间步长(是/否或 1/0 结果)可用。 示例数据如下,df1 和 df2
1
0回复
53

join中的自引用和通过引用更新有什么区别?

有人可以用外行的术语解释这两种方法除了顺序之外还有什么区别吗 我经常在data.table使用set函数来更新和修改数据,但我不明白在 join 中这样做的真正优势是什么。 当我加入并分配给同一个对象时,内部会发生什么? 它与修改原始数据表data.table还是制作一些副本? 我已经阅读了“通过引
0
0回复
14

如何让我的dr4pl(drc替代)剂量反应代码忽略它不适合的模型?

我有一些代码可以将 dr4pl 模型拟合到数据集中的剂量响应曲线,并生成一个包含相关 IC50 的表,或者将曲线拟合到 ggplot。 但是,当 dr4pl 模型无法将曲线拟合到一个特定的数据位时,它就会失败,并且代码不会运行。 因此,如果我在包含 100 条曲线的数据上运行代码,并且其中一条包含错
0
0回复
41

过滤具有重复列值的行

我正在清理课堂数据集。 我注意到有一些负值。 具有此条件的某些行在两列 2 和 3 中也具有相同的 id 名称。 我难住了。 我正在尝试起草代码,但不确定应该从哪里开始。 我很想得到建议。 我找不到类似的东西。 下面是一个类似于我的表的示例表。 我是否使用嵌套在 filter() 中的 ifelse
2
3回复
36

根据data.table中附加列中的条件从同一列中子集多行

我正在尝试获取我的数据的一个子集,其中包含单个列的两个不同值,这些值与使用 data.table 的第二列匹配。 这感觉是一项相当微不足道的任务,但我一直无法在任何地方找到这样的例子: 我想要做的是找到所有实例,其中 A 和 B 都是给定 id 的 NA。 我可以很容易地获得其中任何一个为真的 id
0
1回复
47

data.table上使用cut函数获取日期

我正在努力找出实现目标的最佳方式。 我有一个大型主数据表(> 110,000 个观测值),其中包含来自多个摄像站拍摄的照片的数据。 我有一个单独的 data.table 保存有关这些相机的信息,例如从它们上传照片的时间(从每个相机多次上传照片)。 对于每台相机,我需要将它拍摄的照片子集到由照片
-1
1回复
46

您如何根据每行的唯一子集的函数定义列?

在处理时间序列数据时,我在创建列时遇到了一些麻烦。 该表具有以下相关列: t 、 i 、 j和val 。 我想要做的是基于具有相同i & t值的观察创建一个列,该列是val的距离加权总和。 如果我使用在变量( test_t 、 test_i 、 test_j )中定义的显式值,我可以获得一个
1
1回复
32

dcast与dummy等功能

假设我有以下数据 有没有办法将以下两个dcasts成一个 或者我需要拨打两个单独的电话并按客户编号合并? 所需的输出将类似于
1
4回复
91

如何在Rdata.table中进行特殊类型的查找连接?

如何在 R data.table 中进行特殊类型的查找连接? 假设 R 中有两个表,如下所示: 他们看着像是: 目标是以这样的方式加入dt1和dt2 result看起来像 谁能展示如何在 R 中完成这种类型的连接?
2
1回复
49

在列名中加入大于和小于号的data.tables时出现问题

当列名称具有 >(大于)或 <(小于)符号并且我尝试加入这些列时,带有符号的列被修剪,并且出现如下错误: colnamesInt(x, names(on), check_dups = FALSE) 中的错误:指定列的参数指定不存在的列:cols[1]='COLUMN WITH' 重现问
0
1回复
30

在R中使用dplyr循环变量名

我需要使用 R 中的“qcc”包获取异常值数据。首先,这是我的数据 然后,我使用此脚本获取 store1 和 store2 的异常值 我在 mydata 中有 100K 个存储,我如何循环以使用 dplyr 包从所有存储中获取所有异常值数据?。 谢谢
1
2回复
49

在特定条件下,如何用来自其他字段的最大值/最小值替换字段中的值?允许重复条件

这是这里上一个问题的扩展: 如何在特定条件下用其他字段的最大值/最小值替换字段中的值? . 鉴于Category1 , Category2 , Type , Index和Date ,我想创建一个名为New_Date的新字段,如下所示。 New_Date将是对应于属于Category1和Categ
2
3回复
95

如何从python的数据表中选择不包括一(或两)列的所有列

在R data.table 中,我可以像这样排除列 我如何在Python 数据表中做同样的事情?import datatable as dt # v 1.0.0foo = dt.Frame({'x': [1,2,3], 'y': [4,5,6], 'z': [7,8,9]})print(foo)

1 2 3 4 5 6 7 8 9 10 下一页