标签[vroom] - 堆栈内存溢出

自从 read.csv 切换后，R 中出现完全连接错误 - full join error in R since switching from read.csv

我刚刚将 read.csv 换成了 vroom，从那以后我的 full_join 就无法正常工作了。它抛出以下错误 [.data.table (y, x, nomatch = if (all.x) NA else NULL, on = by, : 逻辑错误。我不是 data.table，但提供了“ ...

vroom id 参数 - 使用文件名而不是存档名 - vroom id argument - use filenames instead of archive name

我想用 vroom 读取一个远程存档文件，并获得一个带有文件名而不是存档名称的附加列。没有本地 archive_extract 步骤的 vroom 是否可行，如下例所示？谢谢library(tidyverse) library(archive) library(vroom) file < ...

vroom_write 将负零写入文件 - vroom_write writes negative zeros to file

我正在尝试使用vroom::vroom_write将 tibble 写入文本文件。在我的 R 会话中，我看到我的 tibble 的第三列有一些零。当我检查文本文件时，我看到一些零被写为负零。这是重现我所看到的示例代码。这是我的 R dat中的数据。这是文件out.txt。这 ...

将 7 位或 8 位数字转换为 R 中的日期 - Converting 7 or 8 digit numbers to dates in R

我正在将一个非常大的固定宽度数据集导入 R 并希望使用 vroom 以获得更快的速度。但是，此数据集中的日期采用 7 位或 8 位数字格式，具体取决于月份中的日期是 1 位还是 2 位（以下示例）。我看不出有任何方法可以像通常那样使用col_date(format = )来指定这种类型的格式。 ...

用 vroom 定义小数点分隔符 - Define decimal separator with vroom

我经常遇到 csv 文件，这些文件是用德语语言环境保存的，因此没有正确用逗号分隔，而是用分号分隔。这当然很容易通过定义分隔符来解决。但是与例如fread相比， vroom不提供定义小数分隔符的可能性。因此，带有,作为小数点分隔符的数值被导入为字符或错误地没有任何小数点分隔符，因此是非常大的数字 ...

在 R 中将 data.frame 转换为分隔字符串的函数的高性能实现 - Performant implementation of function for converting data.frame to delimited string in R

我正在寻找一个快速序列化函数来将 data.frame 转换为 R 中的分隔字符串。目前我正在使用readr::format_tsv （版本readr_2.0.0 vroom_1.5.3 ）进行转换，我想知道是否有更快的实现可用。对于下面的示例，转换大约需要 4.4 秒，这对我来说太慢了。系 ...

Vroom/fread 不会读取 LARGE.csv 文件 - 不能 memory map 它 - Vroom/fread won't read LARGE .csv file - cannot memory map it

我有一个.csv文件，重量为 112GB，但vroom和data.table::fread都无法打开它。即使我要求读取 10 行或几列，它也会抱怨映射错误：无法分配 memory。另一方面， read.csv会愉快地读取十行。为什么vroom或fread不使用通常的 altrep 读取它，即使 ...

使用 vroom 在 R 中部分读取非常大的 csv.gz - Partially read really large csv.gz in R using vroom

我有一个 csv.gz 文件（据我所知）压缩前的大小为 70GB。我的机器有 50GB 的 RAM，所以无论如何我永远无法在 R 中打开它。例如，我可以按如下方式加载前 10m 行：对于我必须做的事情，可以一次加载 10m 行，执行我的操作，然后继续接下来的 10m 行。我可以循环执行 ...

使用 vroom 在日期列和所有其他列中读取 R 中的双倍 - Using vroom to read in Date column and all other columns as double in R

我有包含超过 10000 个变量的 csv 文件。我想使用 vroom 来读取它们，并希望将第 1 列标识为日期，将第 2 列标识为字符，将第 3 和第 4 列标识为整数，并将所有其余列标识为双精度。我该怎么做呢？我的代码看起来像这样，但失败了。告诉 vroom 将其余列读取为 dou ...

R：从列标题略有不同（不同空格）的 txt 文件中读取特定列并绑定它们？ - R: Reading specific columns from txt files with slightly different column headers (differing spaces) and binding them?

我有许多txt文件，它们在由; 分隔的列中包含相同类型的数值数据。但是有些文件的列标题带有空格，而有些则没有（由不同的人创建）。有些有我不想要的额外列。例如，一个文件可能有 header，例如：而另一个文件 header 可能是在调用“读取”命令之前，如何清除名称中的空格？清理标题脚本 ...