繁体   English   中英

`fread`-ing文本文件,带有不规则的分隔符

`fread`-ing text file with irregular separators

提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供   中文繁体   英文版本   中英对照 版本,有任何建议请联系yoyou2525@163.com。

我需要读一个带有不规则分隔符的大(> 1GB)文本文件。 一个简化的例子如下:

1,1,1
1,1,1
...
1,1,1,1
1,1,1
...

不规则线(上面例子中的3个分隔符而不是2个)可能在第一千行之后出现。

read.table使用fill=TRUEcol.names 4个值。 fread with fill=TRUE无法读取不规则的线条。 添加col.names会导致错误。

MWE:

sometext  <-  "1,1,1"
fulltext  <-  paste(rep(sometext, 150), collapse="\n")
fulltext  <-  paste0(fulltext, "\n1,1,1,1") # Irregular line
fulltext  <-  paste0(fulltext, "\n1,1,1")

# Works
mwe.readtable  <- read.table(text=fulltext,
                            sep=",",
                            col.names = paste("V", 1:4, sep=""),
                            fill=TRUE)
# Fails w/ warning
mwe.fread  <- fread(fulltext,
                   sep =  ",",
                   fill=TRUE)

# Fails w/ error
mwe.fread2  <- fread(fulltext,
                   sep =  ",",
                   col.names = paste("V", 1:4, sep=""),
                   fill=TRUE)

有没有办法阻止data.table试图猜测最大分隔符数?

问题暂未有回复.您可以查看右边的相关问题.
1 从带有分隔符的文本文件中读取

我有一个带有学生索引的文本文件,看起来像这样: 我有一个班级学生,我需要从文本文件中提取信息并将其放在学生对象中。 到目前为止,名称和类工作正常,但我正在努力提取描述文本。 “#####”用作分隔符。 我用: 我需要一个while循环来读取分隔符的所有行,我找不到正确 ...

3 解析不规则的空格分隔的文本文件

我正在尝试解析一组不规则的txt文件。 有关屏幕截图示例,请参见: 示例1文本文件如下所示: 我第一次使用: 由于以下原因而失败 我使用熊猫得到的最​​接近的是固定分隔符方法: 这将产生以下数据帧: fwf结果 ,其中字符串的各部分(不足为奇,由于fwf中的f) ...

5 导入带有制表符分隔符和缺少数据的文本文件

我是PostgreSQL的新手。 我需要使用制表符分隔符导入文本文件。 并且文件中有许多丢失的数据。 当我尝试导入文件时,出现错误消息““错误:列” column71“的数据丢失背景:COPY real_acct_2005,行11526:.......” 我检查了Access中的第7 ...

6 将不规则的制表符分隔的文本文件读入Excel工作表时出现的问题

我正在尝试将制表符分隔的文本文件读入Excel工作表(这是我要做的众多转换的第一步)。 问题在于输入文件不是干净的定界文件。 因此,标头结束于单个单元格,随后是单个单元格中的许多行,但是另一组行被分成多列。 在读取文件并将清理后的版本放入工作表时,是否可以清理定界符? 输入样本(实际 ...

9 在第1行中导出带有引号分隔符的文本文件的过程-Excel

我已经从Microsoft支持网站LINK下面获得了代码 问题是它工作得太好了。 我只需要带有“”限定符的列的第一行(基本上是表标题)。 下面的代码将“”应用于所有单元格。 我不知道如何进行更改。 任何帮助将不胜感激! 非常感谢,OM 电子表格中正在选择的数据如下 ...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2021 STACKOOM.COM