![](/img/trans.png)
[英]How to specify colClasses when reading a very big csv file into R using read.table.ffdf?
[英]Specify multiple data types for colClasses in R
如果我要在R中分析的数据文件具有多种数据类型,并且我想调用colClasses来指定单个列所需的数据类型,我该怎么做? 我正在使用的示例文件是: http : //www.cyclismo.org/tutorial/R/_static/trees91.csv
例如,当我输入
tree <- read.csv("trees91.csv", header=T, sep=",", dec=".", colClasses=c(C,N,REP,LFBCC,STBCC,RTBCC="integer", CHBR="character", "double"), nrows=70)
我收到以下错误:
Error in read.table(file = file, header = header, sep = sep, quote = quote, : object 'N' not found
总共有28列,具有不同数据类型的列散布在整个文件中。 例如,前两列都是整数值,而第三列具有字符值,因此是第四位。 我想做的是指定哪些列包含整数值(C,N,REP,LFBCC,STBCC和RTBCC列),具有字符值(CHBR)的列,并指定其余列包含十进制值。
我意识到在这种情况下,只需调用read.table即可处理该作业,而不会明显降低速度,但是我正在使用此文件来练习分析较大的文件,其中使用colClasses会很有用。 我还意识到,我可以简单地将CHBR列指定为“字符”类型,并让R将所有其他列类型设置为默认类型,但是我的目标是凭经验声明所有列数据类型。
您可以使用以下任意一种进行指定:
colClasses = c(“ integer”,“ integer”,“ character”,“ character”)
要么
colClasses = list(整数= 1:2,字符= 3:4)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.