[英]fread data.table in R doesn't read in column names
將數據文件讀入 R 時,我可以使用data.table
包將其作為data.frame
或data.table
讀data.table
。 我希望將來使用data.table
,因為它可以更好地處理大數據。 但是,這兩種方法都存在問題(data.frames 為read.table
,data.tables 為fread
),我想知道是否有一個簡單的修復方法。
當我使用read.table
生成data.frame
,如果我的列名包含冒號或空格,它們會被句點替換,這是我不想要的。 我希望以“原樣”讀取列名。
或者,當我使用fread
生成data.table
,我的列名根本沒有讀入,這顯然是不希望的。
查看下面的要點以獲取可重現的示例:
https://gist.github.com/jeffbruce/b966d41eedc2662bbd4a
干杯
這是一個可能有效的解決方案。 我不確定這是否是最短的解決方案,或者您可以通過巧妙地使用數據表中的drop
來實現,但是下面的 hack 確實有效。 “問題”是文件中的行號。
先讀入頭文件,然后添加到數據表中
header <- read.table("yourfile.csv", header = TRUE, nrow = 1)
indata <- fread("yourfile.csv", skip=1, header=FALSE)
setnames(indata, colnames(header))
R 總是嘗試轉換列名以確保它們是有效的變量名,因此它會添加句點來代替空格和冒號。 如果你不想要,你可以在使用read.table
使用check.names=FALSE
df1<-read.table("data.txt",check.names = FALSE)
sample(colnames(df1),10)
[1] "simple lobule white matter"
[2] "anterior lobule white matter"
[3] "hippocampus"
[4] "lateral olfactory tract"
[5] "lobules 1-2: lingula and central lobule (ventral)"
[6] "Medial parietal association cortex"
[7] "Primary somatosensory cortex: trunk region"
[8] "midbrain"
[9] "Secondary auditory cortex: ventral area"
[10] "Primary somatosensory cortex: forelimb region"
您可以看到colnames
保持原樣。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.