簡體   English   中英

加載大型數據集時,R與FF崩潰

[英]R with FF crashes when loading a large dataset

晚上好,

我正在嘗試使用LaF和ffbase或ff將數據集加載到R(約2000萬行,磁盤上140 cols〜6.2gb)中。 無論哪種情況,加載都會失敗。

struct <- detect_dm_csv(file = '/scratch/proj.csv', header = TRUE)
colClasses <- struct$columns[,2]
ldat <- laf_open(struct)
data <- laf_to_ffdf(ldat)

或數據<-read.csv.ffdf(file ='proj.csv',colClasses = colClasses,header = TRUE)

它會突跳一點,然后輸出大量的項目,例如:1L 1L 1L似乎與變量相對應。

然后列出變量,例如:variable_name = list()然后5:ffdfappend(x,block)6:laf_to_ffdf(ldat)

最后問我要如何退出R。

我已經嘗試過下沉輸出,但是由於下沉沒有關閉(?),它沒有寫任何內容,並且它輸出的廢話似乎破壞了我的滾動緩沖區。

有誰之前經歷過這個嗎?

更多信息:我在Windows 7虛擬機中運行了相同的腳本,並且完成得很好。 幸運的是,我能夠看到所有廢話之前的錯誤,並且它陳述了有關“不存在的物理地址”的某些信息,這似乎與mmap有關。

我將嘗試重新編譯所有內容,並查看其進展情況。 任何其他建議,請讓我知道!

您是否嘗試過data.table

你可以測試:

library(data.table)
data <- fread(file = '/scratch/proj.csv', verbose=TRUE)

我有類似大小的文件,並且使用fread可以使所有文件順利運行。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM