在R中處理大型數據集

Question

我正在處理一個相對較大的數據集（每個文件5個2GB，為您提供一個數量級的表，其中一個表是150萬行x 270列），在這里我使用dplyr left_joint函數（在這些數據集和其他小表之間）。 這些表包含我不想丟失的字符串數據。 但是，使用處理大型數據集（如bigmemory或ff）的程序包會將字符串轉換為因數，然后轉換為數字，這意味着數據會丟失。 有沒有辦法在丟失信息的情況下操縱這些文件（使用我的8GB RAM）？

Answer 1

我不明白您說使用因素時信息丟失了。 例如，假設str是您的字符串列之一，則可以

str <- sample(sample(letters, replace = TRUE), 
              size = 1.5e6, replace = TRUE)
tab.str <- sort(unique(str)) # could use `letters` as lookup table
str.int <- match(str, tab.str)
all.equal(tab.str[str.int], str)

因此，基本上，您有作為查找表索引的整數來取回字符串。

但是，如果您使用big.matrix格式，則將無法使用dplyr ，但是我認為針對您的特殊情況重新實現左聯接相對容易。

Answer 2

探索Data.tables以對具有大型數據集的R進行任何類型的處理。 與R上的任何其他數據處理包相比，速度和效率是無與倫比的。

在R中處理大型數據集

問題描述

2 個解決方案

解決方案1
1 2017-04-28 06:48:54

解決方案2
0 2017-04-28 07:06:20

在R中處理大型數據集

問題描述

2 個解決方案

解決方案1 1 2017-04-28 06:48:54

解決方案2 0 2017-04-28 07:06:20

解決方案1
1 2017-04-28 06:48:54

解決方案2
0 2017-04-28 07:06:20