R-读取部分镶木地板文件

Question

有没有办法从镶木地板文件中读取特定数量的行？ 同样的事情也给nrows的fread从data.table 。 我有一个庞大的数据，需要很长时间才能读取，但是我只想分析其结构和完整性。

我只需要读取镶木地板数据的某些行，并且似乎无法使用Sparklyr的函数spark_read_parquet 。

Answer 1

由于spark_read_xxx系列函数返回Spark DataFrame，因此在读取文件后，您始终可以使用%>%运算符过滤并收集结果。 例如，如果您只想要文件的前两行，则可以执行以下操作：

DF <- spark_read_csv(sc, name = "mtcars", path = "R/mtcars.csv", header = FALSE, delimiter = ";")

DF %>% head(2) %>% dplyr::collect()
# A tibble: 2 x 12
             V1    V2    V3    V4    V5    V6    V7    V8    V9   V10   V11   V12
          <chr> <chr> <int> <chr> <int> <chr> <chr> <chr> <int> <int> <int> <int>
1     Mazda RX4    21     6   160   110   3,9  2,62 16,46     0     1     4     4
2 Mazda RX4 Wag    21     6   160   110   3,9 2,875 17,02     0     1     4     4

我在这里使用spark_read_csv函数，但结果应该与spark_read_parquet相同，因为两个函数都返回相同的结构。

R-读取部分镶木地板文件

问题描述

1 个解决方案

解决方案1
0 2017-07-21 19:15:54

R-读取部分镶木地板文件

问题描述

1 个解决方案

解决方案1 0 2017-07-21 19:15:54

解决方案1
0 2017-07-21 19:15:54