[英]R - Read part of parquet files
有没有办法从镶木地板文件中读取特定数量的行? 同样的事情也给nrows
的fread
从data.table
。 我有一个庞大的数据,需要很长时间才能读取,但是我只想分析其结构和完整性。
我只需要读取镶木地板数据的某些行,并且似乎无法使用Sparklyr的函数spark_read_parquet
。
由于spark_read_xxx
系列函数返回Spark DataFrame,因此在读取文件后,您始终可以使用%>%
运算符过滤并收集结果。 例如,如果您只想要文件的前两行,则可以执行以下操作:
DF <- spark_read_csv(sc, name = "mtcars", path = "R/mtcars.csv", header = FALSE, delimiter = ";")
DF %>% head(2) %>% dplyr::collect()
# A tibble: 2 x 12
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12
<chr> <chr> <int> <chr> <int> <chr> <chr> <chr> <int> <int> <int> <int>
1 Mazda RX4 21 6 160 110 3,9 2,62 16,46 0 1 4 4
2 Mazda RX4 Wag 21 6 160 110 3,9 2,875 17,02 0 1 4 4
我在这里使用spark_read_csv
函数,但结果应该与spark_read_parquet
相同,因为两个函数都返回相同的结构。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.