繁体   English   中英

R:用十进制逗号读取csv数字,包sparklyr

[英]R :Read csv numeric with comma in decimal, package sparklyr

我需要使用库“ sparklyr”读取类型为“ .csv”的文件,其中的数值以逗号显示。 想法是能够直接使用“ spark_read_csv()”进行读取。

我在用:

library(sparklyr)
library(dplyr)

f<-data.frame(DNI=c("22-e","EE-4","55-W"), 
DD=c("33,2","33.2","14,55"),CC=c("2","44,4","44,9")) 

write.csv(f,"aff.csv")

sc <- spark_connect(master = "local", spark_home = "/home/tomas/spark-2.1.0-bin-hadoop2.7/", version = "2.1.0")

df <- spark_read_csv(sc, name = "data", path = "/home/tomas/Documentos/Clusterapp/aff.csv", header = TRUE, delimiter = ",")

tbl <- sdf_copy_to(sc = sc, x =df , overwrite = T)

问题所在,将数字视为因素

要在spark df中操作字符串,可以使用regexp_replace函数,如下所示:

https://spark.rstudio.com/guides/textmining/

对于您的问题,它将像这样解决:

tbl <- sdf_copy_to(sc = sc, x =df, overwrite = T)

tbl0<-tbl%>%
    mutate(DD=regexp_replace(DD,",","."),CC=regexp_replace(CC,",","."))%>%
    mutate_at(vars(c("DD","CC")),as.numeric)

检查您的结果:

> glimpse(tbl0)
Observations: ??
Variables: 3
$ DNI <chr> "22-e", "EE-4", "55-W"
$ DD  <dbl> 33.20, 33.20, 14.55
$ CC  <dbl> 2.0, 44.4, 44.9

您可以将数字中的“,”替换为“。”。 并将它们转换为数字。 例如

df$DD<-as.numeric(gsub(pattern = ",",replacement = ".",x = df$DD))

有帮助吗?

如果您不想将其替换为“。” 也许您可以尝试一下。

spark_read_csv

检查文档。 使用转义参数可以指定要忽略的字符。

在这种情况下,请尝试使用:

df <- spark_read_csv(sc, name = "data", path = "/home/tomas/Documentos/Clusterapp/aff.csv", header = TRUE, delimiter = ",", escape = "\,").

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM