R：用十進制逗號讀取csv數字，包sparklyr

Question

我需要使用庫“ sparklyr”讀取類型為“ .csv”的文件，其中的數值以逗號顯示。 想法是能夠直接使用“ spark_read_csv（）”進行讀取。

我在用：

library(sparklyr)
library(dplyr)

f<-data.frame(DNI=c("22-e","EE-4","55-W"), 
DD=c("33,2","33.2","14,55"),CC=c("2","44,4","44,9")) 

write.csv(f,"aff.csv")

sc <- spark_connect(master = "local", spark_home = "/home/tomas/spark-2.1.0-bin-hadoop2.7/", version = "2.1.0")

df <- spark_read_csv(sc, name = "data", path = "/home/tomas/Documentos/Clusterapp/aff.csv", header = TRUE, delimiter = ",")

tbl <- sdf_copy_to(sc = sc, x =df , overwrite = T)

問題所在，將數字視為因素

Answer 1

要在spark df中操作字符串，可以使用regexp_replace函數，如下所示：

https://spark.rstudio.com/guides/textmining/

對於您的問題，它將像這樣解決：

tbl <- sdf_copy_to(sc = sc, x =df, overwrite = T)

tbl0<-tbl%>%
    mutate(DD=regexp_replace(DD,",","."),CC=regexp_replace(CC,",","."))%>%
    mutate_at(vars(c("DD","CC")),as.numeric)

檢查您的結果：

> glimpse(tbl0)
Observations: ??
Variables: 3
$ DNI <chr> "22-e", "EE-4", "55-W"
$ DD  <dbl> 33.20, 33.20, 14.55
$ CC  <dbl> 2.0, 44.4, 44.9

Answer 2

您可以將數字中的“，”替換為“。”。 並將它們轉換為數字。 例如

df$DD<-as.numeric(gsub(pattern = ",",replacement = ".",x = df$DD))

有幫助嗎？

Answer 3

如果您不想將其替換為“。” 也許您可以嘗試一下。

spark_read_csv

檢查文檔。 使用轉義參數可以指定要忽略的字符。

在這種情況下，請嘗試使用：

df <- spark_read_csv(sc, name = "data", path = "/home/tomas/Documentos/Clusterapp/aff.csv", header = TRUE, delimiter = ",", escape = "\,").

R：用十進制逗號讀取csv數字，包sparklyr

問題描述

3 個解決方案

解決方案1
2 已采納 2018-12-30 14:11:57

解決方案2
0 2018-12-28 10:32:51

解決方案3
0 2019-01-03 06:13:19

R：用十進制逗號讀取csv數字，包sparklyr

問題描述

3 個解決方案

解決方案1 2 已采納 2018-12-30 14:11:57

解決方案2 0 2018-12-28 10:32:51

解決方案3 0 2019-01-03 06:13:19

解決方案1
2 已采納 2018-12-30 14:11:57

解決方案2
0 2018-12-28 10:32:51

解決方案3
0 2019-01-03 06:13:19