使用 scala 从 csv（url 源）创建 DataFrame

Question

我有一个 csv 用逗号分隔，在线存储(https: //xxx. com/xx/xx.csv) 。 我可以这样得到：

import scala.io.Source

val stringCsv = Source.fromURL(url,"UTF-8").mkString

现在我想将stringCsv转换为没有 header 的 Spark DataFrame 。

Answer 1

我猜 Source 是 scala.io.Source ，它将返回一个迭代器。 您可以从中取出 LineIterator，跳过第一行，然后将其变成 DataFrame。

这将像这样工作：

val raw = Source.fromURL(url,"UTF-8")

// skip the header
raw.next

// convert to DF
import spark.implicits._
val df = raw.toList.toDF

// here you end up with a dataframe of strings (So a row with a single column).

但这对于更大的文件来说效率很低。 火花方式将是：

import org.apache.spark.SparkFiles
spark.sparkContext.addFile(spark.sparkContext.addFile(url)) 
val df = spark.read.format("csv")
  .option("sep", ";")
  .option("inferSchema", "true")
  .option("header", "true")
  .load("file://"+SparkFiles.get("yourfile.csv"))

在那里你可以选择定义你的输入是否有 header （除了很多其他的东西）。 诀窍可能是spark.sparkContext.addFile(url)在文件名而不是完整路径下注册您的文件（所以 URL 就像https://raw.githubusercontent.com/IBM/knative-serverless/master/src/destination /cities.csv将在cities.csv下注册）

使用 scala 从 csv（url 源）创建 DataFrame

问题描述

1 个解决方案

解决方案1
0 2020-11-25 20:37:27

使用 scala 从 csv（url 源）创建 DataFrame

问题描述

1 个解决方案

解决方案1 0 2020-11-25 20:37:27

解决方案1
0 2020-11-25 20:37:27