使用spark-shell中的spark-csv包讀取CSV

Question

我正在嘗試使用spark- csv從spark-shell中的aws s3讀取csv。

以下是我執行的步驟。 使用以下命令啟動spark-shell

bin / spark-shell --packages com.databricks：spark-csv_2.10：1.2.0

在外殼中，執行以下scala代碼

scala> val hadoopConf = sc.hadoopConfiguration
scala> hadoopConf.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
scala> hadoopConf.set("fs.s3.awsAccessKeyId", "****")
scala> hadoopConf.set("fs.s3.awsSecretAccessKey", "****")

scala> val s3path = "s3n://bucket/sample.csv"
scala> val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load(s3path)

得到以下錯誤

java.io.IOException: No FileSystem for scheme: s3n
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2584)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2591)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:91)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2630)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2612)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:370)
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:296)
    at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:256)
    at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:228)
    at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:313)
    at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:207)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:219)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:217)
    at scala.Option.getOrElse(Option.scala:120)

我在這里想念什么？ 請注意，我能夠使用讀取csv

scala> sc.textFile(s3path)

同樣的scala代碼在databricks筆記本中也可以正常工作

在spark-csv github中創建了一個問題。 當我得到答案了，我會在這里更新問題

Answer 1

對於URL s3n://bucket/sample.csv ，必須設置s3n://bucket/sample.csv所有屬性。 因此，設置以下屬性使我可以使用spark-csv讀取CSV

scala> val hadoopConf = sc.hadoopConfiguration
scala> hadoopConf.set("fs.s3n.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
scala> hadoopConf.set("fs.s3n.awsAccessKeyId", "****")
scala> hadoopConf.set("fs.s3n.awsSecretAccessKey", "****")

請參閱https://github.com/databricks/spark-csv/issues/137

使用spark-shell中的spark-csv包讀取CSV

問題描述

1 個解決方案

解決方案1
0 已采納 2015-08-31 07:51:34

使用spark-shell中的spark-csv包讀取CSV

問題描述

1 個解決方案

解決方案1 0 已采納 2015-08-31 07:51:34

解決方案1
0 已采納 2015-08-31 07:51:34