簡體   English   中英

Spark-Scala 讀取多個文件並移動到其他目錄

[英]Spark-Scala read multiple files and move to other directory

我在 hdfs 中有多個 Csv 文件,其中一些格式不正確,我想讀取 csv 文件的目錄,然后如果成功將文件移動到其他目錄。 我如何使用 spark-scala 實現這一點

你需要這樣的東西:

import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.spark.SparkContext

val conf = sc.hadoopConfiguration
val fs = FileSystem.get(conf)

val srcPath = "dbfs:/src/"
val dest = "dbfs:/dest/"
val ls      = fs.listStatus(new Path(srcPath))

ls.foreach{ p => {
  if(true) spark.read.csv(p.getPath.toString).write.csv(dest + p.getName)
  else println("File ${p.getName} got wrong format")
}}

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM