簡體   English   中英

如何在scala spark中讀取創建文件夾的日志

[英]How to create log of folder is read in scala spark

hdfs 的文件夾是這樣的:

/test/data/2020-03-01/{multiple inside files csv}
/test/data/2020-03-02/{multiple files csv}
/test/data/2020-03-03/{multiple files csv }

我想一一讀取文件夾內的數據,而不是全部讀取

spark.read.csv("/test/data/*") //not in such manner

不是以上方式,我想一個一個讀取文件; 這樣我就可以在某個數據庫中創建日志條目,該日期文件夾被讀取; 以便下次我可以在第二天或同一天跳過該文件夾,如果程序意外運行:

val conf = new Configuration()
val iterate = org.apache.hadoop.fs.FileSystem.get(new URI(strOutput), conf).listLocatedStatus(new org.apache.hadoop.fs.Path(strOutput))
while (iterate.hasNext) {
    val pathStr = iterate.next().getPath.toString
    println("log---->"+pathStr)
    val df = spark.read.text(pathStr) 
  }

嘗試類似上面的操作並讀取為數據框,如果您願意,可以將新日期 df 與舊 df 合並。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM