[英]How to create log of folder is read in scala spark
hdfs 的文件夾是這樣的:
/test/data/2020-03-01/{multiple inside files csv}
/test/data/2020-03-02/{multiple files csv}
/test/data/2020-03-03/{multiple files csv }
我想一一讀取文件夾內的數據,而不是全部讀取
spark.read.csv("/test/data/*") //not in such manner
不是以上方式,我想一個一個讀取文件; 這樣我就可以在某個數據庫中創建日志條目,該日期文件夾被讀取; 以便下次我可以在第二天或同一天跳過該文件夾,如果程序意外運行:
val conf = new Configuration()
val iterate = org.apache.hadoop.fs.FileSystem.get(new URI(strOutput), conf).listLocatedStatus(new org.apache.hadoop.fs.Path(strOutput))
while (iterate.hasNext) {
val pathStr = iterate.next().getPath.toString
println("log---->"+pathStr)
val df = spark.read.text(pathStr)
}
嘗試類似上面的操作並讀取為數據框,如果您願意,可以將新日期 df 與舊 df 合並。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.