[英]reading zip file from s3 bucket using scala spark
我正在嘗試獲取和讀取 AWS S3存儲桶上載的zip文件中的文本文件
我試過的代碼
var ZipFileList = spark.sparkContext.binaryFiles(/path/);
var unit = ZipFileList.flatMap {
case (zipFilePath, zipContent) =>
{
val zipInputStream = new ZipInputStream(zipContent.open())
val zipEntry = zipInputStream.getNextEntry()
println(zipEntry.getName)
}
}
但是它給出了一個需要遍歷的錯誤單位
val files = spark.sparkContext.wholeTextFiles(/path/))
files.flatMap({case (name, content) =>
unzip(content) //gives error "type mismatch; found : Unit required: scala.collection.GenTraversableOnce[?]"
})
還有什么其他方法可以讀取zip文件中的文件內容... zip文件包含.json文件,我想實現的功能是讀取並解析所有這些文件
您實際上並沒有在unzip()命令中返回數據,對嗎? 我認為這是問題的一部分
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.