簡體   English   中英

使用Scala Spark從s3存儲桶讀取zip文件

[英]reading zip file from s3 bucket using scala spark

我正在嘗試獲取和讀取 AWS S3存儲桶上載的zip文件中的文本文件

我試過的代碼

var ZipFileList = spark.sparkContext.binaryFiles(/path/);

   var unit =  ZipFileList.flatMap {
        case (zipFilePath, zipContent) =>
          {
          val zipInputStream = new ZipInputStream(zipContent.open())

          val zipEntry = zipInputStream.getNextEntry()
          println(zipEntry.getName)
          }
      }

但是它給出了一個需要遍歷的錯誤單位

 val files = spark.sparkContext.wholeTextFiles(/path/))
    files.flatMap({case (name, content) =>
      unzip(content) //gives error "type mismatch; found : Unit required: scala.collection.GenTraversableOnce[?]" 
    })

還有什么其他方法可以讀取zip文件中的文件內容... zip文件包含.json文件,我想實現的功能是讀取並解析所有這些文件

您實際上並沒有在unzip()命令中返回數據,對嗎? 我認為這是問題的一部分

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM