繁体   English   中英

使用Scala Spark从s3存储桶读取zip文件

[英]reading zip file from s3 bucket using scala spark

我正在尝试获取和读取 AWS S3存储桶上载的zip文件中的文本文件

我试过的代码

var ZipFileList = spark.sparkContext.binaryFiles(/path/);

   var unit =  ZipFileList.flatMap {
        case (zipFilePath, zipContent) =>
          {
          val zipInputStream = new ZipInputStream(zipContent.open())

          val zipEntry = zipInputStream.getNextEntry()
          println(zipEntry.getName)
          }
      }

但是它给出了一个需要遍历的错误单位

 val files = spark.sparkContext.wholeTextFiles(/path/))
    files.flatMap({case (name, content) =>
      unzip(content) //gives error "type mismatch; found : Unit required: scala.collection.GenTraversableOnce[?]" 
    })

还有什么其他方法可以读取zip文件中的文件内容... zip文件包含.json文件,我想实现的功能是读取并解析所有这些文件

您实际上并没有在unzip()命令中返回数据,对吗? 我认为这是问题的一部分

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM