[英]reading zip file from s3 bucket using scala spark
我正在尝试获取和读取 AWS S3存储桶上载的zip文件中的文本文件
我试过的代码
var ZipFileList = spark.sparkContext.binaryFiles(/path/);
var unit = ZipFileList.flatMap {
case (zipFilePath, zipContent) =>
{
val zipInputStream = new ZipInputStream(zipContent.open())
val zipEntry = zipInputStream.getNextEntry()
println(zipEntry.getName)
}
}
但是它给出了一个需要遍历的错误单位
val files = spark.sparkContext.wholeTextFiles(/path/))
files.flatMap({case (name, content) =>
unzip(content) //gives error "type mismatch; found : Unit required: scala.collection.GenTraversableOnce[?]"
})
还有什么其他方法可以读取zip文件中的文件内容... zip文件包含.json文件,我想实现的功能是读取并解析所有这些文件
您实际上并没有在unzip()命令中返回数据,对吗? 我认为这是问题的一部分
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.