繁体   English   中英

PySpark 从具有两种不同文件类型的 s3 中的 zip 文件中读取 csv

[英]PySpark read csv from zip file in s3 with two different file types

我有一个 zip 文件,其中有一个 CSV 和一个 json 映射文件。 我想将 csv 读入 spark 数据帧,并将 json 映射文件读入字典。 我已经完成了后面的部分:

import boto3

obj = s3.get_object(Bucket='bucket', Key='key')

z = zipfile.ZipFile(io.BytesIO(obj["Body"].read()))

csvjson = json.loads(z.open(files[1]).read().decode('utf-8'))

一般来说,我想执行以下操作以从 csv 文件中获取 df:

dfRaw = spark.read \
    .format("text") \
    .option("multiLine","true") \
    .option("inferSchema","false") \
    .option("header","true") \
    .option("ignoreLeadingWhiteSpace","true") \
    .option("ignoreTrailingWhiteSpace","true") \
    .load(z.open(files[0]).read().decode('utf-8'))

然而这显然不起作用,因为load()需要一个文件路径,而不是行本身。 如何从 zip 文件中将该文件读取到 spark 数据帧中?

由于您手动“解压缩” CSV 文件并将 output 作为字符串,您可以使用parallelize如下

z = zipfile.ZipFile(io.BytesIO(obj["Body"].read()))
csv = [l.decode('utf-8').replace('\n', '') for l in z.open(files[0]).readlines()]

(spark
    .sparkContext
    .parallelize(csv)
    .toDF(T.StringType())
    .withColumn('value', F.from_csv('value', 'ID int, Trxn_Date string')) # your schema goes here
    .select('value.*')
    .show(10, False)
)

# Output
+----+----------+
|ID  |Trxn_Date |
+----+----------+
|null|Trxn_Date |
|100 |2021-03-24|
|133 |2021-01-22|
+----+----------+

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM