如何在Python中从S3读取Avro文件？

Question

我有一堆Avro文件，我想从S3逐一阅读。 我将文件作为字节读取没有问题，但我想知道如何在此之后迭代整个文件。 当前代码：

conn = boto.s3.connect_to_region("us-east-1")
my_bucket=boto.s3.bucket.Bucket(conn, "my_bucket")
my_key = my_bucket.get_key("folder/file.avro")
raw_bytes = my_key.read()

test_schema = '''
{
  "namespace": "com.company",
  "type": "record",
  "name": "MimeMessage_v2",
  "fields": [
    {
      "name": "record_timestamp",
      "type": "long"
    },
    {
      "name": "contents",
      "type": "bytes"
    }
  ],
  "message_id": 2
}
'''
schema = avro.schema.Parse(test_schema)
#this is the problematic section
dreader = DatumReader(schema, schema)
v = dreader.read(raw_bytes)

我想知道如何正确读取包含Avro文件字节的变量。

Answer 1

以下是在Python 3中对我有用的方法之一：

from avro.datafile import DataFileReader
avro_bytes = io.BytesIO(raw_bytes)
reader = DataFileReader(avro_bytes, avro.io.DatumReader())
for line in reader:
    print(line)

如何在Python中从S3读取Avro文件？

问题描述

1 个解决方案

解决方案1
1 已采纳 2018-10-17 17:24:23

如何在Python中从S3读取Avro文件？

问题描述

1 个解决方案

解决方案1 1 已采纳 2018-10-17 17:24:23

解决方案1
1 已采纳 2018-10-17 17:24:23