讀取 Amazon Kinesis Firehose 寫入 s3 的數據 stream

Question

我正在將記錄寫入 Kinesis Firehose stream，該記錄最終由 Amazon Kinesis Firehose 寫入 S3 文件。

我的記錄 object 看起來像

ItemPurchase {
    String personId,
    String itemId
}

寫入 S3 的數據如下所示：

{"personId":"p-111","itemId":"i-111"}{"personId":"p-222","itemId":"i-222"}{"personId":"p-333","itemId":"i-333"}

沒有逗號分隔。

沒有 Json 數組中的起始括號

沒有結尾括號，如 Json 數組

我想讀取此數據獲取 ItemPurchase 對象的列表。

List<ItemPurchase> purchases = getPurchasesFromS3(IOUtils.toString(s3ObjectContent))

讀取此數據的正確方法是什么？

Answer 1

我正在將記錄寫入Kinesis Firehose流，最終由Amazon Kinesis Firehose寫入S3文件。

我的記錄對象看起來像

ItemPurchase {
    String personId,
    String itemId
}

數據寫入S3的過程如下：

{"personId":"p-111","itemId":"i-111"}{"personId":"p-222","itemId":"i-222"}{"personId":"p-333","itemId":"i-333"}

沒有逗號分隔。

沒有像Json陣列中那樣的啟動支架

沒有像Json數組那樣的結尾括號

我想讀取此數據以獲得ItemPurchase對象的列表。

List<ItemPurchase> purchases = getPurchasesFromS3(IOUtils.toString(s3ObjectContent))

讀取此數據的正確方法是什么？

Answer 2

我正在將記錄寫入Kinesis Firehose流，最終由Amazon Kinesis Firehose寫入S3文件。

我的記錄對象看起來像

ItemPurchase {
    String personId,
    String itemId
}

數據寫入S3的過程如下：

{"personId":"p-111","itemId":"i-111"}{"personId":"p-222","itemId":"i-222"}{"personId":"p-333","itemId":"i-333"}

沒有逗號分隔。

沒有像Json陣列中那樣的啟動支架

沒有像Json數組那樣的結尾括號

我想讀取此數據以獲得ItemPurchase對象的列表。

List<ItemPurchase> purchases = getPurchasesFromS3(IOUtils.toString(s3ObjectContent))

讀取此數據的正確方法是什么？

Answer 3

我正在將記錄寫入Kinesis Firehose流，最終由Amazon Kinesis Firehose寫入S3文件。

我的記錄對象看起來像

ItemPurchase {
    String personId,
    String itemId
}

數據寫入S3的過程如下：

{"personId":"p-111","itemId":"i-111"}{"personId":"p-222","itemId":"i-222"}{"personId":"p-333","itemId":"i-333"}

沒有逗號分隔。

沒有像Json陣列中那樣的啟動支架

沒有像Json數組那樣的結尾括號

我想讀取此數據以獲得ItemPurchase對象的列表。

List<ItemPurchase> purchases = getPurchasesFromS3(IOUtils.toString(s3ObjectContent))

讀取此數據的正確方法是什么？

Answer 4

我正在將記錄寫入Kinesis Firehose流，最終由Amazon Kinesis Firehose寫入S3文件。

我的記錄對象看起來像

ItemPurchase {
    String personId,
    String itemId
}

數據寫入S3的過程如下：

{"personId":"p-111","itemId":"i-111"}{"personId":"p-222","itemId":"i-222"}{"personId":"p-333","itemId":"i-333"}

沒有逗號分隔。

沒有像Json陣列中那樣的啟動支架

沒有像Json數組那樣的結尾括號

我想讀取此數據以獲得ItemPurchase對象的列表。

List<ItemPurchase> purchases = getPurchasesFromS3(IOUtils.toString(s3ObjectContent))

讀取此數據的正確方法是什么？

Answer 5

我正在將記錄寫入Kinesis Firehose流，最終由Amazon Kinesis Firehose寫入S3文件。

我的記錄對象看起來像

ItemPurchase {
    String personId,
    String itemId
}

數據寫入S3的過程如下：

{"personId":"p-111","itemId":"i-111"}{"personId":"p-222","itemId":"i-222"}{"personId":"p-333","itemId":"i-333"}

沒有逗號分隔。

沒有像Json陣列中那樣的啟動支架

沒有像Json數組那樣的結尾括號

我想讀取此數據以獲得ItemPurchase對象的列表。

List<ItemPurchase> purchases = getPurchasesFromS3(IOUtils.toString(s3ObjectContent))

讀取此數據的正確方法是什么？

Answer 6

我正在將記錄寫入Kinesis Firehose流，最終由Amazon Kinesis Firehose寫入S3文件。

我的記錄對象看起來像

ItemPurchase {
    String personId,
    String itemId
}

數據寫入S3的過程如下：

{"personId":"p-111","itemId":"i-111"}{"personId":"p-222","itemId":"i-222"}{"personId":"p-333","itemId":"i-333"}

沒有逗號分隔。

沒有像Json陣列中那樣的啟動支架

沒有像Json數組那樣的結尾括號

我想讀取此數據以獲得ItemPurchase對象的列表。

List<ItemPurchase> purchases = getPurchasesFromS3(IOUtils.toString(s3ObjectContent))

讀取此數據的正確方法是什么？

Answer 7

我正在將記錄寫入Kinesis Firehose流，最終由Amazon Kinesis Firehose寫入S3文件。

我的記錄對象看起來像

ItemPurchase {
    String personId,
    String itemId
}

數據寫入S3的過程如下：

{"personId":"p-111","itemId":"i-111"}{"personId":"p-222","itemId":"i-222"}{"personId":"p-333","itemId":"i-333"}

沒有逗號分隔。

沒有像Json陣列中那樣的啟動支架

沒有像Json數組那樣的結尾括號

我想讀取此數據以獲得ItemPurchase對象的列表。

List<ItemPurchase> purchases = getPurchasesFromS3(IOUtils.toString(s3ObjectContent))

讀取此數據的正確方法是什么？

Answer 8

我正在將記錄寫入Kinesis Firehose流，最終由Amazon Kinesis Firehose寫入S3文件。

我的記錄對象看起來像

ItemPurchase {
    String personId,
    String itemId
}

數據寫入S3的過程如下：

{"personId":"p-111","itemId":"i-111"}{"personId":"p-222","itemId":"i-222"}{"personId":"p-333","itemId":"i-333"}

沒有逗號分隔。

沒有像Json陣列中那樣的啟動支架

沒有像Json數組那樣的結尾括號

我想讀取此數據以獲得ItemPurchase對象的列表。

List<ItemPurchase> purchases = getPurchasesFromS3(IOUtils.toString(s3ObjectContent))

讀取此數據的正確方法是什么？

Answer 9

這個問題可以用一個 JSON 解析器來解決，該解析器一次從 stream 中消耗一個對象。JSONDecoder 的raw_decode方法公開了這樣一個解析器，但我編寫了一個庫，它可以直接使用一個 -襯墊。

from firehose_sipper import sip

for entry in sip(bucket=..., key=...):
    do_something_with(entry)

我在這篇博文中添加了更多詳細信息

Answer 10

我正在將記錄寫入Kinesis Firehose流，最終由Amazon Kinesis Firehose寫入S3文件。

我的記錄對象看起來像

ItemPurchase {
    String personId,
    String itemId
}

數據寫入S3的過程如下：

{"personId":"p-111","itemId":"i-111"}{"personId":"p-222","itemId":"i-222"}{"personId":"p-333","itemId":"i-333"}

沒有逗號分隔。

沒有像Json陣列中那樣的啟動支架

沒有像Json數組那樣的結尾括號

我想讀取此數據以獲得ItemPurchase對象的列表。

List<ItemPurchase> purchases = getPurchasesFromS3(IOUtils.toString(s3ObjectContent))

讀取此數據的正確方法是什么？

Answer 11

在 Spark 中，我們遇到了同樣的問題。 我們正在使用以下內容：

from pyspark.sql.functions import *

@udf
def concatenated_json_to_array(text):
  final = "["
  separator = ""
  
  for part in text.split("}{"):
    final += separator + part
    separator = "}{" if re.search(r':\s*"([^"]|(\\"))*$', final) else "},{"
      
  return final + "]"


def read_concatenated_json(path, schema):
  return (spark.read
          .option("lineSep", None)
          .text(path)
          .withColumn("value", concatenated_json_to_array("value"))
          .withColumn("value", from_json("value", schema))
          .withColumn("value", explode("value"))
          .select("value.*"))

它的工作原理如下：

將數據作為每個文件的一個字符串讀取（無分隔符！）
使用 UDF 引入 JSON 數組並通過引入逗號來拆分 JSON 對象。 注意：小心不要破壞任何帶有}{字符串！
將帶有架構的 JSON 解析為 DataFrame 字段。
將數組分解為單獨的行
將值對象展開為列。

像這樣使用它：

from pyspark.sql.types import *

schema = ArrayType(
  StructType([
    StructField("type", StringType(), True),
    StructField("value", StructType([
      StructField("id", IntegerType(), True),
      StructField("joke", StringType(), True),
      StructField("categories", ArrayType(StringType()), True)  
    ]), True)
  ])
)

path = '/mnt/my_bucket_name/messages/*/*/*/*/'
df = read_concatenated_json(path, schema)

我在這里寫了更多細節和注意事項： Parsing JSON data from S3 (Kinesis) with Spark 。 不要只是被}{分割，因為它會弄亂你的字符串數據！ 例如： { "line": "a\\"r}{t" } 。

Answer 12

您可以使用以下腳本。

如果流數據大小未超過您設置的緩沖區大小，則 s3 的每個文件都有一對括號（[]）和逗號。

import base64

print('Loading function')


def lambda_handler(event, context):
    output = []

    for record in event['records']:
        print(record['recordId'])
        payload = base64.b64decode(record['data']).decode('utf-8')+',\n'

        # Do custom processing on the payload here

        output_record = {
            'recordId': record['recordId'],
            'result': 'Ok',
            'data': base64.b64encode(payload.encode('utf-8'))
        }
        output.append(output_record)

    last = len(event['records'])-1
    print('Successfully processed {} records.'.format(len(event['records'])))
    
    start = '['+base64.b64decode(output[0]['data']).decode('utf-8')
    end = base64.b64decode(output[last]['data']).decode('utf-8')+']'
    
    output[0]['data'] = base64.b64encode(start.encode('utf-8'))
    output[last]['data'] = base64.b64encode(end.encode('utf-8'))
    return {'records': output}

Answer 13

使用 JavaScript 正則表達式。

JSON.parse(`[${item.replace(/}\s*{/g, '},{')}]`);

讀取 Amazon Kinesis Firehose 寫入 s3 的數據 stream

問題描述

13 個解決方案

解決方案1
16 2018-03-21 22:39:51

解決方案2
6 2017-02-15 22:03:32

解決方案3
3 2016-07-15 22:35:20

解決方案4
3 2018-01-29 15:47:47

解決方案5
3 2018-11-26 19:35:58

解決方案6
2 2019-05-17 10:19:41

解決方案7
1 2018-08-15 14:45:14

解決方案8
1 2020-01-30 02:55:24

解決方案9
1 2022-02-14 07:32:43

解決方案10
0 2016-05-19 08:41:37

解決方案11
0 2021-11-23 09:13:29

解決方案12
0 2021-12-01 05:49:07

解決方案13
0 2022-01-11 04:27:50

讀取 Amazon Kinesis Firehose 寫入 s3 的數據 stream

問題描述

13 個解決方案

解決方案1 16 2018-03-21 22:39:51

解決方案2 6 2017-02-15 22:03:32

解決方案3 3 2016-07-15 22:35:20

解決方案4 3 2018-01-29 15:47:47

解決方案5 3 2018-11-26 19:35:58

解決方案6 2 2019-05-17 10:19:41

解決方案7 1 2018-08-15 14:45:14

解決方案8 1 2020-01-30 02:55:24

解決方案9 1 2022-02-14 07:32:43

解決方案10 0 2016-05-19 08:41:37

解決方案11 0 2021-11-23 09:13:29

解決方案12 0 2021-12-01 05:49:07

解決方案13 0 2022-01-11 04:27:50

解決方案1
16 2018-03-21 22:39:51

解決方案2
6 2017-02-15 22:03:32

解決方案3
3 2016-07-15 22:35:20

解決方案4
3 2018-01-29 15:47:47

解決方案5
3 2018-11-26 19:35:58

解決方案6
2 2019-05-17 10:19:41

解決方案7
1 2018-08-15 14:45:14

解決方案8
1 2020-01-30 02:55:24

解決方案9
1 2022-02-14 07:32:43

解決方案10
0 2016-05-19 08:41:37

解決方案11
0 2021-11-23 09:13:29

解決方案12
0 2021-12-01 05:49:07

解決方案13
0 2022-01-11 04:27:50