簡體   English   中英

Apache spark解析帶有拆分記錄的json

[英]Apache spark parsing json with splitted records

據我所知,Apache spark需要json文件在一個字符串中只有一條記錄。 我有一個分區字段json文件,如下所示:

{"id": 123,
"name": "Aaron",
"city": {
    "id" : 1,
    "title": "Berlin"
}}
{"id": 125,
"name": "Bernard",
"city": {
    "id" : 2,
    "title": "Paris"
}}
{...many more lines
...}

如何使用Spark解析它? 我需要預處理器還是可以提供自定義分離器?

Spark使用換行符來區分記錄。 這意味着當使用標准的json閱讀器時,每行需要一條記錄。

您可以通過執行以下答案進行轉換: https//stackoverflow.com/a/30452120/1547734

基本的想法是作為一個整體文本讀取,然后將其加載到一個json閱讀器,它將解析它並平面化結果。

當然,這假設文件足夠大,可以在內存中一次解析一個。 否則你需要更復雜的解決方案。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM