Apache spark解析帶有拆分記錄的json

Question

據我所知，Apache spark需要json文件在一個字符串中只有一條記錄。 我有一個分區字段json文件，如下所示：

{"id": 123,
"name": "Aaron",
"city": {
    "id" : 1,
    "title": "Berlin"
}}
{"id": 125,
"name": "Bernard",
"city": {
    "id" : 2,
    "title": "Paris"
}}
{...many more lines
...}

如何使用Spark解析它？ 我需要預處理器還是可以提供自定義分離器？

Answer 1

Spark使用換行符來區分記錄。 這意味着當使用標准的json閱讀器時，每行需要一條記錄。

您可以通過執行以下答案進行轉換： https ： //stackoverflow.com/a/30452120/1547734

基本的想法是作為一個整體文本讀取，然后將其加載到一個json閱讀器，它將解析它並平面化結果。

當然，這假設文件足夠大，可以在內存中一次解析一個。 否則你需要更復雜的解決方案。

Apache spark解析帶有拆分記錄的json

問題描述

1 個解決方案

解決方案1
2 已采納 2017-02-27 07:21:50

Apache spark解析帶有拆分記錄的json

問題描述

1 個解決方案

解決方案1 2 已采納 2017-02-27 07:21:50

解決方案1
2 已采納 2017-02-27 07:21:50