Apache spark解析带有拆分记录的json

Question

据我所知，Apache spark需要json文件在一个字符串中只有一条记录。 我有一个分区字段json文件，如下所示：

{"id": 123,
"name": "Aaron",
"city": {
    "id" : 1,
    "title": "Berlin"
}}
{"id": 125,
"name": "Bernard",
"city": {
    "id" : 2,
    "title": "Paris"
}}
{...many more lines
...}

如何使用Spark解析它？ 我需要预处理器还是可以提供自定义分离器？

Answer 1

Spark使用换行符来区分记录。 这意味着当使用标准的json阅读器时，每行需要一条记录。

您可以通过执行以下答案进行转换： https ： //stackoverflow.com/a/30452120/1547734

基本的想法是作为一个整体文本读取，然后将其加载到一个json阅读器，它将解析它并平面化结果。

当然，这假设文件足够大，可以在内存中一次解析一个。 否则你需要更复杂的解决方案。

Apache spark解析带有拆分记录的json

问题描述

1 个解决方案

解决方案1
2 已采纳 2017-02-27 07:21:50

Apache spark解析带有拆分记录的json

问题描述

1 个解决方案

解决方案1 2 已采纳 2017-02-27 07:21:50

解决方案1
2 已采纳 2017-02-27 07:21:50