[英]Apache spark parsing json with splitted records
據我所知,Apache spark需要json文件在一個字符串中只有一條記錄。 我有一個分區字段json文件,如下所示:
{"id": 123,
"name": "Aaron",
"city": {
"id" : 1,
"title": "Berlin"
}}
{"id": 125,
"name": "Bernard",
"city": {
"id" : 2,
"title": "Paris"
}}
{...many more lines
...}
如何使用Spark解析它? 我需要預處理器還是可以提供自定義分離器?
Spark使用換行符來區分記錄。 這意味着當使用標准的json閱讀器時,每行需要一條記錄。
您可以通過執行以下答案進行轉換: https : //stackoverflow.com/a/30452120/1547734
基本的想法是作為一個整體文本讀取,然后將其加載到一個json閱讀器,它將解析它並平面化結果。
當然,這假設文件足夠大,可以在內存中一次解析一個。 否則你需要更復雜的解決方案。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.