在Python中解析大型JSON文件

Question

我正在嘗試用Python解析一個非常大的JSON文件。 該文件有6523440行，但分為很多JSON對象。

結構如下所示：

[
  {
    "projects": [
     ...
    ]
  }
]
[
  {
    "projects": [
     ...
    ]
  }
]
....
....
....

它一直持續......

每次我嘗試使用json.load（）加載它時都會出錯

ValueError: Extra data: line 2247 column 1 - line 6523440 column 1 (char 101207 - 295464118)

在第一個對象結束而第二個對象開始的行上。 有沒有辦法單獨加載它們或類似的東西？

Answer 1

您可以嘗試使用像ijson這樣的流式json庫：

有時在處理特別大的JSON有效負載時，甚至可能不構造單個Python對象並對單個事件做出反應，立即產生一些結果

Answer 2

嘗試使用json.JSONDecoder.raw_decode 。 它仍然要求您將整個文檔放在內存中，但允許您從一個字符串迭代地解碼許多對象。

import re
import json

document = """
[
    1,
    2,
    3
]
{
    "a": 1,
    "b": 2,
    "c": 3
}
"""

not_whitespace = re.compile(r"\S")

decoder = json.JSONDecoder()

items = []
index = 0
while True:
    match = not_whitespace.search(document, index)
    if not match:
        break

    item, index = decoder.raw_decode(document, match.start())
    items.append(item)

print(items)

在Python中解析大型JSON文件

問題描述

2 個解決方案

解決方案1
2 2015-10-29 14:28:09

解決方案2
0 2015-10-30 07:11:03

在Python中解析大型JSON文件

問題描述

2 個解決方案

解決方案1 2 2015-10-29 14:28:09

解決方案2 0 2015-10-30 07:11:03

解決方案1
2 2015-10-29 14:28:09

解決方案2
0 2015-10-30 07:11:03