處理具有多個根元素的大型 JSON 並讀入 pandas dataframe

Question

我想（預）處理包含多個根元素的大型 JSON 文件（每個 5-10GB）。 這些根元素彼此跟隨，沒有分隔符，如下所示：{}{}....

所以我先寫了下面的簡單代碼，得到一個有效的 JSON 文件：

with open(file) as f: 
    file_data = f.read()
    file_data = file_data.replace("}{", "},{") 
    file_data = "[" + file_data + "]"
    df = pd.read_json(file_data)

顯然這不適用於大文件。 即使是 400MB 的文件也不起作用。 （我有 16GB 內存）

我已經讀過可以使用塊，但我無法在“塊邏輯”中得到它有沒有辦法“塊化”這個？

我很高興你的幫助。

Answer 1

我很難想象多根元素的想法，但是您應該將 file_data 內容寫入磁盤並嘗試單獨讀取它。 如果您打開文件，除了 file_data object （甚至可能是修改后的 object，盡管這是一個垃圾收集器問題。我認為垃圾收集在 ZC1C425268E68385D1AB5074 返回后完成）之外，它還會消耗 RAM。 f.close 顯式而不是 with 並從單獨的 function 返回。

處理具有多個根元素的大型 JSON 並讀入 pandas dataframe

問題描述

1 個解決方案

解決方案1
0 2019-09-27 17:41:41

處理具有多個根元素的大型 JSON 並讀入 pandas dataframe

問題描述

1 個解決方案

解決方案1 0 2019-09-27 17:41:41

解決方案1
0 2019-09-27 17:41:41