讀取 Python 中的大 Json 並取一個切片作為樣本

Question

我正在處理一個非常大的 json 文件（6.5GB），用我的本地機器，一次讀取它是不可能的。 所以我想讀取一個塊作為測試樣本，並在運行整個數據集之前基於這個樣本編寫代碼。

import pandas as pd


file_dir = 'D://yelp_dataset/yelp_academic_dataset_review.json'

df_review_sample = pd.read_json(file_dir, lines=True, chunksize=1000)

我做了以下嘗試，然后df_review_sample成為 JsonReader Object。 有沒有辦法將第一個塊顯示為 dataframe？

Answer 1

我昨天下午遇到了同樣的問題，我終於明白發生了什么。

使用參數 lines=True 和 chunksize=X 將創建一個讀取特定行數的閱讀器。

然后你必須做一個循環來顯示每個塊。

這里有一段代碼供你理解：

import pandas as pd
import json
chunks = pd.read_json('../input/data.json', lines=True, chunksize = 10000)
for chunk in chunks:
    print(chunk)
    break

塊根據您的 json 的長度創建多個塊（按行說話）。 例如，我有一個 100 000 行 json ，其中有 X 個對象，如果我做 chunksize = 10 000，我將有 10 個塊。

在我給出的代碼中，我添加了一個中斷，以便只打印第一個塊，但如果你刪除它，你將一個接一個地擁有 10 個塊。

讀取 Python 中的大 Json 並取一個切片作為樣本

問題描述

1 個解決方案

解決方案1
0 2021-04-16 13:24:41

讀取 Python 中的大 Json 並取一個切片作為樣本

問題描述

1 個解決方案

解決方案1 0 2021-04-16 13:24:41

解決方案1
0 2021-04-16 13:24:41