簡體   English   中英

讀取 Python 中的大 Json 並取一個切片作為樣本

[英]Read Large Json in Python and take a slice as a sample

我正在處理一個非常大的 json 文件(6.5GB),用我的本地機器,一次讀取它是不可能的。 所以我想讀取一個塊作為測試樣本,並在運行整個數據集之前基於這個樣本編寫代碼。

import pandas as pd


file_dir = 'D://yelp_dataset/yelp_academic_dataset_review.json'

df_review_sample = pd.read_json(file_dir, lines=True, chunksize=1000)

我做了以下嘗試,然后df_review_sample成為 JsonReader Object。 有沒有辦法將第一個塊顯示為 dataframe?

我昨天下午遇到了同樣的問題,我終於明白發生了什么。

使用參數 lines=True 和 chunksize=X 將創建一個讀取特定行數的閱讀器。

然后你必須做一個循環來顯示每個塊。

這里有一段代碼供你理解:

import pandas as pd
import json
chunks = pd.read_json('../input/data.json', lines=True, chunksize = 10000)
for chunk in chunks:
    print(chunk)
    break

塊根據您的 json 的長度創建多個塊(按行說話)。 例如,我有一個 100 000 行 json ,其中有 X 個對象,如果我做 chunksize = 10 000,我將有 10 個塊。

在我給出的代碼中,我添加了一個中斷,以便只打印第一個塊,但如果你刪除它,你將一個接一個地擁有 10 個塊。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM