[英]Read Large Json in Python and take a slice as a sample
我正在處理一個非常大的 json 文件(6.5GB),用我的本地機器,一次讀取它是不可能的。 所以我想讀取一個塊作為測試樣本,並在運行整個數據集之前基於這個樣本編寫代碼。
import pandas as pd
file_dir = 'D://yelp_dataset/yelp_academic_dataset_review.json'
df_review_sample = pd.read_json(file_dir, lines=True, chunksize=1000)
我做了以下嘗試,然后df_review_sample
成為 JsonReader Object。 有沒有辦法將第一個塊顯示為 dataframe?
我昨天下午遇到了同樣的問題,我終於明白發生了什么。
使用參數 lines=True 和 chunksize=X 將創建一個讀取特定行數的閱讀器。
然后你必須做一個循環來顯示每個塊。
這里有一段代碼供你理解:
import pandas as pd
import json
chunks = pd.read_json('../input/data.json', lines=True, chunksize = 10000)
for chunk in chunks:
print(chunk)
break
塊根據您的 json 的長度創建多個塊(按行說話)。 例如,我有一個 100 000 行 json ,其中有 X 個對象,如果我做 chunksize = 10 000,我將有 10 個塊。
在我給出的代碼中,我添加了一個中斷,以便只打印第一個塊,但如果你刪除它,你將一個接一個地擁有 10 個塊。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.