[英]Reading a large json file into a pandas dataframe
我有一個很大的 JSONL 文件(~100 GB)。 我想將其轉換為 pandas 數據框並通過遍歷所有行在列上應用一些函數。
閱讀此 JSONL 文件的最佳方法是什么? 我目前正在執行以下操作,但卡住了(在 GCP 上運行)
import pandas as pd
import json
data = []
with open("my_jsonl_file", 'r') as file:
for line in file:
data.append(json.loads(line))
對於較小的數據,您可以簡單地使用:
import pandas as pd
path = "test.jsonl"
data = pd.read_json(path, lines=True)
對於大數據,您可以使用以下方法:
df = pd.DataFrame(columns=['c1'])
import jsonlines
data = jsonlines.open(path)
for line in data.iter():
# get data in line
df.append({'c1': data})
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.