簡體   English   中英

將大型 json 文件讀入 Pandas 數據幀

[英]Reading a large json file into a pandas dataframe

我有一個很大的 JSONL 文件(~100 GB)。 我想將其轉換為 pandas 數據框並通過遍歷所有行在列上應用一些函數。

閱讀此 JSONL 文件的最佳方法是什么? 我目前正在執行以下操作,但卡住了(在 GCP 上運行)

import pandas as pd
import json
data = []
with open("my_jsonl_file", 'r') as file:
      for line in file:
          data.append(json.loads(line))

對於較小的數據,您可以簡單地使用:

import pandas as pd
path = "test.jsonl"
data = pd.read_json(path, lines=True) 

對於大數據,您可以使用以下方法:

df = pd.DataFrame(columns=['c1'])
import jsonlines
data = jsonlines.open(path)

for line in data.iter():
  # get data in line
  df.append({'c1': data})

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM