簡體   English   中英

使用 python 從 GCP 存儲桶中遞歸讀取所有子文件夾中的 csv 個文件

[英]Read csv files recursively in all sub folders from a GCP bucket using python

我試圖使用 python pandas 從 GCP 存儲桶中可用的所有子文件夾遞歸加載所有 csv 文件。

目前我正在使用dask加載數據,但速度很慢。

import dask
path = "gs://mybucket/parent_path + "*/*.csv"
getAllDaysData = dask.dataframe.read_csv(path).compute()

有人可以用更好的方法幫助我。

我建議改為閱讀鑲木地板文件。 並使用pd.read_parquet(file, engine = 'pyarrow')將其轉換為 pandas dataframe。

或者,您可能需要考慮先將數據加載到 BigQuery 中。 只要所有 csv 文件都具有某種結構,您就可以這樣做。

uri = f"gs://mybucket/parent_path/*.csv"
job_config = bigquery.LoadJobConfig(
    source_format=bigquery.SourceFormat.CSV
)

load_job = client.load_table_from_uri(
    uri,
    'destination_table',
    job_config=job_config,
    location=GCP_LOCATION
)
load_job_result = load_job.result()

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM