![](/img/trans.png)
[英]Delete files under S3 bucket recursively without deleting folders using python
[英]Read csv files recursively in all sub folders from a GCP bucket using python
我試圖使用 python pandas 從 GCP 存儲桶中可用的所有子文件夾遞歸加載所有 csv 文件。
目前我正在使用dask加載數據,但速度很慢。
import dask
path = "gs://mybucket/parent_path + "*/*.csv"
getAllDaysData = dask.dataframe.read_csv(path).compute()
有人可以用更好的方法幫助我。
我建議改為閱讀鑲木地板文件。 並使用pd.read_parquet(file, engine = 'pyarrow')
將其轉換為 pandas dataframe。
或者,您可能需要考慮先將數據加載到 BigQuery 中。 只要所有 csv 文件都具有某種結構,您就可以這樣做。
uri = f"gs://mybucket/parent_path/*.csv"
job_config = bigquery.LoadJobConfig(
source_format=bigquery.SourceFormat.CSV
)
load_job = client.load_table_from_uri(
uri,
'destination_table',
job_config=job_config,
location=GCP_LOCATION
)
load_job_result = load_job.result()
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.