繁体   English   中英

如何将Dask DataFrame写入Google Cloud Storage或BigQuery

[英]How to write dask dataframe to google cloud storage or Bigquery

我正在为我的ML项目使用Google Cloud Datalab。 我的数据之一在bigquery表中,该表具有数百万条包含许多列的记录(文本数据)。 我从bigquery表创建了一个pandas数据框,将其转换为dask数据框(具有5个分区)并执行了数据整理。

现在,我有了这个模糊的数据框,我想将其存储在bigquery中或将其转换为镶木地板文件并将其存储在我的gcp存储中。 听到社区的选择真是太好了。 谢谢。

正如评论所提到的,这太过“我如何...”的问题。

但是,简单的答案是

df.to_parquet('gcs://mybucket/mypath/output.parquet')

您将需要安装实木复合地板后端之一(fastparquet或pyarrow)和gcsfs。 要获得正确的权限,可能需要gcsfs的其他参数,请使用关键字storage_options={...} ,请参阅gcsfs文档。

常规信息: http : //docs.dask.org/en/latest/remote-data-services.html

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM