![](/img/trans.png)
[英]Write a Pandas DataFrame to Google Cloud Storage or BigQuery
[英]How to write dask dataframe to google cloud storage or Bigquery
我正在为我的ML项目使用Google Cloud Datalab。 我的数据之一在bigquery表中,该表具有数百万条包含许多列的记录(文本数据)。 我从bigquery表创建了一个pandas数据框,将其转换为dask数据框(具有5个分区)并执行了数据整理。
现在,我有了这个模糊的数据框,我想将其存储在bigquery中或将其转换为镶木地板文件并将其存储在我的gcp存储中。 听到社区的选择真是太好了。 谢谢。
正如评论所提到的,这太过“我如何...”的问题。
但是,简单的答案是
df.to_parquet('gcs://mybucket/mypath/output.parquet')
您将需要安装实木复合地板后端之一(fastparquet或pyarrow)和gcsfs。 要获得正确的权限,可能需要gcsfs的其他参数,请使用关键字storage_options={...}
,请参阅gcsfs文档。
常规信息: http : //docs.dask.org/en/latest/remote-data-services.html
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.