有没有一种简单/快速的方法可以将我的 Google Bucket 中的镶木地板文件加载到我的 Google Cloud Notebook 中？

Question

我刚刚将一个镶木地板文件上传到我的存储桶中。 我用 jupyter notebook 启动了一个新实例。 到目前为止，我可以从我的存储桶中读取文件名：

!pip install google-cloud-storage
client = storage.Client()
bucket = client.get_bucket("mybucket")
filename = list(bucket.list_blobs())
for name in filename:
    print(name.name)

a = pd.read_parquet("gcs://mybucket/myfile.gzip")

当它到达最后一行时，它只是挂起...这是一个 2GB 的文件，所以加载时间应该不会那么长，它已经挂了几个小时。

Answer 1

尝试更正文件的文件格式。 来自示例文档：

df = pd.DataFrame(data={'col1': [1, 2], 'col2': [3, 4]})
df.to_parquet('df.parquet.gzip', compression='gzip')  
pd.read_parquet('df.parquet.gzip') 
 
   col1  col2
0     1     3
1     2     4

请注意示例中的文件名df.parquet.gzip 。 我建议您修复文件并遵循格式。

例子：

gs://mybucket/myfile.parquet.gzip

有没有一种简单/快速的方法可以将我的 Google Bucket 中的镶木地板文件加载到我的 Google Cloud Notebook 中？

问题描述

1 个解决方案

解决方案1
0 已采纳 2020-12-31 08:58:57

有没有一种简单/快速的方法可以将我的 Google Bucket 中的镶木地板文件加载到我的 Google Cloud Notebook 中？

问题描述

1 个解决方案

解决方案1 0 已采纳 2020-12-31 08:58:57

解决方案1
0 已采纳 2020-12-31 08:58:57