繁体   English   中英

处理 Google Cloud 存储中的文件

[英]Process a file in Google Cloud storage

我在 GCS 中有一些非常大的文件(100GB)需要处理以删除无效字符。 下载并处理它们并再次上传它们需要很长时间。 有谁知道是否可以在 Google Cloud Platform 中处理它们而无需下载/上传?

如果可以选择的话,我熟悉 Python 和云功能。

正如 John Hanley 在评论部分所说,Cloud Storage 上没有计算功能,所以要处理它,您需要下载它。

话虽如此,您可以启动 Compute Engine 虚拟机,下载该文件,使用 Python 脚本(因为您已声明您熟悉 Python)处理它,而不是在本地下载大文件来处理它,然后更新处理的文件。

在 Compute Engine VM 上下载文件可能比在您的计算机上下载文件更快(这取决于机器类型)。

此外,为了更快地下载大文件,您可以使用一些gsutil选项:

gsutil \
    -o 'GSUtil:parallel_thread_count=1' \
    -o 'GSUtil:sliced_object_download_max_components=16' \
    cp gs://my-bucket/my-huge-file .

为了更快地上传大文件,您可以使用并行复合上传:

gsutil \
    -o 'GSUtil:parallel_composite_upload_threshold=150M' \
    cp my-huge-file gs://my-bucket

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM