簡體   English   中英

處理 Google Cloud 存儲中的文件

[英]Process a file in Google Cloud storage

我在 GCS 中有一些非常大的文件(100GB)需要處理以刪除無效字符。 下載並處理它們並再次上傳它們需要很長時間。 有誰知道是否可以在 Google Cloud Platform 中處理它們而無需下載/上傳?

如果可以選擇的話,我熟悉 Python 和雲功能。

正如 John Hanley 在評論部分所說,Cloud Storage 上沒有計算功能,所以要處理它,您需要下載它。

話雖如此,您可以啟動 Compute Engine 虛擬機,下載該文件,使用 Python 腳本(因為您已聲明您熟悉 Python)處理它,而不是在本地下載大文件來處理它,然后更新處理的文件。

在 Compute Engine VM 上下載文件可能比在您的計算機上下載文件更快(這取決於機器類型)。

此外,為了更快地下載大文件,您可以使用一些gsutil選項:

gsutil \
    -o 'GSUtil:parallel_thread_count=1' \
    -o 'GSUtil:sliced_object_download_max_components=16' \
    cp gs://my-bucket/my-huge-file .

為了更快地上傳大文件,您可以使用並行復合上傳:

gsutil \
    -o 'GSUtil:parallel_composite_upload_threshold=150M' \
    cp my-huge-file gs://my-bucket

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM