簡體   English   中英

如何將數據集從 Huggingface 移動到 Google Cloud?

[英]How do I move a dataset from Huggingface to Google Cloud?

我正在嘗試使用 huggingface multi_nli 在谷歌雲中訓練文本多分類 ai。 我最終想從 firebase web 應用程序調用 ai。 但是當我在 colab 中嘗試這段代碼時:

!pip install datasets
from datasets import load_dataset



# Load only train set
dataset = load_dataset(path="multi_nli", split="train")

它說它保存在/root/.cache/huggingface/datasets/multi_nli/default/0.0.0/591f72e ...但是我找不到文件,只有一個可變版本,所以我不能把它移到谷歌雲。 下載工作缺少什么? 有沒有其他解決方法可以將其發送到 go 到谷歌雲?

使用Dataset.save_to_disk方法和 package gcsfs的幫助很容易做到。 您需要先安裝gcsfs

pip install gcsfs

然后您可以使用Dataset.save_to_diskDataset.load_from_disk方法從 Google Cloud Storage 存儲桶保存和加載數據集。 保存它:

from datasets import load_dataset
from gcsfs import GCSFileSystem

fs = GCSFileSystem()

dataset = load_dataset(path="multi_nli", split="train")

dataset.save_to_disk("gs://YOUR_BUCKET_NAME_HERE/multi_nli/train", fs=fs)

這將在 Google Cloud Storage 存儲桶BUCKET_NAME_HERE中創建一個包含數據集內容的目錄。 然后加載回來你只需要執行以下命令:

from datasets import Dataset
from gcsfs import GCSFileSystem

fs = GCSFileSystem()

dataset = Dataset.load_from_disk("gs://YOUR_BUCKET_NAME_HERE/multi_nli/train", fs=fs)

更多信息,請參考:

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM