繁体   English   中英

如何将数据集从 Huggingface 移动到 Google Cloud?

[英]How do I move a dataset from Huggingface to Google Cloud?

我正在尝试使用 huggingface multi_nli 在谷歌云中训练文本多分类 ai。 我最终想从 firebase web 应用程序调用 ai。 但是当我在 colab 中尝试这段代码时:

!pip install datasets
from datasets import load_dataset



# Load only train set
dataset = load_dataset(path="multi_nli", split="train")

它说它保存在/root/.cache/huggingface/datasets/multi_nli/default/0.0.0/591f72e ...但是我找不到文件,只有一个可变版本,所以我不能把它移到谷歌云。 下载工作缺少什么? 有没有其他解决方法可以将其发送到 go 到谷歌云?

使用Dataset.save_to_disk方法和 package gcsfs的帮助很容易做到。 您需要先安装gcsfs

pip install gcsfs

然后您可以使用Dataset.save_to_diskDataset.load_from_disk方法从 Google Cloud Storage 存储桶保存和加载数据集。 保存它:

from datasets import load_dataset
from gcsfs import GCSFileSystem

fs = GCSFileSystem()

dataset = load_dataset(path="multi_nli", split="train")

dataset.save_to_disk("gs://YOUR_BUCKET_NAME_HERE/multi_nli/train", fs=fs)

这将在 Google Cloud Storage 存储桶BUCKET_NAME_HERE中创建一个包含数据集内容的目录。 然后加载回来你只需要执行以下命令:

from datasets import Dataset
from gcsfs import GCSFileSystem

fs = GCSFileSystem()

dataset = Dataset.load_from_disk("gs://YOUR_BUCKET_NAME_HERE/multi_nli/train", fs=fs)

更多信息,请参考:

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM