繁体   English   中英

Kubeflow 如何使用大量数据?

[英]How to use large volumes of data in Kubeflow?

我有 1TB 的图像存储在 GCS 中(数据分为 3 个类)。 我想在 Kubeflow 中根据这些数据训练自定义 Tensor Flow 模型。 目前,我有用于训练和持久化模型的管道组件,但我不知道如何正确地将这些数据输入到分类器中。

在我看来,每次我运行(可能失败)时,都喜欢从 GCS(gsutil cp/其他东西)下载这些数据,管道不是执行此操作的正确方法。

如何使用 Kubeflow 管道中的大量数据而无需每次都下载? 如何使用 Kubeflow DSL 表达对这些数据的访问?

此外,如果你的数据在GCS,然后TensorFlow支持(和写入)GCS的能力来访问数据。 tf.data api可让您设置高性能数据输入管道。

您可以在主机上安装卷吗?

如果是,则将卷挂载到主机上,然后将此目录作为hostPath挂载到容器,以便图像已经挂载到节点,并且每当新容器启动时,它都可以将卷挂载到容器并启动该过程,避免在每次容器启动时传输数据。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM