如何在 tensorflow_datasets 加载的数据集中分别加载图像和标签

Question

import tensorflow_datasets as tfds

train_ds = tfds.load('cifar100', split='train[:90%]').shuffle(1024).batch(32)
val_ds = tfds.load('cifar100', split='train[-10%:]').shuffle(1024).batch(32)

我想将train_ds和val_ds转换成这样的东西： x_train, y_train和x_val, y_val （x 代表图像，y 代表标签）。 Keras API 使用训练和测试数据拆分（sklearn 中似乎也是这种情况），但我不想在这里使用任何测试数据。

我已经尝试过了，但它没有用（我确实理解为什么这不起作用，但我不知道如何将我的训练数据转换为图像和标签）：

x_train = train_ds['image']

# TypeError: 'BatchDataset' object is not subscriptable

Answer 1

不是最好的方法，我首先创建了列表来检查它们。 我想你想要这样的东西：

train_ds = tfds.load('mnist', split='train[:90%]')

train_examples_labels = tfds.as_numpy(train_ds)

x_train = []
y_train = []


for features_labels in train_examples_labels:
    x_train.append(features_labels['image'])
    y_train.append(features_labels['label'])

features_labels是这里的字典：

features_labels.keys()
dict_keys(['image', 'label'])

之后可以将它们转换为numpy arrays。

x_train = np.array(x_train, dtype = 'float32')
y_train = np.array(y_train, dtype = 'float32')

Answer 2

我找到了一个更好的解决方案：

train_ds, val_ds = tfds.load(name="cifar100", split=('train[:90%]','train[-10%:]'), batch_size=-1, as_supervised=True)

x_train, y_train = tfds.as_numpy(train_data)
x_val, y_val = tfds.as_numpy(val_data)

如何在 tensorflow_datasets 加载的数据集中分别加载图像和标签

问题描述

2 个解决方案

解决方案1
1 2021-02-22 19:58:36

解决方案2
0 已采纳 2021-03-08 04:25:42

如何在 tensorflow_datasets 加载的数据集中分别加载图像和标签

问题描述

2 个解决方案

解决方案1 1 2021-02-22 19:58:36

解决方案2 0 已采纳 2021-03-08 04:25:42

解决方案1
1 2021-02-22 19:58:36

解决方案2
0 已采纳 2021-03-08 04:25:42