使用 Tensorflow Interleave 提高性能

Question

我有一个输入管道，它在 CPU、GPU 和磁盘利用率低的情况下表现不佳。 我一直在阅读 tensorflow “Better performance with tf.data API” doc 和 Dataset docs，但我不明白发生了什么足以将其应用于我的情况。 这是我目前的设置：

img_files = sorted(tf.io.gfile.glob(...))
imgd = tf.data.FixedLengthRecordDataset(img_files, inrez*inrez)
#POINT1A
imgd = imgd.map(lambda s: tf.reshape(tf.io.decode_raw(s, tf.int8), (inrez,inrez,1)))
imgd = imgd.map(lambda x: tf.cast(x, dtype=tf.float32))

out_files = sorted(tf.io.gfile.glob(...))
outd = tf.data.FixedLengthRecordDataset(out_files, 4, compression_type="GZIP")
#POINT1B
outd = outd.map(lambda s: tf.io.decode_raw(s, tf.float32))

xsrc = tf.data.Dataset.zip((imgd, outd)).batch(batchsize)
xsrc = xsrc.repeat()        # indefinitely
#POINT2
xsrc = xsrc.prefetch(buffer_size=tf.data.experimental.AUTOTUNE)

在预取之前，我应该在末尾（POINT2）交错整个管道吗？ 或者在每个 FixedLengthRecordDataset (POINT1A, POINT1B) 之后分别交错 imgd 和 outd，并并行化地图？ （需要保持 imgd 和 outd 同步！）Dataset.range(rvalue) 怎么了---似乎有必要但不明显使用什么右值？ 有没有更好的整体方案？

请注意，数据集非常大，不适合 RAM。

Answer 1

Interleave 允许您在单独的逻辑线程（并行）中处理每个文件，然后将文件中的数据合并到单个数据集中。 由于您的数据来自两个对应的文件，因此您需要小心保留顺序。

以下是如何将交错放置在数据集末尾附近的示例：

img_files = ...
out_files = ...
files = tf.data.Dataset.zip(img_files, out_files)

def parse_img_file(img_file):
  imgd = tf.data.FixedLengthRecordDataset(img_files, inrez*inrez)
  ...

def parse_out_file(out_file):
  ...

def parse_files_fn(img_file, out_file):
  img_file_dataset = parse_img_file(img_file)
  out_file_dataset = parse_out_file(out_file)
  return tf.data.Dataset.zip(img_file_dataset, out_file_dataset)

dataset = files.interleave(parse_files_fn, num_parallel_calls=tf.data.experimental.AUTOTUNE)
dataset = dataset.repeat()

交错的每个线程将从不同的 (img, out) 文件对生成元素，并且从每对文件生成的元素将被交错在一起。

使用 Tensorflow Interleave 提高性能

问题描述

1 个解决方案

解决方案1
0 2020-02-14 18:55:55

使用 Tensorflow Interleave 提高性能

问题描述

1 个解决方案

解决方案1 0 2020-02-14 18:55:55

解决方案1
0 2020-02-14 18:55:55