在tensorflow數據集api中優化shuffle緩沖區大小

Question

我正在嘗試使用dataset api來加載數據，並發現我花費了大部分時間將數據加載到shuffle緩沖區中。 我如何優化此管道以最小化填充shuffle緩沖區所花費的時間。

(tf.data.Dataset.list_files(path)
   .shuffle(num_files)  # number of tfrecord files 
   .apply(tf.contrib.data.parallel_interleave(lambda f: tf.data.TFRecordDataset(f), cycle_length=num_files))
   .shuffle(num_items)  # number of images in the dataset
   .map(parse_func, num_parallel_calls=8)
   .map(get_patches, num_parallel_calls=8)
   .apply(tf.contrib.data.unbatch())
   # Patch buffer is currently the number of patches extracted per image
   .apply(tf.contrib.data.shuffle_and_repeat(patch_buffer))
   .batch(64)
   .prefetch(1)
   .make_one_shot_iterator())

Answer 1

由於我有至多數千張圖像，我對此問題的解決方案是每張圖像都有一個單獨的tfrecord文件。 這樣，個人圖像可以被洗牌，而不必先將它們加載到內存中。 這大大減少了需要發生的緩沖。

在tensorflow數據集api中優化shuffle緩沖區大小

問題描述

1 個解決方案

解決方案1
2 已采納 2018-07-18 17:15:59

在tensorflow數據集api中優化shuffle緩沖區大小

問題描述

1 個解決方案

解決方案1 2 已采納 2018-07-18 17:15:59

解決方案1
2 已采納 2018-07-18 17:15:59