PyTorch 中是否有提取圖像塊的功能？

Question

給定一批圖像，我想提取所有可能的圖像塊，類似於卷積。 在 TensorFlow 中，我們可以使用tf.extract_image_patches來實現這一點。 PyTorch 中是否有等效的功能？

謝謝。

Answer 1

不幸的是，可能沒有直接的方法來實現您的目標。
但是 Tensor.unfold 函數可能是一個解決方案。
https://discuss.pytorch.org/t/how-to-extract-smaller-image-patches-3d/16837/2
這個網站或許能幫到你。

Answer 2

也許此代碼示例將有助於理解如何使用unfold ，靈感來自這個線程通過@gasoon鏈接，但更多的是有點冗長：

batch_size, n_channels, n_rows, n_cols = 32, 3, 64, 64
kernel_h, kernel_w = 7, 9
step = 5

x = torch.arange(batch_size*n_channels*n_rows*n_cols).view(batch_size, n_channels, n_rows, n_cols)

# unfold(dimension, size, step)
windows = x.unfold(2, kernel_h, step).unfold(3, kernel_w, step).permute(2, 3, 0, 1, 4, 5).reshape(-1, n_channels, kernel_h, kernel_w)
print(windows.shape)
# result: torch.Size([4608, 3, 7, 9]) = [n_windows, n_channels, krenel_h, kernel_w]

Answer 3

也花了一些時間研究這個，我發現這個 pytorch 線程對我有用，PyTorch dev ptrblck （保佑這個家伙）提供了等效的 pytorch 版本的 tensorflow 函數。

為簡單起見，我將在這里重新發布代碼（來自用戶FloCF ）。

import math
import torch.nn.functional as F

def extract_image_patches(x, kernel, stride=1, dilation=1):
    # Do TF 'SAME' Padding
    b,c,h,w = x.shape
    h2 = math.ceil(h / stride)
    w2 = math.ceil(w / stride)
    pad_row = (h2 - 1) * stride + (kernel - 1) * dilation + 1 - h
    pad_col = (w2 - 1) * stride + (kernel - 1) * dilation + 1 - w
    x = F.pad(x, (pad_row//2, pad_row - pad_row//2, pad_col//2, pad_col - pad_col//2))
    
    # Extract patches
    patches = x.unfold(2, kernel, stride).unfold(3, kernel, stride)
    patches = patches.permute(0,4,5,1,2,3).contiguous()
    
    return patches.view(b,-1,patches.shape[-2], patches.shape[-1])

在 PyTorch 論壇上給這些人點贊 :)

PyTorch 中是否有提取圖像塊的功能？

問題描述

3 個解決方案

解決方案1
5 2018-06-21 13:54:03

解決方案2
1 2020-09-16 14:51:35

解決方案3
1 2021-01-25 14:27:07

PyTorch 中是否有提取圖像塊的功能？

問題描述

3 個解決方案

解決方案1 5 2018-06-21 13:54:03

解決方案2 1 2020-09-16 14:51:35

解決方案3 1 2021-01-25 14:27:07

解決方案1
5 2018-06-21 13:54:03

解決方案2
1 2020-09-16 14:51:35

解決方案3
1 2021-01-25 14:27:07