[英]How do I rotate a PyTorch image tensor around it's center in a way that supports autograd?
我想围绕它的中心随机旋转图像张量(B,C,H,W)(我认为是二维旋转?)。 我想避免使用 NumPy 和 Kornia,这样我基本上只需要从 torch 模块导入。 我也没有使用torchvision.transforms
,因为我需要它与 autograd 兼容。 本质上,我正在尝试为像 DeepDream 这样的可视化技术创建torchvision.transforms.RandomRotation()
的 autograd 兼容版本(因此我需要尽可能避免伪影)。
import torch
import math
import random
import torchvision.transforms as transforms
from PIL import Image
# Load image
def preprocess_simple(image_name, image_size):
Loader = transforms.Compose([transforms.Resize(image_size), transforms.ToTensor()])
image = Image.open(image_name).convert('RGB')
return Loader(image).unsqueeze(0)
# Save image
def deprocess_simple(output_tensor, output_name):
output_tensor.clamp_(0, 1)
Image2PIL = transforms.ToPILImage()
image = Image2PIL(output_tensor.squeeze(0))
image.save(output_name)
# Somehow rotate tensor around it's center
def rotate_tensor(tensor, radians):
...
return rotated_tensor
# Get a random angle within a specified range
r_degrees = 5
angle_range = list(range(-r_degrees, r_degrees))
n = random.randint(angle_range[0], angle_range[len(angle_range)-1])
# Convert angle from degrees to radians
ang_rad = angle * math.pi / 180
# test_tensor = preprocess_simple('path/to/file', (512,512))
test_tensor = torch.randn(1,3,512,512)
# Rotate input tensor somehow
output_tensor = rotate_tensor(test_tensor, ang_rad)
# Optionally use this to check rotated image
# deprocess_simple(output_tensor, 'rotated_image.jpg')
我试图完成的一些示例输出:
所以网格生成器和采样器是空间变换器(JADERBERG、Max 等)的子模块。 这些子模块是不可训练的,它们让您可以应用可学习和不可学习的空间转换。 在这里,我使用这两个子模块,并使用它们使用 PyTorch 的函数F.affine_grid
和F.affine_sample
(这些函数分别是生成器和采样器的实现)通过theta
旋转图像:
import torch
import torch.nn.functional as F
import numpy as np
import matplotlib.pyplot as plt
def get_rot_mat(theta):
theta = torch.tensor(theta)
return torch.tensor([[torch.cos(theta), -torch.sin(theta), 0],
[torch.sin(theta), torch.cos(theta), 0]])
def rot_img(x, theta, dtype):
rot_mat = get_rot_mat(theta)[None, ...].type(dtype).repeat(x.shape[0],1,1)
grid = F.affine_grid(rot_mat, x.size()).type(dtype)
x = F.grid_sample(x, grid)
return x
#Test:
dtype = torch.cuda.FloatTensor if torch.cuda.is_available() else torch.FloatTensor
#im should be a 4D tensor of shape B x C x H x W with type dtype, range [0,255]:
plt.imshow(im.squeeze(0).permute(1,2,0)/255) #To plot it im should be 1 x C x H x W
plt.figure()
#Rotation by np.pi/2 with autograd support:
rotated_im = rot_img(im, np.pi/2, dtype) # Rotate image by 90 degrees.
plt.imshow(rotated_im.squeeze(0).permute(1,2,0)/255)
在上面的例子中,假设我们把我们的形象im
看作是一只穿着裙子的跳舞猫:
rotated_im
将是一只穿着裙子的逆时针旋转 90 度旋转的舞猫:
这是我们所得到的,如果我们称之为rot_img
与theta
eqauls到np.pi/4
:
最好的部分是它可以区分输入并具有 autograd 支持! 万岁!
有一个 pytorch 功能:
x = torch.tensor([[0, 1],
[2, 3]])
x = torch.rot90(x, 1, [0, 1])
>> tensor([[1, 3],
[0, 2]])
以下是文档: https : //pytorch.org/docs/stable/generated/torch.rot90.html
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.