繁体   English   中英

Kernel 3D 卷积的大小

[英]Kernel Size for 3D Convolution

3D 卷积的 kernel 大小是使用 Pytorch 或 Z074DD699710DA0EC1EB345F13B317 中的深度、高度和宽度定义的。 例如,如果我们考虑具有 300 个切片的 CT/MRI 图像数据,输入张量可以是 (1,1,300,128,128),对应于 (N,C,D,H,W)。 然后,kernel 的深度、高度和宽度可以是 (3,3,3)。 在做3D卷积时,kernel在3个方向上传递。

但是,如果我们将情况从 CT/MRI 更改为彩色视频,我会感到困惑。 让视频有 300 帧,那么输入张量将是 (1,3,300,128,128),因为 RGB 图像有 3 个通道。 我知道对于单个 RGB 图像,通道、高度和宽度的 kernel 大小可以是 3X3X3。 但是对于视频,Pytorch 和 Tensorflow 似乎仍然使用深度、高度和宽度来设置 kernel 大小。 我的问题是,如果我们仍然使用 (3,3,3) 的 kernel,颜色通道是否存在潜在的第四维?

是的。

实际上,CNN 中发生的卷积操作比其同名的要高一维。 通道尺寸总是由整个 kernel 跨越,因此没有沿通道尺寸滑动。 例如,将 kernel 大小设置为 5x5 的 2D 卷积层应用于 3 通道输入,实际上是使用形状为 3x5x5 的 kernel(假设通道优先表示法)。 每个 output 通道是输入与不同的 3x5x5 kernel 卷积的结果,因此每个 Z78E6221F6393D1356681DB393D2Z 通道都有这些 3x5x5 内核之一。

视频也是如此。 一个 3D 卷积层实际上是以相同的方式执行 4D 卷积。 因此,形状为 1x3x300x128x128 且 kernel 大小设置为 3x3x3 的输入实际上将使用形状为 3x3x3x3 的内核执行 4D 卷积。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM