繁体   English   中英

输入和ConvNet的大小

[英]Size of Input and ConvNet

在ConvNet中的关于卷积神经网络的CS231n课程中, 请注意

  • INPUT [32x32x3]将保存图像的原始像素值,在这种情况下为宽度32,高度32并具有三个颜色通道R,G,B的图像。

  • CONV层将计算连接到输入中局部区域的神经元的输出,每个神经元计算它们的权重与它们连接到输入体积中的小区域之间的点积。 如果我们决定使用12个滤镜,则可能会导致诸如[32x32x12]之类的体积。

从文档中,我了解到“输入”将包含32(宽)x 32(高)x 3深度的图像。 但是后来在Conv层的结果中, [32x32x12] if we decided to use 12 filters. 图像深度3在哪里?

请在这里帮助我,谢谢。

它被“分布”到每个特征图(与过滤器卷积后的结果)。

在考虑12个过滤器之前,只需考虑一个即可。 也就是说,您正在使用[filter_width * filter_height * input_channel_number]过滤器进行卷积。 并且由于您的input_channel_number与过滤器通道相同,因此您基本上在每个输入通道上独立应用2d卷积的input_channel_number,然后将它们求和。 结果是2D特征图。

现在,您可以重复12次以获取12个特征图,并将它们堆叠在一起以获得[32 x 32 x 12]特征量。 这就是为什么您的过滤器大小是具有[filter_width * filter_height * input_channel_number * output_channel_number]的4D向量的原因,在您的情况下,它应该类似于[3x3x3x12](请注意,不同框架之间的顺序可能有所不同,但操作是相同的)

所以,这很有趣。 我再次阅读了文档,并找到了一些“向下滚动”的答案。 以前,我以为过滤器为32 x 32(无深度)。 事实是:

ConvNet的第一层上的典型滤镜可能具有5x5x3的大小(即,宽度和高度为5像素,而图像的深度为3,即颜色通道,则像素为3)。

在前进过程中,我们将每个滤镜在输入体积的宽度和高度上滑动(更确切地说,是卷积),并计算滤镜条目与输入在任何位置之间的点积。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM