簡體   English   中英

Kernel 3D 卷積的大小

[英]Kernel Size for 3D Convolution

3D 卷積的 kernel 大小是使用 Pytorch 或 Z074DD699710DA0EC1EB345F13B317 中的深度、高度和寬度定義的。 例如,如果我們考慮具有 300 個切片的 CT/MRI 圖像數據,輸入張量可以是 (1,1,300,128,128),對應於 (N,C,D,H,W)。 然后,kernel 的深度、高度和寬度可以是 (3,3,3)。 在做3D卷積時,kernel在3個方向上傳遞。

但是,如果我們將情況從 CT/MRI 更改為彩色視頻,我會感到困惑。 讓視頻有 300 幀,那么輸入張量將是 (1,3,300,128,128),因為 RGB 圖像有 3 個通道。 我知道對於單個 RGB 圖像,通道、高度和寬度的 kernel 大小可以是 3X3X3。 但是對於視頻,Pytorch 和 Tensorflow 似乎仍然使用深度、高度和寬度來設置 kernel 大小。 我的問題是,如果我們仍然使用 (3,3,3) 的 kernel,顏色通道是否存在潛在的第四維?

是的。

實際上,CNN 中發生的卷積操作比其同名的要高一維。 通道尺寸總是由整個 kernel 跨越,因此沒有沿通道尺寸滑動。 例如,將 kernel 大小設置為 5x5 的 2D 卷積層應用於 3 通道輸入,實際上是使用形狀為 3x5x5 的 kernel(假設通道優先表示法)。 每個 output 通道是輸入與不同的 3x5x5 kernel 卷積的結果,因此每個 Z78E6221F6393D1356681DB393D2Z 通道都有這些 3x5x5 內核之一。

視頻也是如此。 一個 3D 卷積層實際上是以相同的方式執行 4D 卷積。 因此,形狀為 1x3x300x128x128 且 kernel 大小設置為 3x3x3 的輸入實際上將使用形狀為 3x3x3x3 的內核執行 4D 卷積。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM