2x 嵌套 Tensorflow 自定義層導致零可訓練參數

Question

我正在創建一系列自定義 Tensorflow （版本2.4.1 ）層，並且遇到了 model 摘要顯示零可訓練參數的問題。 下面是一系列示例，顯示在我添加最后一個自定義層之前一切都很好。

以下是導入和自定義類：

from tensorflow.keras.models import Model
from tensorflow.keras.layers import (BatchNormalization, Conv2D, Input, ReLU, 
                                     Layer)

class basic_conv_stack(Layer):
    def __init__(self, filters, kernel_size, strides):
        super(basic_conv_stack, self).__init__()
        self.conv1 = Conv2D(filters, kernel_size, strides, padding='same')
        self.bn1 = BatchNormalization()
        self.relu = ReLU()

    def call(self, x):
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)
        return x
    
class basic_residual(Layer):
    def __init__(self, filters, kernel_size, strides):
        super(basic_residual, self).__init__()
        self.bcs1 = basic_conv_stack(filters, kernel_size, strides)
        self.bcs2 = basic_conv_stack(filters, kernel_size, strides)

    def call(self, x):
        x = self.bcs1(x)
        x = self.bcs2(x)
        return x
    
class basic_module(Layer):
    def __init__(self, filters, kernel_size, strides):
        super(basic_module, self).__init__()
        self.res = basic_residual
        self.args = (filters, kernel_size, strides)
    
    def call(self, x):
        for _ in range(4):
            x = self.res(*self.args)(x)
        return x

現在，如果我執行以下操作，一切正常，我得到300 個可訓練參數：

input_layer = Input((128, 128, 3))
conv = basic_conv_stack(10, 3, 1)(input_layer)

model = Model(input_layer, conv)
print (model.summary())

同樣，如果我執行以下操作，我會得到 1,230 個可訓練參數：

input_layer = Input((128, 128, 3))
conv = basic_residual(10, 3, 1)(input_layer)

model = Model(input_layer, conv)
print (model.summary())

但是，如果我嘗試使用 basic_module class，我得到的可訓練參數為零：

input_layer = Input((128, 128, 3))
conv = basic_module(10, 3, 1)(input_layer)

model = Model(input_layer, conv)
print (model.summary())

有誰知道為什么會這樣？

編輯添加：

我發現調用中使用的層必須在類的 init 中初始化才能正常工作。 因此，如果我將基本模塊更改為：

class basic_module(Layer):
    def __init__(self, filters, kernel_size, strides):
        super(basic_module, self).__init__()
        self.clayers = [basic_residual(filters, kernel_size, strides) for _ in range(4)]

    def call(self, x):
        for idx in range(4):
            x = self.clayers[idx](x)
        return x

一切正常。 我不知道為什么會這樣，所以我會留下這個問題，以防有人可以回答這個問題的原因。

Answer 1

您必須初始化class 實例，使用所需的參數，例如filters 、 kernel_size 、 base_mdoule strides 另外，請注意，這些超參數與可訓練的權重屬性有關。

# >>> a = basic_module
# >>> a __main__.basic_module
# >>> a = basic_module(10, 3, 1)
# >>> a 
# >>> <__main__.basic_module at 0x7f6123eed510>

class basic_module(Layer):
    def __init__(self, filters, kernel_size, strides):
        super(basic_module, self).__init__()
        self.res = basic_residual # < ---
        self.args = (filters, kernel_size, strides)
    
    def call(self, x):
        for _ in range(4):
            x = self.res(*self.args)(x)
        return x

2x 嵌套 Tensorflow 自定義層導致零可訓練參數

問題描述

1 個解決方案

解決方案1
1 已采納 2021-04-19 16:22:17

2x 嵌套 Tensorflow 自定義層導致零可訓練參數

問題描述

1 個解決方案

解決方案1 1 已采納 2021-04-19 16:22:17

解決方案1
1 已采納 2021-04-19 16:22:17