如何在 tensorflow 自定义训练循环中考虑 l1 和 l2 正则化器？

Question

在使用 model.fit_on_batch 方法和自定义训练循环时，我意识到在自定义训练循环代码中，损失和梯度没有考虑任何 l1-l2 正则化器，因此 optimizer.apply_gradients 方法没有考虑正则化器。 您可以在下面找到显示这一点的代码，但这个想法非常简单。 所以我的问题是，是否有一种方法可以以与优化器细节无关的方式使用所有这些优化器来考虑正则化器。 它是如何在 Keras 中实现的？ 在相关说明中， model.fit_on_batch 返回一个值，它不是损失（如文档字符串中所述）而是其他值。 我想知道这里是否有人知道它会返回什么。

代码

要查看此效果，请先创建一些数据

x=tf.constant([[1]])
y=tf.constant([[1]])

并创建 function 以制作可重现的 model

def make_model(l1=.01,l2=.01):
    tf.random.set_seed(42)
    np.random.seed(42)
    model=tf.keras.models.Sequential([
        tf.keras.layers.Dense(2,'softmax',
                              use_bias=False,
                              kernel_regularizer=tf.keras.regularizers.l1_l2(l1=l1,l2=l2),
                              input_shape=(1,))
    ])
    return model

现在运行 Keras train_on_batch

model=make_model()
loss_object=tf.keras.losses.SparseCategoricalCrossentropy()
optimizer=tf.keras.optimizers.RMSprop()
model.compile(loss=loss_object,optimizer=optimizer)
model.train_on_batch(x,y)

并将输出与自定义训练循环进行比较，如上述链接和此处所述

model=make_model()
loss_object=tf.keras.losses.SparseCategoricalCrossentropy()
optimizer=tf.keras.optimizers.RMSprop()

@tf.function
def train_step(x,y):

    with tf.GradientTape() as tape:
        predictions  = model(x)
        loss = loss_object(y, predictions)

    gradients = tape.gradient(loss, model.trainable_variables)    
    optimizer.apply_gradients(zip(gradients, model.trainable_variables))
    return loss

train_step(x,y).numpy()

你会看到这两个结果是不同的，除非 l1==0 和 l2==0。

Answer 1

其实我在 Aurelien Geron 的书中找到了答案

事实上，在我实现了下面的代码之后，我发现tensorflow 自定义培训指南中涵盖了这一点（我不知道为什么它不在问题中提到的教程中，因为它很重要）。 那里的解决方案比这里提到的解决方案更通用，但我保留了这一点，因为它对正在发生的事情有更多的了解。

所以就像修改自定义训练循环一样简单

def add_model_regularizer_loss(model):
    loss=0
    for l in model.layers:
        if hasattr(l,'layers') and l.layers: # the layer itself is a model
            loss+=add_model_loss(l)
        if hasattr(l,'kernel_regularizer') and l.kernel_regularizer:
            loss+=l.kernel_regularizer(l.kernel)
        if hasattr(l,'bias_regularizer') and l.bias_regularizer:
            loss+=l.bias_regularizer(l.bias)
    return loss

def train_step(x,y):

    with tf.GradientTape() as tape:
        predictions  = model(x)
        loss = loss_object(y, predictions)
        loss += add_model_regularizer_loss(model)

    gradients = tape.gradient(loss, model.trainable_variables)    
    optimizer.apply_gradients(zip(gradients, model.trainable_variables))
    return loss

要回答我问题的第二部分，keras 的 model 拟合方法返回的正是这个损失值。

Answer 2

如TF 网站所述，推荐的做法是使用model.losses 。 例如：

def train_step(x,y):

    with tf.GradientTape() as tape:
        predictions  = model(x)
        loss = loss_object(y, predictions)
        loss += tf.add_n(model.losses)   # <--- SEE HERE

    gradients = tape.gradient(loss, model.trainable_variables)    
    optimizer.apply_gradients(zip(gradients, model.trainable_variables))
    return loss

如何在 tensorflow 自定义训练循环中考虑 l1 和 l2 正则化器？

问题描述

2 个解决方案

解决方案1
5 已采纳 2020-06-18 00:25:22

解决方案2
0 2022-02-03 22:05:18

如何在 tensorflow 自定义训练循环中考虑 l1 和 l2 正则化器？

问题描述

2 个解决方案

解决方案1 5 已采纳 2020-06-18 00:25:22

解决方案2 0 2022-02-03 22:05:18

解决方案1
5 已采纳 2020-06-18 00:25:22

解决方案2
0 2022-02-03 22:05:18