[英]How do I take l1 and l2 regularizers into account in tensorflow custom training loops?
在使用 model.fit_on_batch 方法和自定义训练循环时,我意识到在自定义训练循环代码中,损失和梯度没有考虑任何 l1-l2 正则化器,因此 optimizer.apply_gradients 方法没有考虑正则化器。 您可以在下面找到显示这一点的代码,但这个想法非常简单。 所以我的问题是,是否有一种方法可以以与优化器细节无关的方式使用所有这些优化器来考虑正则化器。 它是如何在 Keras 中实现的? 在相关说明中, model.fit_on_batch 返回一个值,它不是损失(如文档字符串中所述)而是其他值。 我想知道这里是否有人知道它会返回什么。
代码
要查看此效果,请先创建一些数据
x=tf.constant([[1]])
y=tf.constant([[1]])
并创建 function 以制作可重现的 model
def make_model(l1=.01,l2=.01):
tf.random.set_seed(42)
np.random.seed(42)
model=tf.keras.models.Sequential([
tf.keras.layers.Dense(2,'softmax',
use_bias=False,
kernel_regularizer=tf.keras.regularizers.l1_l2(l1=l1,l2=l2),
input_shape=(1,))
])
return model
现在运行 Keras train_on_batch
model=make_model()
loss_object=tf.keras.losses.SparseCategoricalCrossentropy()
optimizer=tf.keras.optimizers.RMSprop()
model.compile(loss=loss_object,optimizer=optimizer)
model.train_on_batch(x,y)
并将输出与自定义训练循环进行比较,如上述链接和此处所述
model=make_model()
loss_object=tf.keras.losses.SparseCategoricalCrossentropy()
optimizer=tf.keras.optimizers.RMSprop()
@tf.function
def train_step(x,y):
with tf.GradientTape() as tape:
predictions = model(x)
loss = loss_object(y, predictions)
gradients = tape.gradient(loss, model.trainable_variables)
optimizer.apply_gradients(zip(gradients, model.trainable_variables))
return loss
train_step(x,y).numpy()
你会看到这两个结果是不同的,除非 l1==0 和 l2==0。
事实上,在我实现了下面的代码之后,我发现tensorflow 自定义培训指南中涵盖了这一点(我不知道为什么它不在问题中提到的教程中,因为它很重要)。 那里的解决方案比这里提到的解决方案更通用,但我保留了这一点,因为它对正在发生的事情有更多的了解。
所以就像修改自定义训练循环一样简单
def add_model_regularizer_loss(model):
loss=0
for l in model.layers:
if hasattr(l,'layers') and l.layers: # the layer itself is a model
loss+=add_model_loss(l)
if hasattr(l,'kernel_regularizer') and l.kernel_regularizer:
loss+=l.kernel_regularizer(l.kernel)
if hasattr(l,'bias_regularizer') and l.bias_regularizer:
loss+=l.bias_regularizer(l.bias)
return loss
def train_step(x,y):
with tf.GradientTape() as tape:
predictions = model(x)
loss = loss_object(y, predictions)
loss += add_model_regularizer_loss(model)
gradients = tape.gradient(loss, model.trainable_variables)
optimizer.apply_gradients(zip(gradients, model.trainable_variables))
return loss
要回答我问题的第二部分,keras 的 model 拟合方法返回的正是这个损失值。
如TF 网站所述,推荐的做法是使用model.losses
。 例如:
def train_step(x,y):
with tf.GradientTape() as tape:
predictions = model(x)
loss = loss_object(y, predictions)
loss += tf.add_n(model.losses) # <--- SEE HERE
gradients = tape.gradient(loss, model.trainable_variables)
optimizer.apply_gradients(zip(gradients, model.trainable_variables))
return loss
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.