繁体   English   中英

如何处理CNN模型中的不同输入大小

[英]How to deal with different input sizes in CNN models

给出一点背景:我对机器学习相当新,我已经阅读并看过一些关于CNN如何工作的教育视频。

到目前为止,我已经尝试了两种模型,一个随机人的CNN模型和Google的Inception v3模型。 我能理解随机的人CNN模型以及那里发生的事情。 我不明白的是如何使它不同的输出尺寸,不仅是不同的比例或旋转。 让我解释一下我在做什么:

我基本上希望能够将图片(包含徽标)归类为品牌。 例如,你给我一张包含星巴克标志的图片,我们的模型会告诉你它是星巴克。 每张照片中只有一个标志(就我而言)。 第一次尝试是使用初始模型:尝试了20,000次迭代,2000张星巴克收据图片,2,000张沃尔玛收据图片和2,000张与星巴克或沃尔玛无关的随机图片,因此我也可以将图片归类为“两者”。 得到88%的准确度,不够好,交叉熵不会下降到低于0.4然后我尝试从这些图片中裁剪徽标并再次尝试。 这一次,在裁剪的图片上,它会像魅力一样工作,但是在包含星巴克标志的大图片上,或者沃尔玛的情况下,它会失败。

与DeepLo​​go的方式相同: https//github.com/satojkovic/DeepLo​​go

它适用于32 x 32图像,但一旦我改变输入大小,它就会失败。

我怎么能克服这个?

编辑 :我正在使用它在初始模型之上进行重新训练: https//github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/image_retraining

汇集层? 根据我的理解,汇集层提高了统计效率和翻译不变性。 最重要的是,在您的情况下,它可以用于各种尺寸的图像。 也许你可以对此做一些研究。 Goodfellow的“深度学习”一书将是我的建议。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM