簡體   English   中英

使用預訓練模型(Keras、Tensorflow)的 Mask R-CNN、Faster R-CNN 的最佳圖像大小

[英]Optimal image sizes for Mask R-CNN, Faster R-CNN, using pretrained models (Keras, Tensorflow)

許多現有的 Tensorflow 和 Keras CNN 代碼示例使用相同的尺寸來訓練圖像,通常是 299*299、244*244、256*256 等等。 我認為這部分取決於與預訓練模型的兼容性以及架構本身。

我仍在評估架構,但最終可能會使用 Mask R-CNN(或 Faster R-CNN),使用 Resnet、Inception 或 Xception,以及 Tensorflow 或 Keras。 要分析的目標圖像在 1024*1024 范圍內,但可以分成更小的分區。

鑒於可用的預訓練模型,是否有可以提供任何優勢的訓練圖像大小? 我想避免事后調整大小,因為在某些情況下這會降低圖像清晰度。

好的,我找到了部分答案:

Girshick 的 Faster R-CNN 顯然對輸入圖像進行了內部縮放,使得它們的較短尺寸為 600 像素,但較大的邊緣被限制在 1000 像素。 聽起來這是由於可用 GPU 的內存限制。

鑒於圖像縮放會造成 CPU 影響,並且還會導致邊緣出現一些鋸齒,因此在圖像預處理方面似乎有優勢。

我還沒有找到 Mask R-CNN 的等效信息。

根據可以在此處找到的 Matterport 實現https://github.com/matterport/Mask_RCNN ,圖像的輸入大小為 1024x1024。 此外,在論文中他們提到他們使用 1024 像素作為運行城市景觀的輸入(檢查附錄 b,我相信)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM