遷移/微調 EfficientNet 預訓練模型

還有許多模型可以選, 為何是它?

以圖像分類問題來講, 姑且不論最近幾年每年都有新的 SOTA, 累積下來可能有數百個模型可以套用. 我們就光用 Google 於2021年有兩個截然不同的網路類型發表: EfficientNetV2: Smaller Models and Faster TrainingCoAtNet: Marrying Convolution and Attention for All Data Sizes, 前者關注於CNN 在網路架構自動搜尋上, 後者結合 Attention 機制於 CNN.

至少在 CoAtNet 論文上, 其性能輾壓其他網路, 包含 EfficientNetV2, 但是如果專案可資運用的圖像是大解析度的, 例如 500x500 以上, 能完成標示的圖像數量又極為有限呢(例如: 要進行五分類, 但只有千張標示圖像)? 那當然要考慮 Transfer Learning 遷移學習.

除了性能差異外, 值得注意的是模型參數數量, 動輒十億(100M)以上, 如果沒有千萬張的標示圖像,


那為何要採用 EfficientNetV2?

理由無它,