注意 Data Augmentation

Tensorflow Keras APIs

先前粗略提到資料不平衡可藉由 Data Augmentation緩解. 在進入程式之前, 先分享一個經驗.

有家金屬表面處理代工廠, 為控制品質, 出貨前幾年前都是由質檢人員以肉眼檢視其產品外觀是否符合出廠條件, 這是極浪費人力且容易出差錯的一環, 所以導入AOI 是必然. 歷經幾代的進展, 前年開始嘗試看看運用 CNN 圖像分類模型來決定瑕疵品或良品. 也如預期遭遇了資料不平衡的問題, 也知道必須運用 Data Augmentation, 但是得到結論是 Data Augmentation 帶來反效果.

這蠻違反常理的, 經過錯誤隔離, 把運用上的圖像 Augmentation 用到的 color jitter, 上下左右翻轉, 旋轉, 對比等等方法逐一檢驗, 最終發現旋轉會帶來反效果.

原因: 該公司產品瑕疵99.9%以上只會出現在圖像的四個角落, 當進行較大角度的旋轉後, 很大機率會把瑕疵部位給擠出圖像外部. 這時圖像原來代表瑕疵, 經 data augmantation後, 該圖像以人來判讀卻變成良品, 變成誤標示的數據了.

Under Construction

Under Construction