以標示分類圖像為例, 最直覺的做法


時常提醒自己成本效益...資料不多時, 無須訂製軟體

假設貴公司已經決定好運用 AOI 做品質檢測的一環, 也確認只需要判定是 <良品; 待進一步檢測; 瑕疵品; 圖像不足以進行檢測> 四個分類即可. 同時也產線上具備取得產品圖像的設施. 很可能短短一天就已經取得數萬張產品照片, 我們刻意簡化整個資料預處理的程序, 就直接跳到<對產品影像進行標示其分類>這一個步驟.

直覺作法, 就是找個人想辦法把全部的照片依照其分類後的結果, 放置於各自的目錄下.

最直覺的標示分類工具, 手工利用檔案總管將照片移置於對應的分類目錄

通常實務操作後, 大概率會因為效率低落而放棄此作法. 理由大約無非是:

  • 現今為止只要談到深度學習技術, 資料不均衡 (Data Imbalance)的問題嚴重影響其準確度, 雖然有各種方法進行資料擴充 (Data Augmentation) 以降低此問題帶來的衝擊, 但是仍須取得足夠數量的少數類別的圖像才有用. 例如: 瑕疵品與良品的數量比通常極為懸殊, 為了累積到足夠量瑕疵品圖像, 最終整體要分類的照片可能高達數萬張才能取得百張瑕疵品照片.

  • 既然目標是取得更多的瑕疵品照片, 取得所有產品的照片後, 是否該有個過濾程序以提高命中率? 這邊似乎出現悖論: 假設我能過濾照片, 那不就是我已經在分類了? 這個問題我們以後再探討.

  • 當某目錄下照片超過千張後, 人類便很難有效率的管理追蹤. 例如: 如果要取消上一個誤操作(不小心將照片搬移到不是正確的分類目錄下), 於檔案總管是極其無效率的.

  • 對此進行目錄分類的方法做點動作研究, 拆解其作業: 打開照片查看後決定分類再搬移到對應目錄下, 似乎有太多無效益的動作. 而有能力進行分類的 通常為資深人員, 成本高.

前述提到需要一個能提高效率的分類標示工具, 其實就應該面對這些問題.