標示訓練資料的前置處理: 過濾
注意倖存者偏差問題
前面提到通常可以標示數據的, 通常在公司或組織裡會是比較資深人員, 為加速取得占比較低的瑕疵品數據, 有個好策略, 先想辦法過濾掉其他占比特高的圖片. 例如: 良品的圖片佔了所有圖片的99.9% , 如果有一個分類器, 那怕準確度只有70%, 先用此不太精準的分類器來過濾掉良品, 剩下的再交由成本較高的資深人員來標示數據.
這樣做除了降低成本, 也間接解決或是緩解了資料不平衡的問題. 還有一個意外的收穫: 所標示的數據品質較佳. 試想在不過濾的情境下, 可能看了一千張良品照片, 才出現一個瑕疵品, 此情況下正常人容易因為疲乏而誤標示.
這一策略唯一要注意的是: 避免所謂的生存者偏差, 亦即前述分類器將某隱性的瑕疵品類型給過濾掉了, 造成交給標示人員的圖片中, 幾乎沒有該瑕疵品類型, 數據已經是偏頗的.
當目標是要分類貓咪是否能抓老鼠時, 似乎不該用黑貓/白貓來過濾
為避免此偏差發生, 我們可以先找有點基礎的人員, 先分類成兩大類 <疑似良品> 與 <疑似有問題>, 為何用疑似這樣的字眼呢? 理由在於不需過度精準. 這樣可以快速地標示, 而且可以避免前述倖存者偏差
過濾器的初步分類, 不需太精準以避免<倖存者偏差>