避免數據採樣的偏差問題
如何避開無可避免的偏見問題
有個貓二代的機器翻譯專家, 在百坪大的豪宅裡伺候著八隻各式品種貓主子, 主僕之間每天過著溝通不良卻也還過得去的日子. 有天突發奇想, 何不嘗試製作一個貓主子語言翻譯機呢?
目標設定極為具體: 只要能翻譯出這八隻貓主子對自己下的命令要求即可.
為了儘快完成, 貓二代在其密閉工作室架設了緊急採購的收音設備. 並且每天排班抓這八隻貓主子輪流進工作室, 開始採集這八隻貓咪在工作間所發出的音訊. 果不其然, 如預期所有貓咪一被抓進工作室, 馬上一番狂喵歌頌. 靠著八位貓主子的恩寵, 於工作室很快累積超過數百小時的音訊數據.
貓二代身為資深機器學習專家, 很輕易的用非監督學習就得到一個驚人的結論: 這八隻貓咪只會講出兩種詞句.
再進一步利用 LSTM, Time Series 等等技術結合Multi-Head Attention 機制加上貓咪語言學家的加持, 最終將那兩個詞句翻譯成人話:
死奴才! 抓主子我進這個鬼地方做什麼 ??
快放我出去, 不然咬死你 !!
很明顯貓主子的日常需求不會只有那兩句, 問題在於收音環境侷限性. 同樣的問題依然會發生在 AOI 專案, 例如:
因為專案成員工作排程, 數據採擷的時間限制在特定的時段 (舉例來說只收集到日班, 晚班沒收集到)
以產品外觀瑕疵檢測為例, 忽略掉某些角度的圖像取得.