3/3 可免費閱讀文章篇數免費閱讀

資料差,機器學習工具就無效

If Your Data Is Bad, Your Machine Learning Tools Are Useless
湯瑪斯.雷曼 Thomas C. Redman
瀏覽人數:3652
確保資料品質的五個步驟。

若要讓機器學習(machine learning)廣泛應用且可創造獲利,最大的障礙就是資料品質太差。「垃圾進,垃圾出」(garbage-in, garbage-out)這個犀利的觀察,多年來一直困擾著分析和決策領域,但這對機器學習來說,更具有特殊的警惕意義。機器學習對品質的要求特別高,而品質差的資料有兩次出現機會,第一次是用來訓練預測模型的歷史資料,第二次則是那個模型在未來要做決策時所使用的新資料。

為了用恰當的方式來訓練預測模型,歷史資料必須符合特別廣泛且高品質的標準。首先,資料必須是正確的:它必須正確、恰當地標示、已去除重複內容等。但你也必須有對的資料,也就是要有許多無偏誤的資料,而且你打算開發的預測模型所需要輸入的所有範圍的資料,都必須包括在內。大多數的資料品質管控工作,只著重在上述兩個標準的其中之一,但對機器學習來說,你必須同時採用這兩個標準。

只是在今日,大部分資料都不符合基本的「資料是正確的」標準。原因有很多,像是產生資料的人不了解該怎麼做、沒有好好校準的衡量工具、過度複雜的流程、人為過失等。為彌補這些缺失,資料科學家在訓練預測模型之前,會先清理這些資料。清理工作很耗時間(約占資料科學家80%的時間),而且單調乏味,這是他們最常抱怨的問題。即使做了這些努力,資料清理工作仍無法偵測並修正所有的錯誤,而且目前還沒有辦法了解這對預測模型有什麼影響。此外,資料不見得都能符合「要有對的資料」的標準,例如有報告指出人臉辨識與刑事司法體系裡會出現資料偏誤。

日益困難的問題,不只需要更多資料,還需要更多元、更完整的資料,因而產生更多資料品質的問題。舉例來說,IBM致力把機器學習應用到癌症治療上,例如運用華生(Watson)系統,而手寫的筆記和小範圍內通行的縮寫用法,讓IBM這項努力變得更複雜。

在執行方面,資料品質問題也一樣造成麻煩。假設有一家公司打算透過機器學習計畫來提高生產力。開發出預測模型的資料科學團隊,雖然之前可能已經很認真地清理過訓練用的資料,但之後實際運作時,預測模型仍可能因為品質差的資料而影響到成效。同樣還是需要人力(而且是很多人力),來找出並修改錯誤。於是破壞了原先想提高生產力的期望。另外,隨著機器學習技術普及到全公司,一個預測模型產出的結果,會輸入另一個預測模型,一輪一輪持續下去,甚至傳送到公司以外的地方。這情況的風險在於,在某一個步驟產生的微小錯誤,會一步步傳遞下去,在整個過程中造成更多錯誤,演變成更嚴重的錯誤。

想解決以上這些擔憂,必須實施一個做法積極、執行良好的品質計畫,要投入的心力遠超過日常業務所需。領導人必須盡全力推動以下五個步驟。

首先,釐清你的目標,並評估是否有對的資料,可支援達成這些目標。假設有一家房屋貸款公司,希望把機器學習應用在他們的貸款流程中。他們該同意某件貸款嗎?如果答案是肯定的,該採取哪些同意條款?使用機器學習想達成的目標,可能有以下這些:

● 降低現有決策流程的成本。既然目標並不是做出更好的決定,現有的資料應該就足夠了。
● 排除現有決策流程中的偏誤。這種偏誤幾乎一定會反映在現有資料裡。應該要小心進行。
● 改善決策流程,也就是減少核准不按期還款客戶的貸款,並且核准先前曾拒絕核貸、但預測客戶應該會還款的貸款申請。注意,儘管公司有很多貸款申請被拒的案例資料,但無法得知這些貸款申請若當初有通過,客戶會不會繳貸款。處理這類分析時必須極為小心。

如果既有資料無法達成這些目標,最好的解決之道就是找新的資料,或是縮小目標,或是兩者同時進行。

第二,在整個專案計畫中,配置許多時間,來執行基本的資料品質管控。針對機器的訓練,表示平均每投入一人花一個月時間建立預測模型,就會需要有一人平均花四個月時間清理資料,因為你必須衡量品質水準、評估來源、刪去重複內容、清理訓練資料,就跟你為重要的分析工作所做的準備一樣。而針對執行面,最好能排除造成錯誤的根本原因,並盡量減少後續清理資料的工作。這樣做很有益處,能消除隱藏的錯誤資料,也能節省營運作業的時間與金錢。盡快開始這項工作,而且應該在你希望推出預測模型之前六個月,就開始進行。

第三,在準備訓練資料時,做好流水紀錄(audit trail)。原始的訓練資料、訓練時使用的資料,還有從前者到後者之間採取的所有步驟,都應該保留備份。這是明智的做法(雖然許多人不明智地沒有這麼做),而且能協助你進行必要的流程改善,以便未來能使用預測模型來做決定。另外很重要的是,應該要了解模型中的偏誤和限制,而流水紀錄可以協助你找出它們。

第四,在推出模型時,指派某個人(或團隊)負責資料品質。這個人應該非常了解那些資料,包含資料的強項和弱點,而且有兩個核心任務。首先,每天為新進來的資料設定並執行品質標準。如果資料品質不夠好,就由人來做。第二,他們領導持續找出並排除錯誤的根源。這項工作之前就應該已經開始進行,而且要持續下去。

最後,取得獨立、嚴格的品質保證。這裡所謂的品質保證,是指確保品質計畫能產生所要結果的過程。其中的關鍵詞是「獨立」,所以這個工作應該由其他人來做,可以是內部的品質保證部門、其他部門的團隊,或是有資格執行的第三方。

就算採行前述五個步驟,你必定會發現你的資料仍不完美。你也許可以容忍預測模型裡有一些微小的資料品質問題,像是在第15個最重要的變數裡出現一個缺失值(missing value)。若要探索這個領域,在準備資料和訓練模型時,你可以讓資料科學家搭配經驗最豐富的業務人員。商業分析平台Stratyfy是一家為人工智慧(artificial intelligence)帶來透明度和責任的新創公司,該公司共同創辦人蘿拉.科恩豪瑟(Laura Kornhauser)表示:「你應該盡快把你們負責業務的人員和資料科學家集合在一起。尤其業務人員一直都在處理品質差的資料,你必須把他們的專業知識,納入你的預測模型裡。」

看來有很多事要做吧?沒錯。不過,機器學習實在是威力強大,你必須學習運用它的威力。資料品質差,會導致這股威力遭到延遲、否定或誤用,因此前述那麼多的事情都是應該要做的。

(陳佳穎譯)



湯瑪斯.雷曼

湯瑪斯.雷曼 Thomas C. Redman

被稱為「資料醫生」(Data Doc),資料品質解決方案公司(Data Quality Solutions)總裁,協助企業和人們,包括新創公司、多國籍公司、高階主管、各層級領導人規畫如何創造以數據資料驅動的未來。他特別重視品質、分析,還有組織能力。


本篇文章主題數據資料