數據資料資料差，機器學習工具就無效

資料差，機器學習工具就無效

If Your Data Is Bad, Your Machine Learning Tools Are Useless

播放

放大縮小

播放

放大縮小

確保資料品質的五個步驟。

若要讓機器學習（machine learning）廣泛應用且可創造獲利，最大的障礙就是資料品質太差。「垃圾進，垃圾出」（garbage-in, garbage-out）這個犀利的觀察，多年來一直困擾著分析和決策領域，但這對機器學習來說，更具有特殊的警惕意義。機器學習對品質的要求特別高，而品質差的資料有兩次出現機會，第一次是用來訓練預測模型的歷史資料，第二次則是那個模型在未來要做決策時所使用的新資料。

為了用恰當的方式來訓練預測模型，歷史資料必須符合特別廣泛且高品質的標準。首先，資料必須是正確的：它必須正確、恰當地標示、已去除重複內容等。但你也必須有對的資料，也就是要有許多無偏誤的資料，而且你打算開發的預測模型所需要輸入的所有範圍的資料，都必須包括在內。大多數的資料品質管控工作，只著重在上述兩個標準的其中之一，但對機器學習來說，你必須同時採用這兩個標準。

只是在今日，大部分資料都不符合基本的「資料是正確的」標準。原因有很多，像是產生資料的人不了解該怎麼做、沒有好好校準的衡量工具、過度複雜的流程、人為過失等。為彌補這些缺失，資料科學家在訓練預測模型之前，會先清理這些資料。清理工作很耗時間（約占

湯瑪斯．雷曼 Thomas C. Redman

被稱為「數據醫生」（the Data Doc），擔任數據品質解決方案公司（Data Quality Solutions）總裁，協助企業和人們，包括新創公司、多國籍公司、高階主管和各層級領導人，規畫如何創造以數據驅動的未來。他特別重視品質、分析法和組織能力。

數據資料資料差，機器學習工具就無效

資料差，機器學習工具就無效

湯瑪斯．雷曼 Thomas C. Redman

本篇文章主題

數據資料

更多關聯主題

展開顧客田野調查

何時該忘記回顧

向組織犯罪學管理？企業可從中學到的 5 個教訓

我被「合法」盜賣了

數據資料資料差，機器學習工具就無效

資料差，機器學習工具就無效

聽文章

分享

聽文章

湯瑪斯．雷曼 Thomas C. Redman

本篇文章主題

數據資料

更多關聯主題

展開顧客田野調查

何時該忘記回顧

向組織犯罪學管理？企業可從中學到的 5 個教訓

我被「合法」盜賣了

收藏至

分享"資料差，機器學習工具就無效"