數據資料資料差,機器學習工具就無效

資料差,機器學習工具就無效

If Your Data Is Bad, Your Machine Learning Tools Are Useless

資料差,機器學習工具就無效

確保資料品質的五個步驟。
若要讓機器學習(machine learning)廣泛應用且可創造獲利,最大的障礙就是資料品質太差。「垃圾進,垃圾出」(garbage-in, garbage-out)這個犀利的觀察,多年來一直困擾著分析和決策領域,但這對機器學習來說,更具有特殊的警惕意義。機器學習對品質的要求特別高,而品質差的資料有兩次出現機會,第一次是用來訓練預測模型的歷史資料,第二次則是那個模型在未來要做決策時所使用的新資料。

為了用恰當的方式來訓練預測模型,歷史資料必須符合特別廣泛且高品質的標準。首先,資料必須是正確的:它必須正確、恰當地標示、已去除重複內容等。但你也必須有對的資料,也就是要有許多無偏誤的資料,而且你打算開發的預測模型所需要輸入的所有範圍的資料,都必須包括在內。大多數的資料品質管控工作,只著重在上述兩個標準的其中之一,但對機器學習來說,你必須同時採用這兩個標準。

只是在今日,大部分資料都不符合基本的「資料是正確的」標準。原因有很多,像是產生資料的人不了解該怎麼做、沒有好好校準的衡量工具、過度複雜的流程、人為過失等。為彌補這些缺失,資料科學家在訓練預測模型之前,會先清理這些資料。清理工作很耗時間(約占