數據資料從源頭開始改善數據品質

從源頭開始改善數據品質

To Improve Data Quality, Start at the Source

「清理數據」不再是有效處理數據品質的主要方法。主管和團隊必須採用新的思維,把重點放在第一次就正確創造數據,以確保整個過程的品質,而不是透過尋找和更正錯誤,來解決數據品質。你需要以一種新的方式,看待自己和團隊在數據上扮演的角色,同時找出錯誤的根本原因,再予以解決,讓錯誤一勞永逸地消失。這麼做了之後,你會感謝自己。
若是沒有高品質的數據,你的公司就無法完成任何重要的事情,而大多數人都深深懷疑,自己的數據不符合最高標準。他們會竭盡全力清理數據,安裝軟體以便自動發現錯誤,並且向外部來源尋求確認,我把這類做法稱為「隱藏的數據工廠」(the hidden data factory)。這是耗費時間且所費不貲的工作,而且大多數時候成效並不好。
更糟的是,清理工作永遠無法結束!想像一下,你已經完美清理了自己現有的全部數據,但並沒有從源頭解決品質不良的問題。你取得新的數據時,也會得到影響你工作的新錯誤。你和你的團隊會再次浪費時間處理錯誤。到了這個時候,清理已經不再是有效處理數據品質的主要方法。
主管和團隊不應透過尋找和更正錯誤,來解決數據品質的問題,而應該採用新的思維,把重點放在第一次就正確創造出數據,以確保整個過程的數據品質。領導人若是認真想要在全公司培養數據驅動的心態、推行數據科學、將數據轉化為收入,或甚至只是努力要變得更有效率,第一步就必須是採取這種新方法,並推動新方法所需要的變革。你必須用新的方式看待自己和團隊在數據上扮演的角色,同時找出錯誤的根本原因,並毫不留情地處理那些錯誤,讓錯誤永遠消失。
想消除大多數的