四個問題,啟動數據驅動決策

Data-Driven Decisions Start with These 4 Questions
艾瑞克.霍勒 Eric Haller , 格雷格.賽特爾 Greg Satell
瀏覽人數:3924
若沒有考慮到情境,數據可能會讓你誤入歧途。我們要從數據中得到有用的答案,就必須學習如何提出深思熟慮的問題。我們必須知道數據來源、用來分析數據的模型,以及遺漏了什麼。最重要的是,不能只是運用數據來改善營運,還必須利用數據,來設想新的可能性。畢竟,數據如果運用得宜,就能帶來真正的競爭優勢,讓業務朝全新的方向發展。

數據資料已成為我們現在經營事業方法的核心。其實,全球市場情報公司國際數據資訊(International Data Corporation,IDC)推算,資料與分析方面的支出會在2022年前達到2,743億美元。然而,其中很多經費並未明智地運用。顧能(Gartner)分析師尼克.海德克(Nick Heudecker)估計,高達 85% 的大數據計畫都失敗了。

這個問題的一大部分在於,電腦螢幕上顯示的數字有一種特別的權威氣息。數據一旦從大型資料庫中抽取出來,再經過複雜的分析軟體分析之後,我們就很少詢問它的來源、經過什麼修改,或者是否符合我們想達到的目的。

事實是,我們若要從資料中得到有用的答案,就不能輕易對資料信以為真。我們必須學習如何提出深思熟慮的問題。我們尤其必須知道資料的來源、用來分析資料的模型,以及遺漏了什麼。最重要的是,我們不能只是運用資料來改善營運,還必須利用資料來設想新的可能性。

我們可以從提出以下這些問題著手:

問題1:數據的來源?

據說,數據是軼聞的複數型。真實世界發生的事件,例如交易、診斷與其他相關資訊,都被記錄並保存在巨型的伺服器農場中。然而,只有少數人會費心詢問數據從何而來,而遺憾的是,蒐集到的數據品質與處理的謹慎程度,都可能有極大差異。其實,顧能最近一項研究發現,公司因為數據品質不良,平均每年損失1,500萬美元。

數據經常會受到人為錯誤的影響,例如由低薪且缺乏工作動力的零售店員盤點存貨。然而,即使是自動化進行的數據收集流程,也會有重大的錯誤來源,例如行動通訊基地台斷斷續續停電,或金融交易清算過程中的錯誤。

品質不良的數據,或是被運用到錯誤情境中的數據,可能比完全沒有數據還糟糕。一項研究發現,某一家零售商的庫存數據其實有 65% 都不正確。自歐盟通過了嚴格的GDPR數據標準後,還加重了另一項擔憂,那就是收集數據時是否有真正取得同意。

所以,別直接預設你擁有的數據是正確的,而且品質優良。你必須詢問數據的來源與之前的維護方式。我們日益需要用審核金融交易同樣的謹慎程度,來審核數據交易。

問題2:數據的分析方式?

即使數據正確且維護良好,分析模型的品質也可能有極大差異。模型通常是從不同的開放原始碼平台如GitHub匯集而來,之後再改變用途,用來完成某項特定任務。不久之後,每個人都會忘記模型的來源,或它如何評估一組特定的數據集。

這種失誤比你所認為的還要常發生,而且可能造成嚴重損害。考慮看看這個情形,兩位著名經濟學家出版了一份研究報告,警告美國國債已接近臨界金額。他們的研究捲起一陣政治風暴,但最後證實,他們在Excel軟體上犯了一個簡單錯誤,導致高估債務對國內生產毛額(GDP)的影響。

隨著模型變得更加複雜且納入更多來源,模型訓練的方式發生更嚴重的問題,也變得更常見。最常見的錯誤之一是過度配適(overfitting,或稱過度擬合),基本上這是指你用來創造模型的變數愈多,這個模型就更難廣泛有效運用。某些情形下,過多數據會導致數據洩漏(data leakage),這種情形中,訓練數據與測試數據會混在一起。

即使是最先進的公司也會受這種錯誤折磨。亞馬遜(Amazon)與Google是最知名的兩個案例,最近都傳出與模型偏差相關的醜聞。我們在處理數據時,必須不停針對模型提出困難的問題。我們想運用一些模型來達成某個目的,這些模型是否合適?模型考慮納入的因素是否恰當?輸出結果是否確實反映出現實世界發生的情形?

問題3:數據沒有告訴我們什麼?

數據模型就像人類一樣,往往也是根據最容易取得的數據來進行判斷。有時候,你缺乏的數據對決策產生影響的程度,與你擁有的數據一樣。我們一般會將這種類型的可取得性偏誤(availability bias)連結到人類決策上,但人類設計師經常也會將這種偏誤傳給自動化系統。

例如在金融業中,擁有豐富信用紀錄的人,比缺乏信用紀錄的人更容易取得信用。後者通常被稱為「信用數據不足」(thin-file)的客戶,他們可能會發現自己很難買到車、租到公寓或取得信用卡。(本文作之一格雷格在海外待了15年之後回到美國,就親身遭遇這個問題)

然而,信用數據不足並不一定表示信用風險很大。公司拒絕有獲利潛力的顧客,常常只是因為缺乏那些顧客的數據而已。最近,信用監控公司益博睿(Experian)開始運用Boost計畫來處理這個問題,讓顧客可以從定期繳納電話費與水電瓦斯費之類的活動,取得信用,藉此提高他們的信用分數。至今,已有數百萬人註冊。

所以很重要的是,提出困難的問題,詢問你的數據模型是否有疏漏。如果要管理你衡量的指標,你就必須確保衡量的那些指標能反映真實世界的情況,而不僅是最容易收集的數據。

問題4:可以如何運用數據來重新設計產品與商業模式?

過去十年來,我們已知道數據可以如何協助我們更有效率地經營企業。有智慧地運用數據,讓我們能將流程自動化、預測機器何時需要維護,以及提供顧客更好的服務。數據讓亞馬遜能做到當日發貨。

數據也能成為產品本身的重要部分。網飛(Netflix)是著名的例子,它長期運用智慧數據分析,以更少花費來製作更好的節目。這讓網飛獲得重要優勢,贏過迪士尼(Disney)與華納媒體(WarnerMedia)這些對手。

但真正令人興奮的時刻,是能夠運用數據徹底重塑你的企業。本文作者之一艾瑞克服務的益博睿,過去只能以信用報告的方式傳送處理過的數據,現在則可以轉變為運用雲端技術,讓顧客即時看到更詳盡的數據,信用報告就是根據這些詳盡資訊產出的。這也許看起來是很細微的轉變,但已成為益博睿成長最快速的業務之一。

據說數據是新的石油,但數據的價值更高得多。我們勢必不能繼續只將數據視為消極型資產。如果運用得宜,數據能提供真正的競爭優勢,讓業務朝全新的方向發展。但為了達成這一點,你不能只是從尋找答案開始著手。你必須學習如何問出對的問題。

(游樂融譯)



艾瑞克.霍勒 Eric Haller

益博睿(Experian)數據實驗室執行副總裁與全球負責人,該公司運用人工智慧與數據資產進行突破性實驗,以開發創新的產品。


格雷格.賽特爾 Greg Satell

國際性的主題演講人和顧問,著有暢銷書《層層推進:如何創造可推動改造式變革的運動》(Cascades: How to Create a Movement that Drives Transformational Change)。他之前的著作《創新之道:優遊於破壞式時代的教戰手冊》(Mapping Innovation: A Playbook for Navigating a Disruptive Age),被選為2017年最佳商業書籍之一。


本篇文章主題數據資料