4/4 可免費閱讀文章篇數免費閱讀

本文出自

我如何再造奇異

我如何再造奇異

2017年9月號

資料科學對你沒價值?

Why You're Not Getting Value from Your Data Science
瀏覽人數:3088
  • "資料科學對你沒價值?"


  • 字放大
  • 文章授權
    購買〈資料科學對你沒價值?〉文章授權
  • 購買文章
    購買〈資料科學對你沒價值?〉PDF檔
    下載點數 10
資料科學對你沒價值?
以更快的速度,建立簡單的模型。

現在,企業不斷產生大量的數據資料,但那不一定可以轉化成可操作的資訊。在過去幾年裡,我和我在麻省理工學院(MIT)的研究小組,一直在尋找一個根本問題的答案:企業如何透過機器學習,來發揮資料儲存庫的完整潛力?

我們與各種產業的伙伴合作,設計以機器學習為主的解決方案,過程中很驚訝地發現,這個問題的現有答案通常不適用。為什麼?

首先,我們與機器學習專家談論他們工作中最困難的部分時,這些專注於訓練和測試預測模型的資料科學家都一再表示,「資料很混亂。」起初,我們按字面理解這句話,以為是指資料眾所周知的問題:缺少價值,或是資料庫之間缺乏一致性。但當我們更進一步探究,就了解到這個問題有些不同。以最原始形式存在的資料,即使是正確無誤的資料,乍看之下仍太過龐大和複雜,連專家都很難理解。它有太多表格和欄位,而且通常是根據極高的細微度(granularity)來收集;例如,線上點擊流每次點擊都會產生新資料,而感測器收集每秒觀察125次的資料。機器學習專家一向使用已匯集成一些有用變數的資料,例如使用者的網站訪問次數,而不是呈現使用者在網站上採取的每項行動的表格。

同時,我們經常聽到業務專家抱怨「我們有很多資料,卻沒有利用它們做任何事情。」進一步調查顯示,這也不完全正確。相反地,這種挫折源自兩個問題。首先,針對一個機器學習的問題而去了解、擬定、處理資料,需要花時間,因此機器學習專家通常會改為專注在這個資料處理流程的後半部分:嘗試不同的模型,或是在擬定問題後,調整模型的超參數,而不是針對不同的業務問題,擬定較新的預測問題。因此,雖然業務專家提出問題,機器學習專家卻不一定能跟上腳步。

其次,機器學習專家在執行工作時,通常並未以「獲取商業價值」這個最終目標為中心。在大多數情況中,預測模型的用意是增進效率、提高營收,或是降低成本。但實際上,致力於這種模型的人很少會問:「這個預測模型提供什麼價值,我們要如何衡量它?」提出這個有關價值主張的問題,通常導致原始問題的擬定出現改變,而提出這類問題,經常比調整流程的後期階段更有用。在最近一個由機器學習熱愛人士參與的小組中,我對大約150位觀眾進行意見調查,詢問:「你們有多少人已建立機器學習模型?」有大約三分之一的人舉手。接下來,我問道:「你們有多少人已設置和(或)使用這個模型來產生價值,並加以評估?」沒有人舉手。

換句話說,機器學習專家想要花時間建立模型,而不是處理大量資料組,也不是要把業務問題轉化為預測問題。同樣地,目前商業和學術上的技術領域,都聚焦在透過潛在變數模型(Latent variable modeling),促成更複雜的模型;透過分散式運算,來調整模型學習演算法的規模;或是透過貝葉斯超優化(Bayesian hyper optimization)來微調。這些其實就是資料處理流程的所有後期階段。但根據我們的經驗,這個焦點是錯的。

如果公司想從他們的資料取得價值,就應聚焦在加速人們對資料的了解,擴大在短時間內可詢問以該資料建立模型的相關問題的數量,並評估它們的影響。我們與各公司合作時,最終認為,若要透過機器學習創造真正的影響,就應聚焦在四個原則上:

堅持使用簡單模型:我們認為,簡單的模型,像是邏輯迴歸,或者是基於隨機森林(random forest)或決策樹的模型,都足以解決手邊的問題。重點應該是縮短從取得資料,到開發第一個簡單的預測模型之間的時間。

探索更多問題:資料科學家要能夠快速輕鬆地界定、探索多個預測問題。公司不該用一個出奇複雜的機器學習模型,來探索一個業務問題,而應該探索數十個問題,為每個問題建立一個簡單的預測模型,並評估他們的價值主張。

從資料樣本,而不是從所有資料來學習:不要聚焦在如何應用分散式運算,來讓任何單一處理模組去處理大數據,而要投資一些技術,以便從資料子樣本取得類似的結論。避免運用大量運算資源,就能探索更多假設。

聚焦在自動化:為確實縮短推出第一個模型的時間,並提高探索速度,公司必須把通常由人工完成的流程自動化。在不同的資料問題上,我們發現都是運用類似的資料處理技術,無論是把資料轉換為有用的匯聚資料,或是為建立預測模型而準備資料,都是如此。現在正是時候,應該簡化這些處理資料的做法,並且開發演算法、建立軟體系統,以便自動化執行這些做法。

我們深入了解資料科學家如何與資料互動,以及瓶頸在哪裡,於是在麻省理工學院推出「人力資料互動專案」(The Human-Data Interaction Project),並把焦點集中在上述目標。我們的目標,是快速探索預測模型,並實際運用這些模型,來解決真實組織中的真實問題。這些模型是簡單的,而即使是沒有經驗的使用者,也能透過自動化而在幾小時內開發數百個、甚至數千個預測模型。而現在的專家要花整整好幾個月,才能做到這種程度。

(林麗冠譯自2016年12月7日HBR.org數位版文章)



本篇文章主題分析

你可能還會想看