分析資料科學對你沒價值?

資料科學對你沒價值?

Why You're Not Getting Value from Your Data Science

以更快的速度,建立簡單的模型。
現在,企業不斷產生大量的數據資料,但那不一定可以轉化成可操作的資訊。在過去幾年裡,我和我在麻省理工學院(MIT)的研究小組,一直在尋找一個根本問題的答案:企業如何透過機器學習,來發揮資料儲存庫的完整潛力?

我們與各種產業的伙伴合作,設計以機器學習為主的解決方案,過程中很驚訝地發現,這個問題的現有答案通常不適用。為什麼?

首先,我們與機器學習專家談論他們工作中最困難的部分時,這些專注於訓練和測試預測模型的資料科學家都一再表示,「資料很混亂。」起初,我們按字面理解這句話,以為是指資料眾所周知的問題:缺少價值,或是資料庫之間缺乏一致性。但當我們更進一步探究,就了解到這個問題有些不同。以最原始形式存在的資料,即使是正確無誤的資料,乍看之下仍太過龐大和複雜,連專家都很難理解。它有太多表格和欄位,而且通常是根據極高的細微度(granularity)來收集;例如,線上點擊流每次點擊都會產生新資料,而感測器收集每秒觀察125次的資料。機器學習專家一向使用已匯集成一些有用變數的資料,例如使用者的網站訪問次數,而不是呈現使用者在網站上採取的每項行動的表格。

同時,我們經常聽到業務專家抱怨「我們有很多資料,卻沒有

本篇文章主題

分析

更多關聯主題