4/4 可免費閱讀文章篇數免費閱讀

本文出自

最佳執行長哪裡不一樣

最佳執行長哪裡不一樣

2017年5月號

讓資料為你產生價值

陳昇瑋解讀〈架構你的資料策略〉
陳昇瑋 Sheng-Wei Chen
瀏覽人數:15773
「大數據」近年成為熱門關鍵詞,許多企業卻發現,花費預算大量蒐集資料,資料卻沒有為企業產出預期價值。不少企業老闆因此覺得「大數據」不過是空談。《哈佛商業評論》全球繁體中文版邀請中央研究院資訊科學研究所研究員暨台灣資料科學協會理事長陳昇瑋,從本期〈架構你的資料策略〉一文出發,為讀者「科普」資料運用如何產生價值,幫助企業跨越資料管理挑戰。

「大數據」近年成為熱門關鍵詞,許多企業卻發現,花費預算大量蒐集資料,資料卻沒有為企業產出預期價值。不少企業老闆因此覺得「大數據」不過是空談。《哈佛商業評論》全球繁體中文版邀請中央研究院資訊科學研究所研究員暨台灣資料科學協會理事長陳昇瑋,從本期〈架構你的資料策略〉一文出發,為讀者「科普」資料運用如何產生價值,幫助企業跨越資料管理挑戰。

儘管「大數據」等名詞近年在台灣十分熱門,但台灣企業絕大多數對「資料」(data)的認識並不深。因而,儘管〈架構你的資料策略〉(What's Your Data Strategy)這篇文章的觀點十分有趣,相信文中提到的攻守平衡策略,對許多台灣企業來說,距離實際應用應該還有相當的時間差。

舉例來說,本文兩位作者林卓.達勒穆爾(Leandro DalleMule)和湯瑪斯.戴文波特(Thomas H. Davenport)提到資料管理的兩種策略:在資料管理採取守勢的企業,致力建構「單一真相來源」(single source of truth, SSOT),也就是把資源投注於識別、標準化和治理原始資料等工作上;而有意在資料策略上採取攻勢的企業,資料管理則除了SSOT之外,更將SSOT經過與應用相契的運算,把資料擴大到「多個真相版本」(multiple versions of the truth, MVOTs)。

而進一步在資料分析時,更可以整合不同的資料來源,例如外部的消費者與市場資料,進行資料挖掘,以產生市場洞察,提高獲利或業務成長。

然而,就我的觀察,儘管在台灣占有領先地位的金融業、電子商務與科技製造業業者,近年已經投注不少資源在資料管理上,但大部分頂多做到事業部門層級的SSOT,還做不到企業整體的SSOT。但如果SSOT都還沒有準備好,就更難談進一步整合SSOT與MVOT,讓資料為企業產生商業價值了。至於設有「資料長」,提出整體資料策略的企業,更是少之又少。

關鍵恐怕在於,多數台灣企業還沒有真的認識「資料」如何才能夠產生價值。

資料管理認識不足,大數據成為泡沬

為了理解台灣對資料管理的認識程度,我曾利用Google 的開放資料做過統計,將包括台灣在內等29個主要經濟體,在網路搜尋「大數據」(Big Data)、「深度學習」(Deep Learning)與「機器學習」(Machine Learning)等關鍵詞次數分別加總、依人口給予權重,並進行排序。在我看來,使用「大數據」等關鍵詞,攸關的是人們對於資料蒐集的關切程度;而「深度學習」與「機器學習」等關鍵詞則攸關人們對於資料使用如何才能產生價值的關切程度。結果發現,台灣搜尋「大數據」等攸關資料蒐集的次數,在29個經濟體中名列第一。顯示台灣人的確關心「資料」這件事。

但是,如果進一步將代表資料蒐集和資料價值的兩組關鍵字的統計比對,並計算兩者之間的比值,會發現,台灣排序是29個經濟體中倒數第2。也就是說,台灣人關切大數據等攸關資料蒐集的關鍵字,和關切機器學習等攸關資料價值的關鍵字,落差程度遠高於其他27個國家,顯示我們對於資料運用的理解程度不高(見表:「台灣企業蒐集資料,卻不會運用資料」)。而南韓、日本等國家,不僅關切大數據,更關心擁有大數據之後,如何運用這些資料來產生價值。

資料本身是沒有價值的。大數據要產生價值,除了擁有資料,還要有適當人才,以適切方法進行分析。企業如果平時只用Excel進行資料管理,或只有傳統的MIS資訊管理系統與網路管理人力,就希望大數據產生價值,就像只有十字鎬就希望在礦坑挖出黃金一樣,不切實際。

同樣是「資料」,價值大不同

資料管理最難的,並不是工具與方法。不是談如何建構資料等資料基礎建設,也不是蒐集資料本身,事實上,很多資料是買得到的。資料管理最難的,是「如何讓資料產生價值」。

資訊科技研究及顧問機構顧能(Gartner)將資料運用依據難度分為四階段:描述型分析、診斷型分析、預測型分析與指示型分析。這四種資料運用階段,分別要解決「發生了什麼?」「為什麼發生?」「未來是否發生?」「如何讓它發生?」(見表:「資料分析運用四大階段」)

舉個例子。中研院資訊科學研究所資料洞察實驗室與網路零售業者博客來合作,運用博客來在 2014年12月至2016年3月間的匿名購書資料,結合政府資料開放平台數據,包含各個地區的綜合所得稅申報情況、教育程度、2016年總統大選得票數等,探討購書行為和讀者生活形態的相關性,將不同購書客群之間的「差異性」數據化。透過資料分析的方法,試圖去回答幾個關鍵問題:「究竟是誰在買書?」「為什麼有些書賣得好、有些則不?」「能不能預測新書的銷售表現?」「要做什麼事,才能提升書的銷量?」四個問題,對應了資料分析的四個階段:描述、診斷、預測與指示。

結果非常有趣。相較其他行業,出版業過去對資料分析與運用較少,許多出版社在出新書時,對於「誰在買書」這個問題,向來倚重的是行銷或編輯部門過去經驗,而非數據。例如,編輯會以為,愛看小說的是文青,而愛買理財書的是手上有點閒錢卻不是那麼有理財知識的族群等。但資料分析告訴我們,將買同一本書的讀者視為同一族群並不合理,例如,以看小說的人來說,看「金庸」武俠小說的人,同時存在15歲以下的青少年,和四十到五十歲的中年人兩大客群;而同樣是成功法則的書,資料顯示25 歲以前偏好購買「生涯規畫」類的成功經驗,而三十歲之後改買如何「致富」。而另一方面,低收入族群偏向購買「投資理財」、「網路創業」的書籍,高收入族群則偏向購買「傳記」和「快樂學」。

至於「什麼樣的書才會賣?」我們以「書名」作關鍵字分析,結果發現,醫療保健類書籍,書名有「養生」的書賣得反而不好,而有「名醫、改善、療法、奇蹟」這類關鍵字的書名能抓住讀者的眼球與荷包;有趣的是,同樣是「輕鬆」這個關鍵字,在理財類可以讓書好賣,但放在語文學習類則有反效果。

但資料分析做到這裡,也只是做到描述與診斷,還沒有做到預測與指示。如果,再進一步建立模型,例如,依據「書籍屬性」、「書名關鍵字」及「上市前的市場狀況」來發展暢銷書預測,以文學小說類別來說,機器學習模型在書籍未上市前預測暢銷書的準確度,可以到達八成。

最後,資料分析的第四個工作階段是透過程式與人工智慧的指示,提供最佳化建議,幫助出版社來下決定。例如,書名及副標怎麼下、書介如何編排、新書在網路上預覽圖片應該要放哪幾張、如何訂價及提供折扣等。有時資料分析的結果很殘酷,會顯示過去在編輯與行銷上的直覺並不符合現實,有時則能佐證過去經驗與判斷的可信度。但擁有預測能力的出版社,就可以大量節省資源浪費,並擁有更佳競爭力。

資料分析不只可以用在出版業,更可以在各行各業運用。例如,餐飲連鎖業可以用於精準選擇店址、調整菜單;製造業可以用於預測需求、提高良率等,範圍非常廣泛。

如何突破資料運用門檻

我認為,對台灣企業來說,資料運用最困難的,並不是如何收集資料,很多資料是買得到的;困難也並不在於如何建置資料管理基礎架構,因為這也是花錢可以解決的。對企業來說,真正困難的,恐怕是找到對的「人才」。

資料科學這十年才因為大數據及人工智慧的發展,快速進展。資料科學家的工作是跨越「數學與統計」、「程式與資料庫管理」、「溝通與資訊視覺化專業」以及「領域知識」等四大領域的新型人才,目前在人才市場供需失衡,在各國都十分搶手。

企業資料長的主要工作是管理這些資料科學家,並訂出資料運用策略,有能力同時連結資料與市場,讓資料科學家與其他部門協同合作,讓資料產生價值。

但是,放眼台灣,有多少企業已雇用了資料科學家和資料長呢?更常見的情況是企業老闆責成MIS部門主管或資訊長,「你去研究一下!」但是在傳統企業的MIS(Management Information System)部門,工程師的專業多為「系統、網路與資料庫管理」,對其他三個領域了解不多。

於是,企業光是要找到對的人就是大問題;找不到適當的人才,自然就難以談到如何選對人才、工具與方法,讓資料管理、分析與運用上軌道。

另外一個挑戰,則是即使找到了能做資料分析的人才,很可能他們也無法適應企業對資料運用的期望。因為資料分析往往是「探險」的過程,資料科學家在涉入某個領域時,事前也無法精確預測分析的成果。如果企業將資料管理投資報酬率(ROI)視為關鍵指標,要求資料科學家直接將預測結果與營收表現連結,那麼這樣的投資很可能就不會發生。舉例來說,連鎖餐飲選址,模型可以告訴你這個位置更好,但是不是保證賺錢?就涉及更多變因。模型可以幫忙挑選導演、演員及劇本,但是一部電影要賣座取決於更多的外部因素,因此,預測型分析很多時候只能做為決策參考,卻不能保證獲利。

對於資源有限的中小企業來說,如果能夠將問題定義得很清楚,在已經掌握資料的情況下,能建立內部團隊是最好的,但若資源有限,也不一定要有內部團隊,與外部資料科學團隊合作,通常能夠在幾個月內獲得有用的分析成果。(採訪整理:李郁怡)



陳昇瑋 Sheng-Wei Chen

現為台灣資料科學協會理事長、中央研究院資訊科學研究所研究員暨資料洞察實驗室主持人,研究領域為大數據分析、深度學習、計算社會科學及多媒體系統。


本篇文章主題分析

你可能還會想看