數據資料從大格局發現關鍵線索─《大數據》浪潮下的未來

從大格局發現關鍵線索─《大數據》浪潮下的未來

不久前,國際知名學者、《大數據》的作者麥爾荀伯格訪台,掀起大家對這個新學門的關注。大數據,正式名稱是巨量資料,它可說是一門「新統計學」。要介紹它,必須從傳統的統計學講起。

不久前,國際知名學者、《大數據》的作者麥爾荀伯格訪台,掀起大家對這個新學門的關注。大數據,正式名稱是巨量資料,它可說是一門「新統計學」。要介紹它,必須從傳統的統計學講起。

傳統的統計學,一言以蔽之,就是「合理的以偏概全」,也就是用很合理的方式,選取少數個體的資料,來概括和描述我們想知道的總體。這個總體,是任何我們有興趣了解的群體,在統計學上稱為母體;而少數個體,就稱為樣本。由於在過去,我們幾乎找不到很有效的方法,可直接了解母體的行為和特質,於是「在沒有辦法中的辦法」,就發展出統計學:

一、統計學家發現了種種很合理的統計技術,先從母體中抽出樣本,再用樣本推估母體。

二、費心費力得到的樣本數量很有限,每一筆資料必須非常精確。譬如每一份民意調查的樣本數,不過一千筆左右,這一千筆資料都必須透過精密的問卷設計或細膩的訪談技巧,來確保筆筆都是正確無誤。

三、透過統計調查,我們希望能找出兩種已知的變數(人、事、物)之間的關係,也就是找出「相關性」。甚至,我們不滿足於只獲得相關性( A與 B相關),只能知道「是什麼」(what)有關聯,於是進一步設計實驗,想釐清這兩種變數之間的因果關係(A是因、 B是果?或者...

本篇文章主題

數據資料

更多關聯主題