找資料科學家之前必問的問題

The Question to Ask Before Hiring a Data Scientist
麥可.李 Michael Li
瀏覽人數:3395

講到要聘用資料科學家,最擔心的大概就是所聘非人。資料科學家不僅是出了名的搶手、難以討好,而且還得付出高額薪資,所以一旦聘錯人,代價真是不小。我們的資料人才培訓公司The Data Incubator已有數十家公司前來洽談,想聘用曾接受培訓的資料科學家。這些客戶規模有大有小,大到如輝瑞藥廠(Pfizer)和摩根大通(JPMorgan),也有規模較小的新創公司,如Foursquare和Upstart。公司如果聘用員工的經驗還不夠豐富,常常就問不到一個關鍵的問題:

你們的資料科學家,做的是機讀分析(analytics for machines)還是人讀分析(analytics for humans

這項區別無論任何公司、產業或職稱(我們的學員受聘的職稱種類繁多,從計量人員、資料科學家、分析師到統計員都有),都同樣適用。遺憾的是,人事主管大多並不知道這些角色需要不同的才能及性格。

雖然資料科學家分類繁多,並不只有這一項,但就公司聘用來說,這是最大的重點之一。以下解釋兩者的差異及重要性:

機讀分析人員:在這種情況中,最後是由電腦來使用分析結果、做出決定。例子包括像是供線上廣告或網路內容來鎖定使用者、演算法交易、產品推薦等等。

這些資料科學家做的是建立起非常複雜的模型,要輸入極大量的資料,再從中找到很細微的跡象,供機器學習、推演複雜的演算法。這些數位模型必須能自行運作,選擇要顯示哪些廣告、對使用者做出建議,或是自動進行股市交易,常常在一眨眼間就已完成決定。

要產生可機讀分析資料的資料科學家,必須有極強大的數學、統計及運算知識,才能打造速度快、預測準確的模型。他們通常會取得明確的數據(例如利潤、點擊數、採購額),再運用各種技術,打造出非常複雜而能夠改善工作效能的模型。現實生活有幾兆件的事件、幾百萬的使用者,就算只是小小的進步,也能讓結果大大不同,因此這些人的工作能夠讓利潤突飛猛進。

人讀分析人員:在這種情況中,最後是由另一個人類來使用分析結果、做出決定。例子包括分析產品的效果、理解使用者人數成長和留住顧客的成果、為客戶寫出報告等等。

雖然說他們和機讀分析人員可能用的是同一套大資料,但他們的模型演算結果和預測最後是交給另一個人類(而且這個人通常並不是資料科學家),由這個人依據推薦來做出各種產品及業務上的決定。

從事人讀分析的資料科學家,得想想如何用資料來說故事。因為他們得把結果解釋給其他人聽(特別是看不懂資料科學的人),所以他們很可能會刻意選擇比較簡單的模型,而不是那些雖然精準但太過複雜的模型。他們也必須能夠提出一些較高層次的結論,像是「如何」和「為何」。這些問題並無法從資料中一眼得見,不像是那些機讀分析人員能有明確的數據為依據。

對於這兩種不同的工作,必須要分別找到對的人。我們發現,如果需要的是機讀分析人員,這種資料科學家通常具有自然科學、數學或工程背景(常常具備博士教育水準),嫺熟數學及電腦運算,才能應付這種高檔次工作。如果員工缺少必需的技術技能,面對大量資料不是完全無法處理,就是使用了過度簡化的模型,無法讓資料真正發揮價值。

然而,如果是要找人讀分析人員,上面的這種人卻可能並不適合。如果找了一群麻省理工的物理學家,卻規定他們只能用「簡單」、主管聽得懂的模型來做事,這可不算人盡其用(特別是這些人常常渴望機器學習那種高深的挑戰)。另一方面,如果是社會學科或醫學科學家(多半也需要博士等級),他們的訓練讓他們很能抓住「如何」和「為何」,常常也正是在相關難題上大顯身手。

在過去,一般都是硬科學背景的資料科學家在媒體上受人注目。這種情況有一部分原因是對於未知的浪漫想像:一邊是神祕的模型,能像魔法一樣進行股票交易、或是立刻瞭解使用者的喜好,聽起來多麼令人心動。而另一邊則就是坐在那裡想破頭,思考著因果關係、取樣偏誤,還有資料裡的「如何」和「為何」,聽起來就是沉悶的工作。然而,後者卻也可能是你真正需要資料科學家替你做的工作。在還沒開始聘任過程前,只要先問一下這個關鍵問題,公司就能不隨波逐流,而能真正針對自己的需要、尋得最符合的資料科學家。(林俊宏譯)



麥可.李

麥可.李 Michael Li

麥可.李(Michael Li)是一位資料科學家,曾任職於Google、Foursquare以及Andreessen Horowitz,目前是The Data Incubator的創辦人及執行董事。


本篇文章主題聘僱