本文出自

實驗打造高效率創新

實驗打造高效率創新

2020年3月號

建立實驗文化:除了善用工具,更要翻轉態度

Building a Culture of Experimentation
史蒂芬.湯克 Stefan Thomke
瀏覽人數:4734
  • "建立實驗文化:除了善用工具,更要翻轉態度"

  • 字放大
  • 授課文章購買
    購買〈建立實驗文化:除了善用工具,更要翻轉態度〉文章
  • 個人收藏購買
    購買〈建立實驗文化:除了善用工具,更要翻轉態度〉PDF檔
    下載點數 10
擴大組織實驗規模的能力極為重要,但很多企業難以做到,不是因為技術,而是企業文化。因此,企業必須創造這樣的環境:員工能培養好奇心、資料勝過人的意見、民主領導模式。而高階主管也必須正視每天都可能面對自己想法被證明是錯誤的情況。

2017年12月,就在假期旅遊旺季即將來臨之前,Booking.com設計總監提出一項激進的實驗:測試公司首頁的全新版面。新的首頁不再提供許多飯店、度假租賃和旅遊方案的選項,而是只有一個小視窗,詢問訪客要去哪裡、日期和團體人數,並提供三個簡單的選項:「住宿」、「航班」和「租車」。Booking.com多年來投注許多心血優化的所有內容和設計元素(圖片、文字、按鈕、訊息),全都將被移除。

Booking.com當時的執行長吉莉安.譚斯(Gillian Tans)對此抱持懷疑態度。她擔心這項改變可能導致忠實顧客感到混淆。當時擔任公司核心實驗團隊負責人的盧卡斯.維米爾(Lukas Vermeer)打賭一瓶香檳,認為這個測試會「沉沒」,也就是說它會拉低公司的關鍵績效指標:顧客轉換率,這是指進行預訂的網站訪客人數。即使瀰漫著這種悲觀態度,為何高階管理階層依舊不駁回測試?因為這樣做會違反Booking.com的核心宗旨之一:公司裡的任何人都可以進行任何測試,不必獲得主管許可。

靠網路實驗改變遊戲規則

Booking.com通常會同時進行超過一千項嚴謹的測試,而據我估計,每年進行超過25,000項測試。在任何一段時間裡,都會有登陸頁面的數千兆種排列組合在運作,這表示位於同一地點的兩名顧客,也不太可能看到相同的版本。所有這些實驗,已協助Booking.com在不到二十年的時間裡,從一家小型的荷蘭新創公司,變成全球最大的網路住宿平台。

Booking.com不是唯一發現網路實驗力量的公司。亞馬遜(Amazon)、臉書(Facebook)、Google和微軟(Microsoft)等數位巨擘也都發現,網路實驗在行銷和創新方面,擁有改變遊戲規則的力量。例如,網路實驗協助微軟的Bing部門,每月進行數十次的改善,而這些改善合起來,讓平均每次搜尋所產生的營收每年提升10%至25%(見〈價值上億的線上實驗〉(“The Surprising Power of Online Experiments,” HBR, September-October 2017;全球繁體中文版刊登於2017年9月號)。沒有數位根源的公司,包括聯邦快遞(FedEx)、州立農業保險公司(State Farm)和H&M,也都採用網路實驗,利用它來找出最佳的數位接觸點、設計選擇、折扣和產品推薦。

智遊網(Expedia Group)執行長馬克.奧克斯特魯(Mark Okerstrom)告訴我:「在日益數位化的世界,如果你不進行大規模實驗,長期來看,就是死路一條;對很多產業來說,甚至短期就會如此。無論什麼時候,我們都有數百、甚至數千個實驗同時在進行,其中牽涉到數百萬的網站訪客。因此,我們不必猜測顧客想要什麼;我們有能力一次又一次進行現今規模最龐大的『顧客意見調查』,讓他們告訴我們自己想要什麼。」

但是,我在研究十幾個組織,並分析超過一千組實驗的匿名資料之後,發現Booking.com、智遊網及類似組織其實是例外。許多公司並沒有每年進行數百或數千個線上實驗,實際上有做的實驗可能不到幾十個,而且產生的影響很小。

如果測試這麼有價值,企業為什麼不多做一些?我曾花費數年研究這個問題,因此可以告訴你,核心原因在於企業文化。公司試圖擴大線上實驗能力時,經常會發現障礙不是工具和技術,而是共同的行為、信念和價值觀。每一個成功的實驗,幾乎會伴隨十個失敗的實驗,而許多強調效率、可預測性、「致勝」的組織認為,這些失敗都是浪費。

若要成功創新,企業必須把實驗當成日常業務的一個核心部分,即使預算吃緊也要做實驗。這意味要創造一種環境,在當中培養員工的好奇心,數據資料勝過人的意見,任何人(不僅是研發人員)都可以進行測試或委託測試,所有實驗都應符合道德標準,而且主管應採用新的領導模式。在本文中,我將介紹幾家在這些方面做得很好的公司,尤其是Booking.com,該公司擁有我迄今所見最強大的實驗文化之一。

培養好奇心

把失敗當成學習機會,而不是錯誤

組織裡的所有人,從主管以降的每一個人,都必須重視意料之外的事物,儘管很難衡量它們的金錢價值,也無法預測它們何時會發生、發生的頻率。公司如果採取這種心態,好奇心就會占據上風,而人們會把失敗視為學習的機會,而不是代價高昂的錯誤。

實際上,進行大量實驗的風險,要比進行少量實驗的風險低。如果一家公司一年僅進行少量實驗,其中可能只有一個實驗成功,或者也可能全軍覆沒。在這種情況下,失敗就會是件大事。

一個經典的例子,來自亞馬遜修改旗下手遊「愛國者」(Air Patriots)時發生的意外事件。該遊戲玩家扮演的角色,要利用飛機中隊來保護一些塔免遭敵人攻擊。當亞馬遜發布一個新版本時,開發團隊對市場反應感到震驚:七天的使用者保留率,驚人地下降了70%,營收減少30%。團隊發現,它無意間讓遊戲難度提高了約10%。亞馬遜迅速發布修補程式,但開發人員不確定,降低遊戲難度是否會大幅提高使用者保留率和營收。為了找出答案,他們測試了四種不同的難度,結果發現,最簡單的版本效果最好。經過進一步改善後,亞馬遜推出了新版本,這回使用者玩遊戲的時間增加了20%,營收成長了20%。一次意外狀況導致令人驚訝的見解,進而成為新實驗的起點。

可惜,這種反應是異常狀況。在許多公司,實驗伴隨的風險,讓主管不願分配資源進行實驗。沒有理由就直接相信實驗威力的公司,因此而得到的收穫,應足以給予其他人跟進的勇氣。

此外,許多組織對實驗的性質和數量都過於保守。過分強調實驗成功的重要性,可能會鼓勵員工聚焦在熟悉的解決方案,或是他們已知會有效的解決方案,而避免測試他們擔心可能會失敗的想法。實際上,進行大量實驗的風險,要比進行少量實驗的風險低。在Booking.com,只有大約10%的實驗產生正向結果,也就是在隨機分配的使用者中,B測試的結果優於A;A是控制組,也就是採取現有做法,而B則是調整修改現有做法,以嘗試改善某個情況(例如,銷售額、重複使用的情況、點擊率,或是使用者在網站上停留的時間)。(除了A / B測試之外,Booking.com也進行更複雜的測試,以便同時評估多個修改做法。)但當你進行大量實驗,低成功率仍會轉化為大量的成功,進而減少那些失敗所造成的財務成本和情感成本。公司如果一年僅進行少量實驗,可能只會有一個實驗成功,或者,如果運氣不好,也可能全軍覆沒。在這種懂況下,失敗就會是件大事。

我研究的企業中,在開發全新產品早期所測試的構想,成功率更低得多。但早期的失敗,讓開發人員可以迅速排除不良的選項,把精力重新集中在更有前景的選項。

在擁有實驗文化的公司裡,員工不會畏懼失敗的可能性。「能在我們公司蓬勃發展的人,都是充滿好奇心、心胸開放,並渴望學習和理解事物的人,他們不介意自己被證明是錯誤的,」目前負責監督Booking.com所有實驗的維米爾說。公司的招募人員尋找這樣的人,並確保他們獲得授權,可遵循自己的直覺去做。公司會讓新進人員經歷嚴格的到職流程(包括有關實驗的訓練),然後讓他們有權使用所有測試工具 。

堅持資料勝過意見

不管誰有意見,都以實證結果為依歸

線上實驗的實證結果,若是與強力的意見發生衝突,無論是誰的意見,都必須以實證結果為依歸。這是Booking.com的態度,但這種態度在大多數公司中很少見,原因可以理解:人性。我們傾向於高興地接受證實我們偏見的「好」結果,但會質疑並徹底調查那些違反我們假設的「壞」結果。

補救措施就是實施經實驗驗證有效的變更,少有例外。正如Booking.com的一位主管告訴我的:「如果測試告訴你,網站的標題應該是粉紅色的,它就應該要改成粉紅色。你一定要遵循測試結果。」

要讓決策高層遵守這個規則,不是件容易的事。〔就像美國作家奧普頓.辛克萊(Upton Sinclair)曾打趣地說:「如果某人的薪水取決於他不理解某件事,你就很難讓他理解那件事!」〕但是,高層以身作則很重要:最快讓「創新」停滯的,莫過於薪資最高的人的意見。

請注意,我並不是說,所有的管理決策都可以或應該依據線上實驗。有些事情很難進行測試,甚至根本不可能測試,例如,關於是否要收購某家公司的策略判斷。

但是,如果所有能在線上測試的事情都已測試過,實驗就可以成為制定管理決策的重要工具,並促進健康的辯論。有時,這些討論可能導致有意識地選擇否決資料,像是網飛(Netflix)為喜劇影集「同妻俱樂部」(Grace and Frankie)所做的決定。網飛已為大型實驗打造了複雜的基礎設施,而根據2018年《華爾街日報》的一篇文章,測試結果顯示,當促銷只包含莉莉.湯姆林(Lily Tomlin)的圖像時(她是「同妻俱樂部」的明星之一),潛在收視戶的點擊率,會高於同時包含湯姆林及與她合演的明星珍.芳達(Jane Fonda)的圖像,這個測試結果讓公司高層陷入兩難。內容團隊擔心,排除珍.芳達會讓她心生排斥,還可能違反她的合約。激烈的辯論造成了實證結果與「策略考量」對立競爭,最後網飛選擇使用包括這兩位女演員的圖像,儘管顧客資料不支持這項決定。然而,實驗證據讓各種權衡取捨變得更加透明。

普及實驗

申請流程簡單,而且任何人都可申請

正如我先前指出的,Booking.com的任何員工,都可以對數百萬名顧客進行實驗,不必徵求主管的許可。在1,800名技術和產品人員中,約有75%的人,會積極使用公司的實驗平台。標準模板讓他們能輕易設定測試,而各項流程都是自動化進行,包括招募使用者、隨機化、記錄訪客行為,以及產生報告。過去,Booking.com有一個核心實驗團隊和五個衛星團隊,為整個組織提供訓練和支援,但由於公司的需求改變,這種結構最近也調整了,改為由四個中央團隊向維米爾和配置在產品團隊裡的專家(稱為「代表」)報告工作。

為了讓一切順利進行,個人或團隊要填寫一份電子表格,所有人都可以看到表格內容,包括實驗名稱、目的、主要受益者(顧客或供應商)、過去相關的實驗,以及將在A / B、A / B / C或A / B / n測試中嘗試的修改做法的數量。一旦實驗啟動,並開始進行後,團隊在最初幾個小時內會密切關注它。如果它的主要指標或次要指標很快失效,團隊可以停止測試。在這個初期階段之後,平台會繼續自動進行資料品質檢查,並在出現異常情況時發送警告訊息。為了鼓勵開放性,Booking.com有一個可搜尋的、納入過去實驗資料的中央資料庫,其中包含對成功、失敗、反覆執行和最終決策的完整說明。所有人都可以看到正在進行的實驗的即時資訊。

維米爾向我解釋:「有點諷刺的是,正是我們實驗基礎設施的集中化,才讓我們的組織分散化變成可能。每個人都使用相同的工具,這樣可以增進對彼此資料的信任,並讓討論和問責制成為可能。儘管某些公司在機器學習等領域可能會更先進(例如,微軟、臉書和Google),但我們使用簡單的A / B測試,就能更成功地吸引所有人參與。我們讓測試的做法普及到整個組織。」

普及實驗當然會有挑戰。其中一個風險,就是團隊或個人可能破壞Booking.com高流量網站上的某些東西,導致網站當機。另一個問題是,每個團隊都必須設定自己的方向,並找出要解決哪些使用者問題。這需要進行廣泛的訓練,而且團隊成員之間要不斷討論,哪些是該解決的問題。公司鼓勵辯論,一旦有人發現應質疑的任何事情,都可以與同事聯繫。就像任何人都可以進行實驗一樣,任何人也都可以停止實驗。然而,只有在實驗嚴重出錯的極少數情況下,才會停止實驗。這種嚴重情況像是,某人晚上獨自一人待在辦公室,突然發現某項實驗導致顧客轉換率之類的關鍵指標急劇下降,若放任不管,將導致公司損失數百萬美元的營收。

這套系統給予團隊所需的自主權,讓他們嘗試自己認為有價值的新方法,並讓全公司的人員都能夠監督實驗,並即時提供回饋意見。這套系統,確實讓所有人都能自由測試想法,包括任何有關如何改進Booking.com業務的想法。

道德敏感

想要測試新想法,必須面臨顧客審查

公司在考慮進行新的實驗時,必須仔細考慮,使用者是否會覺得這些測試是不道德的。儘管未必都有明確的答案,但組織若未能檢討道德問題,可能會引發反彈。例如,臉書在2012年進行為期一週的實驗,想了解自家平台上的情緒狀態是否具有傳染性。臉書重新調整了動態消息(經由演算法精心策畫的貼文、消息和活動的清單),想了解使用者若看到較少的正面消息,是否會導致人們減少發布正面貼文的數量;臉書也測試了當人們接觸較少的負面消息時,情況是否會扭轉。這項實驗涉及將近69萬名隨機選擇的使用者,其中約有31萬名使用者在未察覺的情況下,接觸到他們動態消息中受到操控的情緒表達,而其餘使用者處於控制條件下,其中沒有呈現相應數量的隨機選擇貼文。

當臉書和康乃爾大學(Cornell University)研究人員在學術期刊上發表這項研究的結果時,引發大眾憤慨。臉書的資料科學團隊,多年來一直在對毫無戒心的使用者進行實驗,而沒有引發爭議,但這種情緒操控令人不安。批評人士的疑慮在於,參與者對臉書的一般資料使用政策授權程度是否足夠;他們認為,臉書應該更清楚表達使用者可選擇不接受測試,以及收集的資料會用於研究。從學習的角度來看,那項實驗是成功的:它發現網路的確有「情感傳染」的現象,儘管效應很小。但一些使用者認為,臉書假科學之名利用了他們。

研究指出,相較於未經實驗就直接施行新做法的公司,先測試新想法的公司面臨來自顧客的更多嚴格審查。生物倫理學家米雪兒.梅耶(Michelle Meyer)的研究團隊,分析了醫療、車輛設計、全球貧窮等領域的16項研究,並公開發表分析結果,參與者認為,相較於對所有人普遍實施未經測試的做法,A / B測試在道德上更讓人質疑,即使A 與B這兩種做法都不會令人不愉快。

顯然,道德訓練和某種監督是必要的。挑戰在於,監督方式不能讓人們變得過分謹慎,或是讓他們陷入繁瑣的程序和規定。正是基於這些原因,Booking.com避免由高層直接頒布規則,明定可以進行哪種測試。相反的,它鼓勵員工詢問,實驗或建議的做法會協助還是傷害顧客。Booking.com產品長大衛.維斯曼斯(David Vismans)告訴我:「我寧願不設置監督或道德審查委員會。這不是可擴大實施的解決方案。你會製造瓶頸,而監管測試的做法,不會讓人感覺自己獲得授權。」相反地,該公司鼓勵員工在所有員工都可使用的內部網路論壇上,進行公開辯論。辯論可能很激烈,而且會談到像是使用技巧來說服顧客完成交易之類的議題(例如,「請立刻預訂,否則就將錯失機會」或「只剩下三個房間」之類的訊息)。「我比較想要有一個會自我改正的社群,」維斯曼斯解釋說

為此,Booking.com的到職流程還包括道德訓練。另一家擁有大型實驗計畫的公司LinkedIn,採用略微不同的方法。它制定了內部準則,規定公司不會進行「打算提供負面會員體驗、以改變會員的情緒或情感為目標,或取消既有會員設定或選擇的實驗。」

採取不同的領導模式

接受自己想法受檢驗、充分授權員工

企業若是普及採用實驗做法,並遵循測試結果引導的方向,就能讓員工自行做出良好的決定,而且加速創新和改善。但是,如果大多數決策都是以這種方式制定,資深領導人除了制定公司的策略方向並做出重大決策(像是要進行哪些收購),另外還有什麼事要做?至少有四件事:

提出一個巨大的挑戰,這個挑戰可以分拆成一些可檢驗的假設和關鍵績效指標。必須讓員工了解,他們所做的實驗可以如何支持整體的策略目標。例如,Booking.com的資深領導人要求員工設計出業界最佳的線上體驗。他們可能預期出色的體驗會創造更多的顧客流量,進而吸引更多供應商到Booking.com的平台,以擴大顧客群和顧客的活動。為了找到方法來實現這個目標,員工可以設計一些假設和相關指標,例如,在重要文字底下劃線,可以讓關鍵資訊更容易找到,藉以提高轉換率,以及「無成本點擊」的取消選項,可以提高使用者返回率,而不會導致飯店的淨預訂量下降。

設置可以進行大規模實驗的系統、資源和組織設計。想要以科學方法測試幾乎所有的想法,就需要有基礎設施:儀器、資料管道、資料科學家。多種第三方工具和服務,讓嘗試做實驗變得容易,但若要擴大規模,資深領導人必須把測試能力密切整合到公司各項流程中。要做到這一點,公司必須在集中化和分散化之間取得適當的平衡。

在集中化的團隊裡,專職的專家,例如開發人員、使用者界面設計師和資料分析師等,可以為整個公司進行實驗,並專注於引進最新的方法和工具。但是,如果測試只局限於一小組專家,就很難擴大實驗規模並改變企業文化。至於分散式測試的做法,公司把專家團隊分散配置在不同的事業單位裡。這種方法雖然把實驗擴展到組織的更多部門,但可能會阻礙知識分享,並導致專家之間的目標有衝突,而且彼此協調不良。公司首先可能必須採用分散式做法,好讓更廣泛的組織部門都參與,但是在這之後,公司應該轉而改善本身的實驗能力。

Booking.com就是這麼做的。Booking.com最初是運用衛星團隊在全公司各單位進行實驗,但卻發現,他們忙著提供使用者支援,因而無法專注於建立全公司的能力。為了處理這個問題並更好地協調這些團隊,Booking.com最近改用「卓越中心」模式,以支援各個事業單位、把公司的實驗方法標準化,並且確保採用和遵循最佳實務。

樹立榜樣。領導人必須和其他所有人一樣遵循相同的規則,並讓自己的想法接受測試檢驗。譚斯告訴我:「你不能自以為是,覺得自己永遠都最懂。身為執行長的我,如果對某人說『這是我希望你做的事,因為我覺得這對我們公司業務有好處』,員工會看著我,然後說『好的,沒問題,我們會測試看看你說的是否正確』。」上司應該展現自己對知識的謙遜,不要害怕承認「我不知道」。他們應該聽從科學方法之父法蘭西斯.培根(Francis Bacon)的建議:「如果一個人一開始就自覺很確定,那麼到最後他會產生懷疑;但是如果他願意在一開始抱持懷疑,到結束時他會感到確定。」

IBM讓測試激增到近三千次

光靠言語沒有辦法改變行為。擔任實驗驅動型組織的領導人,終究是要放手並授權員工執行自己的測試;如果你只是口頭告訴人們可以這麼做,他們是不會這麼做的。這需要像IBM曾採取的共同努力做法。在2015年,實驗還不是IBM的核心活動;公司的資訊科技部門表示可以進行測試,但測試成本高昂,而且要向委託測試的事業單位收費,還必須遵循嚴格的流程。測試功能只由一位專家負責,他還身兼守門人的角色,駁回了許多實驗提案,因為他覺得這些實驗不值得進行。結果,IBM 那年僅進行了97次測試。

後來, IBM當時的行銷分析負責人艾瑞.申金(Ari Sheinkin)接管了實驗工作,並在行銷長的支持下,授權全球超過5,500名行銷人員自行進行測試。為了促使他們這樣做,申金採取許多措施。他安裝了容易使用的工具,設立了卓越中心以提供支援,引進一個架構以進行嚴謹的實驗,為所有人提供訓練,並讓所有事業集團免費進行線上測試。他還進行了初步的「測試突擊」,要求各行銷單位必須在三十天內進行總共三十個線上實驗。之後,他每季舉辦一次競賽,選出最創新或最可擴大規模的實驗。他也運用了更強力的手法:IBM把各行銷單位的一部分預算,與實驗計畫連結在一起。這些做法奏效了。到2018年,年度測試數量已激增至2,822件。

大規模測試非關技術,而是文化

若要發揮實驗的轉型改造能力,公司必須持續投入。隨著時間流逝,實驗將帶來成千上萬個大大小小的變化,而這些變化集合起來,將產生巨大的益處。提供適當的工具固然重要,但這只是容易做到的部分,還不足以讓實驗成為日常不可或缺的做法。維斯曼斯說得最好:「我對執行長的唯一建議就是:大規模測試不是技術性的事情,而是你必須完全接納的文化事物。你必須問自己兩大問題:你有多願意每天都面對自己想法錯誤的情況?你願意給部屬多少自主權?如果答案是,你不希望自己被證明是錯誤的,也不想讓員工來決定產品的未來,那麼大規模測試的做法是行不通的。你絕對無法獲得實驗的全部好處。」

我們從中得到的教訓是,任何一個實驗是否成功並不很重要;重要的是,組織在不確定的情況下要如何做出決定。組織不應僅根據信念或個人觀點來做決定。如果可以讓你的決定接受測試,那麼就應該測試。

本文觀念精粹

機會

在日益數位化的世界裡,隨機的A/B對照實驗是極有價值的方法,可以創造或改善線上體驗。

障礙

公司每年應進行數百、甚至數千次測試,然後實際運用測試的結果,而阻礙公司這麼做的是企業文化,而非工具和技術。

解決方案

創造一個環境,以便培養好奇心、讓數據資料勝過人的意見、讓任何人都能進行測試、所有實驗都符合道德要求,並讓主管採用新的領導模式。

(劉純佑譯自“Building a Culture of Experimentation,” HBR, March-April 2020)



史蒂芬.湯克 Stefan Thomke

哈佛商學院企管講座教授,著有《實驗有效:價值上億的線上實驗〉(Experimentation Works: The Surprising Power of Business, HBR Press, 2020)。


本篇文章主題創新