本文出自

我如何再造奇異

我如何再造奇異

2017年9月號

價值上億的線上實驗

The Surprising Power of Online Experiments
羅恩.科哈維 Ron Kohavi , 史蒂芬.湯克 Stefan Thomke
瀏覽人數:6598
  • 文章摘要
  • "價值上億的線上實驗"

  • 字放大
  • 授課文章購買
    購買〈價值上億的線上實驗〉文章
  • 個人收藏購買
    購買〈價值上億的線上實驗〉PDF檔
    下載點數 10
公司如果能建立適當的實驗基礎設施和軟體,不但可以評估改善網站的構想,還能評估商業模式、策略、產品和行銷方案方面的構想,而且不必耗費很高的成本。本文告訴你,如何充分運用AB測試和其他對照實驗。

2012年,微軟(Microsoft)一名在搜尋引擎Bing任職的員工,對廣告標題呈現的方式,有新的構想。開發這個新做法並不需要很多資源,只需要花一名工程師幾天的時間,但它只是員工提出的數百個構想之一,專案經理認為不必優先處理。於是,這個構想被擱置超過六個月,直到一名工程師發現,那個構想要寫的程式碼成本不高,於是展開一個簡單的線上對照實驗,也就是AB測試,來評估這個構想的影響。新標題呈現形式才推出數小時,就產生異常高的收入,觸發「好得難以置信」的警報。這種警報通常意味著實驗出錯,但這一次不是。分析顯示,這個構想提高營收的幅度達到驚人的12%,等於光是在美國,一年便可以增加一億美元的收入,而且,還不會損害關鍵的使用者體驗指標。它是歷來替Bing創造最多收入的構想,但在測試之前,價值一直遭低估。

這真是教人謙卑的經驗!這個例子顯示,新構想的潛力可能很難評估。同樣重要的是,它說明了一件事:以相當低的成本同時執行多項測試,對公司大有好處。如今,已有愈來愈多公司體認到這一點。

現在,微軟和其他數家業界領導公司,包括亞馬遜(Amazon)、Booking.com、臉書(Facebook)和Google,每年都各自完成超過一萬項線上對照實驗,許多測試有數百萬使用者參與。新創企業和沒有數位根源的公司,例如沃爾瑪(Walmart)、赫茲租車(Hertz)和新加坡航空(Singapore Airlines),也都常做這種實驗,雖然規模較小。這些組織都已發現,「實驗一切事物」的做法,可以產生意外豐厚的報酬。例如,這種做法幫Bing每月發現數十項可促進營收的調整,而這些改善措施,每年總共可提升每次搜尋的收入10%至25%。這些強化措施,加上每個月可提升使用者滿意度的數百項其他調整,是Bing有獲利,且在美國的個人電腦搜尋市占率從2009年推出時的8%,提高到23%的主要原因。

在當前這個時代,網路對幾乎所有公司都極為重要,因此嚴謹的線上實驗必須成為標準作業程序。如果公司能發展出執行這種實驗的軟體基礎設施和組織技能,就能評估與網站有關的構想,還能評估商業模式、策略、產品、服務和行銷方案等的構想,耗費的相關成本也不高。對照實驗可把決策變成一種以證據為本的科學流程,而不是仰賴直覺反應。如果沒有這種實驗,許多突破可能永遠不會發生,反而執行了許多差勁的想法,結果失敗,浪費了資源。

但我們發現,包括一些重要的數位企業在內,太多組織的實驗方式太隨性了,它們不懂如何做嚴謹的科學試驗,或是實驗做得太少。

我們研究和執行實驗,也為許多不同產業的公司提供相關的顧問服務,兩人的經驗加起來超過35年。本文會分享我們累積的經驗教訓,有關如何設計和執行實驗、確保實驗的完善健全、解讀實驗結果,以及處理可能遇到的難題。雖然我們著重在最簡單形式的對照實驗,也就是AB測試,但這些發現和建議,也適用於比較複雜的實驗設計。

認識AB測試的價值

在AB測試中,實驗人員設計兩種體驗:A是控制組(對照組),通常採用現行系統,被視為「優勝者」;B是處理組(實驗組),反映試圖改善某些情況的調整做法,被視為「挑戰者」。使用者隨機分配到A或B組,實驗人員計算關鍵指標,並作比較。(單一變數的ABC測試或ABCD測試,以及多變數測試,是同時評估不止一個調整做法, 或同時改變多個變數的做法。)在線上實驗中,調整可以是引進新的產品功能、使用者介面的調整(例如新的版面設計)、後端調整(例如改善亞馬遜推薦書籍的演算法),或是商業模式的改變(例如提供免運費服務)。無論公司最關心的是營運的哪一方面,可能是銷售、重複使用率、點擊率或使用者在網站停留的時間,都可以利用線上AB測試,了解如何達到最理想的運作方式。

只要每天有數千名活躍使用者的公司,就可以做這種測試。公司如果能利用大規模的顧客樣本,自動蒐集網站或應用程式上使用者互動的大量資料,以及同時進行多項實驗,便享有空前的機會可快速評估許多構想,而且結果精準,每多做一項實驗的成本微不足道。這使得組織能夠迅速反覆試驗,迅速確認失敗的構想,然後調整做法。

因為了解到這些好處,一些領先業界的科技公司設立專責團隊,負責建立、管理和改善公司的實驗基礎設施,供許多不同的產品團隊使用。如果懂得善用這種實驗能力,它就可以成為一項重要的競爭優勢。以下說明經理人必須明白的一些事。

微小的改變,可以產生巨大的作用。人們普遍假定:投資規模愈大,可以產生的影響愈大。但在網路上,情況往往不是這樣;網路上的成功,比較仰賴做對許多小調整。雖然企業界歌頌顛覆現狀的大構想,但現實中的進步,往往是靠執行數百、或數千個小改善來達成的。

我們再來看微軟的一個例子。(雖然本文的大多數例子源自微軟,本文作者之一羅恩主管該公司的實驗事務,但這些例子,能說明許多其他公司學到的心得。)2008年,微軟在英國的一名員工提出一個看似不重要的建議:使用者在MSN首頁點擊Hotmail連結時,在新分頁打開連結(如果是不支援分頁功能的舊版瀏覽器,就是在新視窗打開連結),而非在同一分頁打開。公司測試了約九十萬名英國使用者,結果非常正面:打開Hotmail的使用者活動量大增,在MSN首頁上的點擊數增加了8.9%。而大多數針對活動量的調整,產生的影響不到1%。但這個構想有爭議,因為當時很少網站會在新分頁打開連結;於是這項調整僅在英國推出。

2010年6月,這個實驗在美國重複進行,有270萬名使用者參與,產生類似的結果,因此這項調整普及到全球。然後,為了解這個構想的其他應用,微軟試行以新分頁打開MSN上的搜尋結果。在1,200萬名美國使用者參與的實驗中,每名使用者的點擊數增加了5%。在新分頁打開連結,是微軟提升使用者活動量歷來成效最好的方法之一,而做法只是修改少數幾行程式碼而已。現在有很多網站,包括臉書和推特(Twitter),都使用這個技巧。

微軟的經驗一點也不獨特。例如,亞馬遜的實驗顯示,把信用卡優惠訊息從網站首頁移到購物車頁面,每年可增加獲利數千萬美元。小投資顯然也可能產生大報酬,但大投資也可能產生不了什麼報酬。結合Bing與社群媒體(好讓來自臉書和推特內容的搜尋結果頁面在第三個視窗打開),花了微軟超過2,500萬美元的開發費用,但對提高使用者活動量和Bing的營收幾乎毫無作用。

實驗可引導投資決策。線上測試有助於經理人估算,潛在改善方案的最佳投資規模為何。微軟研究如何提高Bing顯示搜尋結果的速度時,就必須做這種決定。速度當然是愈快愈好,但提高速度產生的價值可以量化嗎?公司應該投入三人、十人,還是五十人,來提高搜尋速度?為了回答這些問題,微軟做了一系列的AB測試,採用人為方式拖延顯示搜尋結果,以了解細微的載入速度差異有何影響。資料顯示,速度每差一百毫秒,對營收有0.6%的影響。Bing的年營收超過三十億美元,提高速度一百毫秒,可提高年度營收1,800萬美元,足以支持設立規模可觀的開發團隊。

測試結果也幫Bing團隊做一些重要的取捨:有些功能可增強搜尋結果的相關性,但會拖慢回應速度;Bing團隊希望能避免許多小功能加起來顯著拖累搜尋效能。因此,公司延後推出一些會拖慢反應時間超過數毫秒的功能,直到Bing團隊改善它們或其他元件的效能。

建立大規模實驗能力

一百多年前,百貨公司老闆約翰.沃納梅克(John Wanamaker)據稱創造了這句行銷名言:「我花在廣告上的錢,有一半是浪費掉了,問題是,我不知道是哪一半。」我們發現,新構想也有類似情況:絕大多數新構想在實驗中證實失敗,連專家也往往誤判哪些構想會成功。在Google和Bing,只有約10%至20%的實驗,產生正面的結果。在微軟整家公司,三分之一的新構想證實有效,三分之一效果中性,三分之一效果負面。這一切顯示:企業必須親吻很多青蛙(也就是做大量實驗),才能找到一個王子。

在亞馬遜,把信用卡優惠訊息從網站首頁移到購物車頁面,每年可增加獲利數千萬美元。

有一點非常重要:企業應盡可能實驗一切,確保調整之後不會反而變得更糟,或是產生意料之外的效果。在Bing,約80%的調整建議,會先以對照實驗來檢驗;這不包括低風險的錯誤修正和機器層面的改變,例如作業系統升級。

若想以科學方法,來測試幾乎所有的構想,就必須建立實驗基礎設施,包括:記錄資料的設備(像是記錄點擊數、滑鼠移過和事件時間等資料),資料管道和資料科學家。一些第三方工具和服務,讓企業可以輕鬆試做實驗,但如果你想擴大實驗規模,就必須把實驗能力緊密融入公司流程中。這可以壓低每個實驗的成本,並提高實驗的信度(reliability)。另一方面,如果沒有實驗基礎設施,實驗的邊際成本會居高不下,以致公司高層不願意要求做更多實驗。

最好的資料科學家遵循圖曼法則:數字如果看起來有趣或與眾不同,通常就是出錯了。

微軟便是建立規模可觀實驗基礎設施的一個好例子;當然,規模較小或業務不那麼仰賴實驗的公司,這方面的需求可能低一些。微軟的分析和實驗團隊超過八十人,每天都在做數百項線上對照實驗,涵蓋多種產品,包括Bing、Cortana、Exchange、MSN、Office、Skype、Windows和Xbox。每個實驗都讓數十萬,有時甚至是數千萬名使用者,接觸到新功能或產品調整。團隊針對所有測試結果,做嚴謹的統計分析,自動產生計分卡;這些計分卡包含數百以至數千個指標,並標出顯著的改變。

企業的實驗人員,可以採用三種組織方式:

集中模式。在這種模式之下,一個資料科學家團隊服務整家公司。好處是他們可致力於長期專案,例如,建立更好的實驗工具,以及開發更先進的統計演算法。主要缺點之一是,運用資料科學家團隊的事業單位,各自想優先處理的事情不同,而這可能導致資源和經費分配上的衝突。另一個缺點是,資料科學家與各事業單位往來時,可能覺得自己是外人,因此對各部門的目標和專門知識感到疏離,以致他們較難融會貫通,提出有用的見解。此外,資料科學家可能欠缺影響力,難以說服公司高層投資建立必要的工具,或是說服總部主管和事業單位經理人信任實驗結果。

分散模式。在這種模式下,資料科學家分散到公司各事業單位。好處是資料科學家可成為各業務領域的專家。主要缺點是,這些資料專業人士欠缺明確的職涯路徑,也未必能從同儕那裡得到回饋意見和指導,以便成長。此外,個別事業單位的實驗,可能無法達到某種關鍵規模,以致欠缺建立必要工具的理由。

卓越中心模式。在這種模式下,有些資料科學家屬於一個集中的職能部門,有一些則分散到不同的事業單位。微軟便是採用這種模式。卓越中心主要致力於對照實驗的設計、執行和分析。它建立一個服務整家公司的實驗平台和相關工具,以便大幅縮減實驗的設計、執行和分析工作所需的時間與資源。它也可藉由舉辦課程、實驗和會議,在整個組織中普及作測試的最佳實務。主要缺點在於,難以釐清卓越中心與產品團隊各自的職責,各事業單位在增加實驗時,增聘的資料科學家該由誰付費,並不清楚,誰該負責投資在警示工具上,像是負責發出實驗結果不可信的警告,也不清楚。

組織模式沒有對錯的問題。小公司通常先採用集中模式,或是使用第三方工具,然後成長到一定規模之後,改用其他模式。在有多種事業的公司,經理人會認為實驗很重要,可能不想等到公司領導階層發展出某種協調良好的組織方法;在這種情況下,分散模式可能比較適合,至少起初是這樣。如果線上實驗對公司極為重要,公司就應該先在一個集中的部門,建立相關的專業能力和作業標準,然後再推廣到各事業單位。

提出成功的定義

每個事業群都必須為線上實驗界定適當(通常是綜合性)的評估指標,而這種指標,必須契合部門的策略目標。這似乎很簡單,但其實相當難以確定哪些短期指標最能預測長期結果。許多公司都未能找到對的指標。做對這件事,也就是擬定正確的整體評估標準,有賴於深思熟慮,也往往需要廣泛的內部討論。這件事需要由理解策略的高階主管,與理解指標、懂得取捨的資料分析師緊密合作。而且,這不是只做一次就好的事情:我們建議企業每年調整整體評估標準。

就像Bing的經驗顯示,擬定整體評估標準並不容易。Bing的關鍵長期目標,提高了它在搜尋引擎市場的市占率(按搜尋次數來計算),以及它的廣告收入。有趣的是,降低搜尋結果的相關性,可促使使用者增加搜尋次數(因而有助於Bing提高市占率),並點擊更多廣告(進而提高營收)。但這種好處顯然只是短暫的,因為使用者最終會轉用其他搜尋引擎。那麼,哪些短期指標確實可預測長期的市占率和營收?Bing的高階主管和資料分析師討論整體評估標準時,決定追求以下目標:盡可能降低使用者解決一個問題或是每次使用時,使用Bing搜尋的次數,同時盡可能提高使用者利用Bing來進行任務,或是使用Bing的次數。

也很重要的是,把整體評估標準細分為各項指標,並追蹤那些指標,因為這往往有助於了解構想為何成功。例如,若點擊數對整體評估標準極為重要,就有必要測量使用者點擊網頁的哪些部分。檢視不同的指標非常重要,因為這可協助團隊發現,實驗是否對另一個領域產生意料之外的影響。例如,某個團隊若改變了網頁呈現的相關搜尋項目(例如,使用者輸入「哈利波特」,搜尋引擎會顯示哈利波特小說、哈利波特電影、哈利波特電影角色之類的搜尋),可能不會想到這會改變搜尋的分布,因為相關項目的搜尋會增加,而這對營收的影響可正可負。

假以時日,就會比較容易建立和調整整體評估標準,以及了解因果關係。藉由做實驗、去除結果中的錯誤(我們將簡略討論這一點),以及解讀結果,企業會累積寶貴的經驗,不但知道各種測試最適合用什麼指標,也能開發出新的指標。多年來,Bing開發出超過實驗人員可用的六千個指標,根據測試涉及的領域,分別納入不同的模板,這些領域包括網頁搜尋、圖片搜尋、影片搜尋、廣告調整等。

當心資料品質低落

如果沒有人相信實驗結果,評估標準再好也沒有意義。取得數據資料很容易,取得可相信的數據很難!你必須分配時間和資源來檢驗實驗系統,並設立自動的檢驗和保護機制。其中一種方法,是進行嚴謹的AA測試,也就是拿兩個相同的東西做對照實驗,藉此確保系統95%的時候,能正確辨識出不具統計顯著性的差異。這種簡單的方法,已幫助微軟確認數百個實驗是無效的,並發 現不當的公式應用;例如某個公式假定所有的資料彼此獨立,並不相關,但其實並非如此。

我們發現,最好的資料科學家有懷疑精神,而且遵循圖曼法則(Twyman's law):數字如果看來有趣或與眾不同,通常就是出錯了。令人意外的結果,必須可以重複做出來:一來是確保結果有效,二來是消除人們的懷疑。例如,Bing在2013年做了一組實驗,測試搜尋結果頁面上不同文字的顏色,包括標題、連結和少量內文。顏色的改變很細微(見圖),但結果令人驚喜:使用者若看到標題文字以略深的藍色和綠色顯示、內文以略淺一點的黑色顯示,搜尋成功的百分比較高,而且找到想找資料的人,花較少的時間找到資料。

這當中的顏色差異,只是勉強可以分辨,因此實驗結果難免受到多方的懷疑,包括設計專家。一如許多其他公司,微軟仰賴設計專家制定公司的風格指南,並決定使用什麼顏色,而不是重視實際使用者的行為。為此,微軟重做實驗,樣本大幅擴大到3,200萬名使用者,並得出類似結果。分析顯示,如果對所有使用者進行顏色調整,營收每年可增加超過一千萬美元。

如果希望實驗結果是可信的,你必須確保使用的是優質資料,例如極端的資料可能必須剔除,並找出蒐集過程中的失誤。在線上世界裡,這個議題尤其重要,原因有幾個。例如,網路機器人(internet bot)便是一個問題。在Bing,超過50%的搜尋要求,是網路機器人發出的。這些資料可能扭曲結果或增加「雜訊」,讓實驗人員更難看出統計顯著性。另一問題,是極端資料有時並不罕見。例如,亞馬遜便發現,某些個別使用者的訂書量極大,可以扭曲整個AB測試的結果,而原來那些使用者是圖書館。

經理人也應警惕所謂的「異質處理效果」(heterogeneous treatment effect),也就是某些部分受到的影響特別大,或是特別小。在某些情況下,一個特別好或特別壞的部分便可能嚴重扭曲平均值,使整體結果失效。微軟曾有一個實驗發生這種情況:因JavaScript出錯,IE 7使用者無法點擊Bing的搜尋結果,因此整體結果變成負面的,但其實應該是正面的。實驗平台必須能偵測這種異常情況,否則實驗人員若只看平均結果,可能埋沒了好構想。

如果一個接一個的實驗,都使用相同的對照組和實驗組成員,也可能導致結果偏差。這個做法會產生「殘留效應」(carryover effect),也就是參與者在一個實驗中的體驗,改變了他未來的行為。為避免這種情況,公司應重新安排實驗參與者的組成。

微軟實驗平台常做的另一項檢查,是確保實際實驗中對照組與實驗組裡,使用者的百分比符合實驗設計。兩者若是不同,會產生「樣本比率錯配」的問題,而這往往導致結果失效。例如,比率如果是50.2/49.8(也就是821,588 vs. 815,482名使用者),它與實驗人員期望的50/50比率的差異就已相當大, 因此,純屬巧合的機率不到五十萬分之一。這種問題不時出現,通常每週都會發生,實驗團隊必須致力了解原因,並解決問題。

避免假定因果關係

大數據的熱潮,導致有些企業高階主管誤以為因果關係不重要。他們以為只需要找出相關性,就能推斷出因果關係。錯了!

以下兩個例子可以說明原因,也能凸顯沒有對照組實驗的缺點。在第一個例子中,兩個團隊分別觀察研究微軟Office軟體的兩項先進功能。兩個團隊都得出結論:他們評估的新功能,可以減少使用者流失。其實,幾乎所有的類似研究都會顯示這種相關性,因為會試用先進功能的使用者,往往是重度使用者,而重度使用者的流失率通常較低。因此,新的先進功能,或許與較低的流失率有相關性,但未必是導致後者的原因。收到通知錯誤訊息的Office使用者,流失率也較低,因為他們往往也是重度使用者。但這是否就表示,向使用者顯示更多錯誤訊息,就能減少使用者流失?幾乎不可能。

在第二個例子中,雅虎做了一項研究,評估在雅虎網站上展示某個品牌的廣告,是否能增加該品牌名稱或相關關鍵字的搜尋次數。該研究的觀察估計,這種廣告可增加搜尋次數871%到1,198%。但雅虎也做了對照實驗,結果顯示只能增加5.4%。如果不是做了對照實驗,雅虎可能誤以為廣告會有很大影響,未能了解他們觀察到的搜尋次數成長,是因為觀察期內另一些因素改變了。

觀察型研究顯然無法確定因果關係。這在醫學界廣為人知,正因如此,美國食品藥物管理局(FDA)強制要求藥廠做隨機式臨床試驗,以證明它們的藥物安全和有效。

實驗納入太多變數,也會難以看出因果關係。這種實驗的結果難以整理和解讀。實驗最好是夠簡單,可輕易理解當中的因果關係。實驗設計複雜的另一個缺點,是實驗出錯的可能性大得多。如果某個新功能嚴重出錯,以致實驗必須終止的可能性是10%,涉及七個新功能的實驗發生致命錯誤的可能性,會超過50%。

如果你確知A導致B,但不知道為什麼,那又如何?你是否應試著了解因果機制?簡短的答案是應該。

有些經理人誤以為只需要確認相關性,就能推斷出因果關係。錯了!

1500到1800年間,約兩百萬名船員死於壞血病。現在我們知道,壞血病是飲食中缺乏維生素C造成的,而船員因為長期航行、蔬果不足而患上壞血病。1747年,英國皇家海軍醫師詹姆斯.林德(James Lind)決定做一個實驗,以測試六種可能療法。在某次航程中,他提供柳橙和檸檬給一些船員,其他船員則拿到其他東西,例如醋。實驗顯示,柑橘類水果可防止壞血病,但沒有人知道為什麼。林德誤以為這種水果的酸性是有效成分,因此試圖製造一種較不容易腐壞的解藥:他把柑橘類果汁加熱製成濃縮果汁,但加熱過程破壞了當中的維生素C。結果要到五十年後,英國海軍把不曾加熱的檸檬汁,加入船員的每日飲食,才終於解決船員罹患壞血病的問題。如果當年林德做了「加熱vs.未加熱檸檬汁」的對照實驗,解決方法可能可以更早面世,拯救許多生命。

但我們必須指出,不見得一定要知道「為什麼」或「如何」,才能從有關「什麼」的知識當中受惠。在使用者的行為方面,更是如此,因為使用者的動機有時很難確定。在Bing,一些最重要的突破,就是在沒有建立相關理論的情況下創造的。例如,雖然Bing能夠細微地調整顏色來改善使用體驗,但Bing沒有可靠的顏色理論,可解釋當中的道理。在這個例子中,證據取代了理論的地位。

對照實驗指明方向

人們往往認為線上世界動盪且危險,但對照實驗有助於我們悠遊在線上世界裡。有時候,我們面對的問題並無確定答案,或者大家意見相左或不確定某個構想的價值,這個時候,對照實驗可替我們指出正確的方向。

數年前,Bing曾討論是否擴大廣告占的網頁面積,以便廣告主在特定網頁裡放上連結。例如,放款公司可提供「比較利率」和「了解公司」之類的許多連結,而不只是提供公司首頁的連結。這麼做的缺點是,經驗顯示:較大的廣告占用較大的網頁版面,會讓使用者較不滿意,提高使用者流失率。考慮這件事的人意見分歧。Bing團隊於是做了實驗,檢視若是提高每個廣告的版面面積,但維持所有廣告的總面積不變,也就是網頁上會出現較少廣告。實驗結果顯示,刊出較少但較大版面的廣告,會有很大的改進:營收每年可增加超過五千萬美元,而且不會損害使用者體驗的重要層面。

如果真想知道某個實驗的價值,應該檢視預期結果與實際結果的差異。如果預期會發生某件事,而這件事真的發生了,你不會學到太多東西。如果預期會發生某件事,而事情並未發生,你就會學到一些重要的東西。如果預期發生某件次要的事,但結果令人驚喜,出現了重大突破,你就學到一些極有價值的東西。

結合軟體的力量和對照實驗的科學嚴謹度,你的公司就能創造出一個學習實驗室。你可以因此獲得巨大的報酬,呈現在成本節約、新的營收和使用體驗的改善。如果你想取得競爭優勢,你的公司應建立可靠的實驗能力,精通執行線上測試的科學方法。

(許瑞宋譯自“The Surprising Power of Online Experiments,” HBR, September-October 2017)



羅恩.科哈維 Ron Kohavi

傑出工程師,微軟分析與實驗團隊總經理;之前是亞馬遜公司資料探勘與個人化事務總監,主管亞馬遜的實驗系統Weblab。


史蒂芬.湯克 Stefan Thomke

哈佛商學院企業管理講座教授,企業實驗與創新管理權威,曾參與許多全球化企業的產品、流程和技術開發工作。


本篇文章主題營運管理