本文出自

實驗打造高效率創新

實驗打造高效率創新

2020年3月號

確保實驗能找出顧客的多變需求!避免A/B測試陷阱

Avoid the Pitfalls of A/B Testing
艾佛爾.博季諾夫 Iavor Bojinov , 季約姆.聖亞克 Guillaume S , 馬丁.丁雷 Martin Tingle
瀏覽人數:2513
  • "確保實驗能找出顧客的多變需求!避免A/B測試陷阱"

  • 字放大
  • 授課文章購買
    購買〈確保實驗能找出顧客的多變需求!避免A/B測試陷阱〉文章
  • 個人收藏購買
    購買〈確保實驗能找出顧客的多變需求!避免A/B測試陷阱〉PDF檔
    下載點數 10
進行A / B測試時,會犯下幾個錯誤:把焦點放在平均值、未觀察改變做法如何影響不同顧客群、忽略了顧客互動會影響測試結果、測試時間過於短暫,及沒有注意到顧客反應會隨時間改變。企業可參考LinkedIn與網飛如何避免這些陷阱的做法。

最近幾年,線上A / B測試的使用情況大量增加,這是因為人們愈來愈肯定這種測試的價值,以及執行它的技術成本相對較低。如今,數位公司與愈來愈多傳統公司,每年進行數以萬計的線上實驗,來衡量控制組「A」(通常是目前使用的方法)是否不如「B」(也就是對產品、服務或供應品所建議的改善做法)。實驗可以快速揭露使用者對修改版的反應,以協助公司找到更新數位產品、創造新產品的最佳方式。

在把創新產品發布給所有人之前,這類測試先讓一小群隨機挑選的團體體驗,因此也能降低不良副作用的風險。它們能夠客觀地衡量某項改變做法的影響,而這種獨特的能力,讓公司可以區分哪些營收、參與度或其他關鍵業務指標的成長,是由改善做法促成的,而非無論有無改善做法都會產生成長。這項重要資訊,讓公司能看出機會,並正確評估那些做法的投資報酬率。

對許多公司來說,現在,A / B測試已是產品開發週期一個不可或缺的部分。許多決定都是根據測試結果來制定,例如:何時與是否該推出全新產品或更改既有產品?是否或如何滲透未開發市場或顧客群?以及如何將資金分配給不同的業務領域?可以不誇張的說,成功的A / B測試,對這些公司的未來極為重要。

但公司在進行實驗時,時常會犯下嚴重的錯誤。根據我們在哈佛商學院的研究,以及在網飛(Netflix)與LinkedIn擔任資料科學家的經歷,我們發現,企業採取的方法有三大陷阱。在本文中,我們將說明如何應用在網飛與 LinkedIn奏效的技巧,來避免這些陷阱,這些技巧可協助你更有效地運用實驗,來改善你公司的績效。

陷阱1:只關注平均值

忽略真實顧客群行為的巨大差異

一個常見的錯誤是,把焦點放在創新對關鍵業務指標平均數或平均值的影響上。公司這麼做,基本上是衡量那項創新對一個虛構的普通人所造成的影響,而忽略了各個真實顧客區隔在行為上的巨大差異。某一個變化,可能導致某一種類型顧客的使用激增,但另一類型顧客的使用驟減。

想像我們推出一個新產品,可讓使用者平均支出增加一美元。我們的直覺,是假設每個使用者都額外增加一美元的支出。然而,如果少數使用者開始更大量增加花費,而其他人開始轉向別家購買,那麼這個增加支出的情況仍會發生。典型的A / B測試儀表板,只報告全體平均值的差異,並沒有區分這兩種情境。

當核心業務指標由少數大客戶或超級使用者主導時,平均值特別容易造成誤導。除非決策者不再把顧客想成一個理想化的代表性人物,否則將會冒著優化以迎合重度使用者,卻犧牲輕度使用者的風險。這很危險,因為找到方法讓輕度使用者增加消費,往往是公司的最大機會所在。

在某些情況下,答案可能是為所有使用者找到最佳的單一版本(或者用實驗的術語來說,這是「實驗做法」)。但在其他情況下,針對重要使用者群體而打造不同的版本,可能是合理的做法。A / B測試可以協助公司做到這一點。它們可以用預先定義的團體(像是根據國家、產業、過去的參與情況等因素來定義)以進行區隔,或是應用機器學習的技術,來確認會對創新做出不同回應的群體。即使不是所有見解都能據以採取行動,測試結果仍能讓公司評估潛在的機會,並發現運用它們的方法。

反映顧客異質性四大做法

若要處理顧客的異質性,公司應該做到以下幾點:

運用的指標與方法,要能反映不同顧客區隔的價值。網飛想要增加它提供給所有會員的福利,而不只是那些最常使用它服務的會員。想想看,如果熱門電視節目更常出現在所有使用者的推薦清單中,會發生什麼事?這可能導致重度使用者收看更多節目,大幅增加使用者花在網飛上的平均時間。但這項改變,並未考慮到使用網飛收看小眾節目會員的需求,因而可能導致他們減少整體的收看量。這是個問題:一般來說,投入程度較低的網飛使用者,從這項服務獲得的價值小於重度使用者,輕度使用者也更可能取消訂閱。因此對網飛來說,增加輕度投入使用者想要收看的內容量,即使只增加很小的百分比,也比讓重度使用者多看幾小時節目要好。

為了處理這些議題,網飛採取兩個方法。首先,它使用交叉的A / B測試設計。

在這個方法中,網飛讓使用者的體驗在A與B之間交替:使用者在第一天獲得控制組的體驗,第二天獲得實驗組的體驗,或是正好相反。這讓網飛能在考慮不同使用者的行為之際,找出最有前景的創新。其次,它不是只看串流分鐘數的原始平均值,而是開發出一項指標,以平衡輕度與重度投入使用者所受到的影響,並確保產品的變化不會只對某個使用者群體有好處,卻犧牲了另一個群體。

衡量不同數位連網程度的影響。我們所謂「數位連網」,指的是顧客網際網路連結是快速可靠,還是緩慢又不穩定;顧客擁有最新、最複雜的裝置,還是較舊或性能較差的裝置等等。為這些不同群體設計和分析A / B測試,你就可以讓使用者獲得最適合他們數位環境的體驗。

至於技術指標(像是應用程式載入時間、在播放開始前的延遲,以及故障率),尤其應該要了解個別成員對某項改變如何影響服務品質的看法。為此,網飛與 LinkedIn都追蹤這些指標的上、中與下百分位數值,以及它們的平均值如何變化。對載入時間排在第五百分位數(擁有最快網路連結的使用者),與排在第95百分位數的使用者(網路連結最慢),實驗組的應用程式載入時間,是否都比控制組慢?還是這個實驗做法對第五百分位數的使用者有好處,但損害了第95百分位數使用者的體驗。網飛用這個方法測試創新做法,以確認它們是否能提高不同裝置與網路連結條件下的影片串流播放品質。

務必考慮群體特有的行為。LinkedIn的A / B測試平台,可以自動計算不同群體的實驗效果。例如,它分別計算新功能對每個國家的影響,因為在美國奏效的功能,在印度可能沒那麼成功。它還按照社交網絡的範圍來為個人進行分組,因為溝通的增強,對人脈寬廣與人脈稀少的個人造成不同的影響。例如,LinkedIn在最近一項研究中發現,新職缺一出現就立即通知求職者這個訊息,大幅增加了人脈稀少的人提出求職申請的可能性,因為他們藉由其他方式得知職缺的可能性,低於人脈寬廣的人。

最後,LinkedIn查看一項創新是否增加或減少最高1%使用者貢獻的營收比率、頁面瀏覽和其他營收指標,來追蹤各項改變做法對「不平等」情形的影響。這確保LinkedIn不會因為過度優化以配合最活躍的會員,而犧牲了投入程度較低的會員。

區隔關鍵市場。找出不同國家的差異,使LinkedIn與網飛能持續服務它們的主要區域,並擴大進入新的區域,而不強迫所有區域都得到同樣的體驗。例如在印度,人們主要透過行動設備上網,任何延緩應用程式載入速度的方案,都會大幅降低投入,程度更勝美國與其他市場,因為在這些市場的消費者,較不會使用舊式行動裝置或較慢的3G網路。

因此,LinkedIn為滿足印度與類似市場的需求,開發它的主要應用程式的精簡版LinkedIn Lite。為了讓它運行更快,精簡版採用較低相素,並修改了使用者介面,減少應用程式必須處理的數據量。

在網飛,針對裝置使用情形所做的市場研究,促使公司在印度推出一項實驗,只針對行動裝置備的會員計畫,最後決定正式實施。

陷阱2:忘了顧客相互連結

參與者之間的互動會影響測試結果

標準的A / B測試會比較A組與B組的情況,假定這兩組使用者之間沒有互動。在傳統的隨機實驗(像是測試新藥效果的臨床實驗),這前提通常很合理。但線上A / B測試中,參與者之間的互動可能會影響到結果。

假設有一個實驗測試的改變做法,目的是要讓你更容易與你LinkedIn網路的人脈展開對話,例如,當某人正在使用LinkedIn時通知你,或是告知一個你可能有興趣工作的公司裡的聯絡人,然後讓你從通知頁面上對他們發送訊息。沒有收到最新通知的使用者,可能會收到和回覆更多訊息(由獲得最新通知的人發送),改變做法很可能對控制組產生正面的影響。如果決策者沒有考慮這種「汙染」,可能會發生嚴重的錯估,進而導致錯誤的決策,像是得出結論,認為一個不好的實驗做法是好的,或是誤把好的實驗做法當成壞的。以下是避免這項陷阱的幾個方法:

兩種方法避免測試「汙染」

運用網路A / B測試。LinkedIn已開發出一些技術,可衡量群體互動的程度,或是完全避免這種互動。

它藉由隔絕A組使用者與B組使用者,來避免兩組使用者互動。隔絕方法是確保若使用者在A組,所有其他可能影響他行為的使用者,也都在A組。接著它對B組進行一樣的動作。

這些技巧能更仔細掌握到使用者的行為。設想一種新的內容推薦演算法,能顯示更多更長的文字內容(如新聞文章),以及較少圖片。

一般來說,圖片會吸引許多讚與少數評論,至於新聞文章得到的讚比較少,但評論比較多。然而,使用者比較可能與他們聯絡人評論的內容有互動或回應,可能性高於聯絡人僅是點讚的內容。雖然標準A / B測試會顯示新演算法促成的讚比較少,但線上A / B測試不僅掌握到那些讚,也會發現因為看到文章的使用者所做的更多評論,而產生的正面下游影響。

更廣泛的說,線上A / B測試協助LinkedIn的主管了解他們各項計畫的整體影響,並多次促成大幅改變策略。

運用時間序列實驗。這種A / B測試會隨機切換做法,有時讓整個市場完全接觸A實驗做法,有時完全接觸B實驗做法。有許多買家與賣家互動的線上市集(像是線上廣告拍賣平台與共乘平台),特別容易受到汙染。在那裡,即使是只針對部分使用者進行小型A / B測試,也會改變市場均衡,但這不代表所有人接觸到這項改變,就會出現這情況。不過,時間序列實驗可準確衡量改變做法對整個市場的真正影響。

例如,假設LinkedIn開發一種新演算法,來媒合求職者與職缺。為了衡量演算法的有效性,LinkedIn會在特定市場讓所有職缺訊息與求職者,使用新演算法三十分鐘。

在接下來的三十分鐘裡,它會隨機決定是要切換到舊的演算法,或是維持用新的演算法。它會持續這個過程至少兩週,以確保看到所有類型的求職模式。網飛的交錯策略,是這個較通用方法的一種特殊運用。

陷阱3:只關注短期結果

實驗時間必須夠長,才能看到真正變化

A / B測試要成功,實驗進行的時間必須夠長。只聚焦在短期的訊號,可能會因為幾個原因而放棄某項業務。首先,測試最初展現的訊號,往往與成員習慣這新體驗後的結果不同。使用者介面的改變尤其如此,使用者介面的新奇效應或「烙印」(burn-in)效應都很常見:使用者往往一開始會對新的功能特別有興趣,但過一段時間,興趣就慢慢消退。

其次,創新可能會導致使用者在使用產品的方式上,產生長期但緩慢實現的變化。例如,對推薦演算法或應用程式性能的持續改進,可能不會產生可測量的立即效果,但可能會緩慢但顯著地提高顧客滿意度。以下是造成這些行為的原因:

採行適當的實驗長度。你必須確保,你衡量的是新功能在穩定狀態的影響,而不是短期的新鮮效果。多久才夠久?這視情況而異,因為使用者對使用者介面改變的反應,不同於他們對推薦系統改變的反應。因此,你應該執行A / B測試直到使用者行為穩定。LinkedIn 與網飛都密切觀察使用者對新功能的投入程度,如何隨時間過去而變化;它們也發現,大部分測試通常在一週後測試結果才穩定下來。

進行「保留法」(holdout)實驗。在這種情況下,一小部分使用者在預設的一段時間裡(通常超過一個月),不會接觸到改變做法,而其他人則會接觸到。這個方法能協助公司衡量緩慢實現的效果。LinkedIn發現,保留法實驗在一些情況下很有益,像是許多遞增量變化的累積影響,可能最終導致改善,或是使用者可能需要一些時間,才會發現新功能。

想像你正在測試一個功能,這項功能藉由社群媒體消息的網絡連結,凸顯使用者達成了職涯里程碑(像是得到新工作)。這項功能可能會斷斷續續地啟用,可能一週只有一、兩次,取決於誰在這個成員的網絡中。

在這種情況下,可能需要幾週或幾個月的實驗期,才能確保實驗組成員接觸到足夠的更新,以測試這項新功能對消息品質的影響,或是相關使用者對那些內容的看法。

找出最有價值的機會

線上A / B測試提供一個強大方法,來深入了解潛在的改變做法對不同顧客區隔與市場的影響。但標準方法往往聚焦在新體驗對一般使用者的短期影響,這可能導致公司得出錯誤的結論。我們說明的技巧,可以協助主管避免常見的錯誤,並找出最有價值的短期與長期機會,不僅是有關全體顧客的機會,也包括針對某些具策略重要性顧客區隔的機會。

(王怡棻譯自“Avoid the Pitfalls of A / B Testing,” HBR, March-April 2020)



艾佛爾.博季諾夫 Iavor Bojinov

哈佛商學院技術與營運管理系助理教授。他之前在LinkedIn擔任資料科學家,領導因果推論計畫。


季約姆.聖亞克 Guillaume S

LinkedIn運算社會科學領導人。他之前是LinkedIn實驗科學團隊技術領導人。


馬丁.丁雷 Martin Tingle

領導網飛的產品實驗研究。在加入網飛之前,他任職於澳洲保險集團(Insurance Australia Group),並在美國賓州州立大學(Penn State University)任教。


本篇文章主題創新