本文出自

2019全球執行長100強

2019全球執行長100強

2019年11月號

創造買家賣家都信任的評分機制,設計更好的線上評論

Designing Better Online Review Systems
吉奧夫.多納克 Geoff Donaker , 金賢珍 Hyunjin Kim(音譯) , 麥可.魯卡 Michael Luca
瀏覽人數:3681
  • "創造買家賣家都信任的評分機制,設計更好的線上評論"

  • 字放大
  • 授課文章購買
    購買〈創造買家賣家都信任的評分機制,設計更好的線上評論〉文章
  • 個人收藏購買
    購買〈創造買家賣家都信任的評分機制,設計更好的線上評論〉PDF檔
    下載點數 10
插畫:尚恩.麥克柏(Sean Mccabe)
要解決評論短缺問題,企業可以「播種」評論。要解決選擇偏誤的問題,企業可要求顧客撰寫評論、允許發表私下評論、仔細設計提示。要打擊詐騙和策略性評論,可設立撰寫評論的規則,並引進員工、社群或演算法等方式來審核評論。

線上評論正在改變消費者挑選產品與服務的方式:我們會上TripAdvisor去規畫假期,到Zocdoc去找醫師,上Yelp去找餐廳。在亞馬遜(Amazon)和Airbnb等網路市集裡,評論系統也扮演核心角色。更廣泛來看,愈來愈多組織,從史丹福醫院(Stanford Health Care)到美國十大零售商中的九家,現在都維持著評論生態系統的運作,以協助顧客了解他們的產品。

評論系統若是管理得當,可以為買賣雙方創造價值。值得信賴的系統,讓消費者有信心購買無名氣的產品,無論是選購新書或在當地餐廳吃晚餐都如此。例如,本文作者之一麥可的研究發現,較高的Yelp評價為賣家帶來較高的銷售額。對於名聲尚未打響的獨立企業來說,這個效果更大。評論還會建立一個回饋迴路(feedback loop),提供有價值的資訊給供應商:例如,消費者的評價讓優步(Uber)剔除表現不良的司機,也為消費品生產商提供指引,以改良他們的產品。

但是,每出現一個蓬勃發展的評論系統,就會有其他許多乏人問津的評論系統,既無法吸引人去寫評論,使用者也沒興趣用。而有一些評論系統雖然彙集了許多評論,但未能建立消費者對它的資訊有用程度的信任。例如,若是某一平台上的評論都是正面的,人們可能會認為受到評價的商品全都品質優良,或者他們也可能認定,這個系統無法協助他們區分產品好壞。如果評論提供的使用體驗不夠完整,可能會誤導人。虛假或自吹自擂的評論,會妨礙平台建立信任的努力。麥可和尤格斯.澤華斯(Georgios Zervas)的研究發現,企業在本身聲譽岌岌可危或競爭特別激烈時,尤其可能從事評論欺騙。

評論系統的許多失敗,源於一個相同的假設:打造這些系統代表的是一種技術挑戰,而非管理挑戰。企業領導人常投資大筆經費在系統背後的技術,卻沒有積極管理內容,導致一些常見的問題。不良的設計選擇,可能導致嚴重後果:我們很難想像,如果Airbnb無法讓房東建立信譽(這一點非常仰賴評論),旅客怎麼會信任Airbnb;我們也很難想像,如果沒有評論,購物者如何能順暢瀏覽亞馬遜網站。本文兩位作者賢珍與麥可都是學者,曾研究導致某些線上平台成功而其他平台失敗的設計選擇,並和Yelp等公司合作,在這個領域協助他們(賢珍也是Yelp的經濟學研究實習生)。本文另一位作者吉奧夫曾擔任Yelp的營運長十多年,協助Yelp的評論生態系統成為在地服務資訊的全球首要來源之一。

若是某一平台上的評論都是正面的,人們可能認定,這個系統無法協助他們區分產品好壞。

近年來,愈來愈多的研究在探索,哪些設計選擇可以帶來更穩健可靠的評論與信譽系統。本文根據我們的研究、教學、與企業的合作,探討了用於管理評論生態系統的架構,闡明可能出現哪些議題,以及可避開常見陷阱的誘因與設計選擇。我們接下來會更仔細檢視每個議題,並說明如何解決。

評論數量不足

播種評論、提供誘因、彙集產品

Yelp剛問世時,從定義來說它就是一個新平台,也就是像個荒廢的城鎮,很少有評論者或讀者。許多評論系統都有缺乏評論的經驗,尤其是剛開始營運時。雖然大多數人閱讀評論以作為購物的參考,但只有一小部分人會在他們使用的任何平台上撰寫評論。這個情況會因為評論平台具有強大的網路效應(network effect)而加劇:讀者很少的平台特別難吸引人來撰寫評論,而評論很少的平台很難吸引讀者。

我們建議採用三種做法,以協助產生足夠數量的評論:在系統內「播種」、提供誘因、彙集相關產品以便同時展示有關它們的評論。這些做法的正確組合方式,取決於下列因素:系統是否在成長軌道上,系統裡將包括多少個別產品,以及系統本身有哪些目標。

「播種」評論。平台在創立初期,可考慮雇用評論人員,或從其他平台取得評論(透過合作關係並附上正確出處)。Yelp為了讓新城市的使用者開始造訪Yelp並發表評論,招募了有薪的兼職「先遣人員」,他們貼上個人照片和評論,為期幾個月,直到這個平台開始流行為止。對其他企業來說,和專門從事評論的平台合作,也可能很有價值,這對於想要建立自家評論生態系統的企業,以及想要呈現評論但不想建立自家平台的企業,都很有價值。亞馬遜和微軟(Microsoft)等公司,都從Yelp和其他平台取得評論,以充實自家網站。

對於希望擴大自家評論生態系統的平台來說,「播種」評論的做法在早期可能特別有用,因為不需要知名品牌來激勵人們使用這個平台。但是,如果產品或服務的數量很大,就得花大錢,而且你獲得的評論可能和自然產生的內容不同,因此有些平台若是迅速度過「播種」評論的階段,可能會有好處(取決於他們的目標)。

提供誘因。激勵你的平台使用者提供評論和評分,是擴展平台的一個方法,也能營造一種社群意識。你可以使用財務誘因:2014年,Airbnb提供一張25美元的優惠券以換取評論,結果評論率提高6.4%。但是,非財務的誘因(例如給予實物禮物或地位象徵)也能激勵人們發表評論,尤其若是你的品牌已有高知名度。在Google的「在地嚮導」計畫(Local Guides)當中,使用者只要為平台作點貢獻就能獲得積分,例如撰寫評論、添加照片、更正內容或回答問題。他們可以拿這些積分來換獎品,例如搶先體驗Google新產品,或Google雲端硬碟儲存空間免費升級到1TB(TB為兆位元組)。Yelp「精英小組」裡那些產量多、素質高的評論者,可在Yelp平台上擁有一個特別的稱號,還有一些福利,像是受邀參加私人派對和活動等。

如果你有龐大的產品系列,財務誘因可能會變成挑戰。但更需要擔心的可能是,如果財務與非財務誘因設計不良,可能會產生反效果,吸引使用者快速上傳許多草率的評論,對其他顧客並無助益。

在有些網站上,顧客的體驗如果良好,可能較願意寫評論;在另外一些網站上,顧客只有在體驗極佳或極差時,才會寫下評論。

彙集產品。你可以重新考慮評論的單位,把單一評論應用到多項產品。例如,在Yelp平台上,共用髮廊空間的幾位髮型師,在單一髮廊的搜尋結果頁面中一起接受評論。這種匯總做法大大增加了Yelp針對某一家企業所能彙集的評論數量,因為對其中任何一位髮型師的評論,都會出現在那家髮廊的頁面上。此外,許多髮廊經常出現髮型師離職的問題,因此對潛在顧客來說,那家髮廊的聲譽與髮型師的聲譽至少是同樣重要的。同樣地,評論平台若是要求使用者評論賣家(例如拍賣網站eBay的做法),而不是分別評論每個已售出的產品,也許能產生更多有用的評論。

從一開始就決定評論系統是否要彙集產品,以及如何彙集,可能會有助益,因為這樣做可以確定平台的性質。(這個平台是要讓人得到有關髮型師的資訊,還是髮廊的資訊?)隨著你的產品空間擴大,彙集產品的做法會特別有吸引力,因為你是以有用的方式來彙集更多品項。

不過,這種方法會有個風險:彙集產品以獲得更多評論,可能無法為你的顧客提供他們需要的有關任何特定產品的資訊。例如不妨想想看,在同一髮廊受到各個髮型師服務的經驗,是否很不一樣?關於某位髮型師的評論,對另一位髮型師的潛在顧客是否有參考價值?

亞馬遜彙集它書店內的評論時,會考量讀者想購買書籍的形式。同樣一本書的各種文字版(精裝本、平裝本和電子書)的評論放在一起,但有關那本書的有聲書的評論,則是另外放在有聲讀物(Audible)品牌下。對於想要了解書籍內容的顧客來說,把有聲書與實體書的所有評論彙集在一起是有益的。但是,因為對購買有聲書的人來說,有聲產品的製作品質和朗讀者的資訊都是重要因素,因此把那些評論分開處理,可能有是有好處的。

所有這些策略都有助於克服評論短缺的問題,隨著更多的讀者受益於平台並與平台互動,內容就能夠自行發展下去。但是,平台不僅要考慮評論的數量,也得考慮評論內含資訊的有助益程度,這可能受到選擇偏誤(selection bias)和系統操控所影響。

選擇偏誤

要求評論、允許私下評論、設計提示

你是否曾經上網寫過評論?如果寫過,是什麼因素讓你決定在那個特定情況下發表評論?研究顯示,使用者之所以決定寫評論,通常取決於他們的體驗品質。在有些網站上,顧客的體驗如果良好,可能較願意寫評論;在另外一些網站上,顧客只有在體驗極佳或極差時,才會寫下評論。無論哪種情況,最終的評價可能會受到選擇偏誤之害:那些評論可能沒有正確呈現出顧客使用那個產品的全部經驗。例如,如果只有滿意的人寫評論,評價會不自然地偏高。如果企業只催促滿意的顧客寫下評論,選擇偏誤可能會變得更加明顯。

eBay在2011年遭遇到選擇偏誤的挑戰,當時它注意到賣家的得分高得可疑:它網站上的大多數賣家獲得超過99%的正面評價。eBay和經濟學家克里斯.諾斯科(Chris Nosko)及史帝文.塔德利斯(Steven Tadelis)合作,發現使用者較可能在獲得美好體驗之後寫下評論:約4,400萬在該網站上完成的交易中,只有0.39%得到負面評論或評分,但是真正有問題的「爭議單」(dispute ticket)是它的兩倍多(1%),而買家和賣家交換訊息(顯示這項交易可能是差勁的體驗)的比率則是七倍(3%)。買家是否決定對賣家作出評論,其實是預測未來是否會有投訴的較好指標(因此是用來衡量品質的更佳替代指標),優於賣家得到的評價。

eBay認為,若能改正評價者的選擇偏誤,並且更清楚地凸顯出優質賣家,應該就能改善買家的體驗,因而提升銷售。它重新設定賣家得分的計算方式,賣家獲得正面評價的交易數,占他全部交易數的百分比(而不是正面評價所占的百分比)。這項新的衡量方式產生的中位數為67%,得分的分布範圍很廣,而看到新分數的潛在顧客,比對照組更可能回到eBay網站並再次購買。

以類似方式在你的平台上標繪出得分,就可以調查你獲得的評分是否有偏頗、問題可能有多嚴重,以及額外的數據是否能協助你改正這個問題。任何評論系統都可精心設計,以減輕最有可能面臨的偏誤。整個評論過程,從最初的詢問,到使用者寫下自己的評論時得到的訊息,這整個過程提供了一些機會,可促成使用者展現較少偏誤的行為。實驗運用各種設計選擇,有助於顯示如何減少評論者自行選擇是否要寫評論的偏誤,以及使用者以特定方式評分的任何傾向。

要求顧客評論。一個較強硬的做法,是要求購買者在進行另一次購物之前,先對這次購物作出評論。但是要小心進行:這可能會促使一些顧客脫離你的平台,也可能導致沒有參考性的大量評價湧進平台,這些是顧客不經思考的評論,結果在你的評論中製造了雜音和另一種錯誤。因此,平台通常會尋找其他方法來盡量減少選擇偏誤。

允許私下評論。經濟學家約翰.霍頓(John Horton)和約瑟夫.高登(Joseph Golden)在自由工作者評論網站Upwork上發現,雇主和自由工作者打交道而有負面經驗後,不願寫下公開的評論,但願意提出只有Upwork能看到的回饋意見。(私下表示有不良體驗的雇主,在將近20%的情況下仍然會公開給予最佳評價的回饋意見。)這為Upwork提供重要的資訊,明白了使用者何時願意或不願意寫下評論,以及哪些自由工作者有問題;Upwork可以根據這些資訊,來修改推薦適合的自由工作者的演算法,或提供有關自由工作者的匯總回饋意見。這些意見改變了雇用決定,顯示這是有價值的附加資訊。

仔細設計提示。一般來說,人們是否寫下評論,取決於他們被要求寫評論的方式與時間。平台可以仔細設計使用者決定是否作出評論的環境裡的不同層面,以盡量減少評論中的偏誤。這種方法通常稱為選擇架構(choice architecture),這是凱斯.桑思坦(Cass Sunstein)和理察.賽勒(Richard Thaler)創造的詞,他們兩人合著有《推力》(Nudge: Improving Decisions About Health, Wealth, and Happiness)。這個詞可運用在很多地方,從提示的內容應該如何措辭,到要給使用者提供多少選項,都包括在內。

我們曾在Yelp上進行一項實驗,提供使用者不同的訊息,敦促他們寫下評論。一些使用者看到的是一般的訊息「等待你的下一則評論」,其他使用者則被要求協助當地企業受到注意,或協助其他消費者找到在地商家。我們發現,後面那一組使用者所寫的評論往往較長。

詐騙和策略性評論

設定評論者規則、引進審核者

賣家有時會設法(不道德地)為自己寫下正面評論,以提升自己的評價,或假裝是真正顧客而寫下對競爭對手的負面評論。這種做法被稱為「偽造評論」(astroturfing)。愈有影響力的平台,就愈多人會試圖在那個平台上偽造評論。

偽造評論可能對消費者造成傷害,因此政策制定者和法規監管機構已介入。2013年,當時擔任紐約州檢察長的艾瑞克.史奈德曼(Eric Schneiderman)展開行動來處理這個問題,而且還提到,我們的研究是促成那項行動的部分動機。史奈德曼的辦公室宣布與19家公司達成協議,這些公司曾協助商家在線上平台偽造評論,協議內容要求他們停止這種做法,並為受到的指控支付巨額罰款,這些指控包括虛假廣告和詐騙的商業實務做法。但就像處理店內行竊一樣,企業不能只依靠法律執行;若要避開虛偽不實評論的陷阱,企業還得設置自己的保護措施。正如麥可和尤格斯.澤華斯合撰的論文裡討論的,有些公司(包括Yelp)故意設下圈套,以找出並處理嘗試撰寫虛假評論的公司。

如果買賣雙方相互評價,並特別設計評論內容,以促使對方給予較高評分,就會引發一個相關的挑戰。想想你上次入住Airbnb住房的情形。退房之後,系統提示你寫下對房東的評論,房東也被要求寫下對你的評論。在2014年之前,如果你比房東先寫下評論,他可以先讀到你寫的評論,再決定對你的評論要寫些什麼。結果呢?你想要寫下負面評論時,可能會再多考慮一下。

平台的設計選擇和內容審核(content moderation),在減少詐騙和策略性評論的數量方面,具有重要作用。

設定評論規則。設計選擇的第一步,是要決定誰可以發表評論,以及要凸顯誰的評論。例如,發表某一則評論的人若是經過驗證的購買產品人士,亞馬遜就會顯示一個圖示,這可協助消費者過濾掉可能是詐騙的評論。智遊網(Expedia)更進一步,只允許透過自家平台預訂行程的客人寫評論。蒂娜.梅茲林(Dina Mayzlin)、亞尼夫.多佛(Yaniv Dover)、茱蒂絲.奇華利爾(Judith Chevalier)的研究顯示,這樣的政策可減少詐騙評論的數量。同時,針對誰能發表評論,訂出更嚴格的規定,可能是一種會大幅減少真正的評論和評論者的粗暴手段。平台必須決定,減少潛在假評論的好處,是否超過減少正當評論的損失。

無論你的系統設計選擇多麼出色,垃圾訊息可能會溜進來、行為不良的人可能試圖操弄你的系統,或是評論可能過時。你必須引進內容審核人員。

平台也決定何時可以提交和顯示評論。Airbnb了解到,未留下評論的人的住宿體驗,總是比有寫評論的人更糟,於是實施「同步披露」的規定,以阻止房客與房東之間的互惠評論,讓他們可以提供更完整的回饋意見。Airbnb改為等到房客與房東都已提供評論之後,才顯示評分,並設定可撰寫評論的最後期限。Airbnb做了這個改變後,由安德瑞.傅瑞德金(Andrey Fradkin)、艾琳娜.葛瓦爾(Elena Grewal)、大衛.霍茲(David Holtz)的研究發現,房客與房東的平均得分都降低了,而評論率提高了;這顯示,評論者受到保護而不會遭到報復之後,比較不害怕在獲得惡劣體驗之後,留下回饋意見。

引進審核人員。無論你的系統設計選擇多麼出色,一定會遇到許多問題。垃圾訊息可能會溜進來。行為不良的人可能試圖操弄你的系統。兩年前極為切題的評論,現在可能過時了。有些評論就是比其他評論來得有用。例如,沒有購買這項產品的人所寫的評論,可能被排除,但若是有一些這類評論留下來,仍可能會誤導人,或是可參考資訊較少。審核時可根據評論內容來剔除會誤導人的評論,而不僅是根據評論是誰寫的,或是何時寫的。

內容審核可分為三類:員工、社群和演算法。負責審核的員工,通常稱為社群經理,可在上班時間積極使用自家的平台服務、在線上和其他使用者互動、刪除不當內容、提供回饋意見給主管。這個選項的花費最高,但可協助你快速了解什麼做法有效,什麼無效,並確保隨時都有人在管理網站上顯示的內容。

社群審核則是讓所有使用者協助找出並標示不良內容,包括虛假誇大的評論、垃圾訊息,以及其他形式的惡言惡語。Yelp有個簡單的圖示,使用者可用來表示關切,包括擔心某則評論騷擾了另一名評論者,或是某則評論談的是不相干的事情。亞馬遜詢問使用者,每一則評論有無助益,然後利用這項資料來選擇要最先顯示哪些評論,並抑制特別無益的評論。但通常只有一小部分使用者會標示內容品質,所以參與的使用者必須達到「關鍵多數」(critical mass),才能使社群標示系統發揮效用。

審核內容的第三個方法,是仰賴演算法。Yelp的推薦軟體,每天處理數十種關於每則評論的因素,並更換有顯著「受到推薦」字樣顯示的評論。Yelp在2014年表示,在任何時候受到推薦的文字評論都不到75%。亞馬遜、Google和TripAdvisor都已執行評論品質演算法,從平台上刪除不當內容。演算法當然可以超越二分法,改為估算要給每個評級多少權重。麥可和戴黛西(Daisy Dai)、金琴哲(Ginger Jin)和李正敏(Jungmin Lee)合寫的論文,探討評分匯總(rating aggregation)的問題,強調指定權重給每個評級,有助於克服基本評論流程中的挑戰。

整合所有評論

評論系統必須正確反應使用者體驗

別人的經驗,一直都是有關產品品質的重要資訊來源。例如,美國家庭醫師學會(American Academy of Family Physicians)建議人們詢問親朋好友有關醫師的訊息,徵求他們的建議。評論平台已加速並系統化這個過程,因而更容易借重眾人的智慧。線上評論對顧客、平台和決策者都很有用。例如,我們使用Yelp資料來檢視各種議題,從了解破敗地區富裕化(gentrification)期間鄰近地區有什麼變化,到估計最低工資提升對業績的影響,不一而足。但為了讓評論對消費者、賣家和一般大眾有助益,管理評論系統的人員必須仔細考慮設計選擇,以及如何最正確反映使用者的體驗。

(侯秀琴譯自“Designing Better Online Review Systems,” HBR, November-December 2019)



吉奧夫.多納克 Geoff Donaker

曾擔任Yelp營運長及董事。


金賢珍 Hyunjin Kim(音譯)

哈佛商學院策略單位博士生。


麥可.魯卡

麥可.魯卡 Michael Luca

哈佛商學院企管講座副教授,與人合著《實驗的威力:在資料驅動的世界作決策(The Power of Experiments: Decision Making in a Data-Driven World),即將由麻省理工學院出版社(MIT Press)出版。


本篇文章主題行銷