本文出自

連結未來的人才

連結未來的人才

2016年10月號

康納曼教你精準判斷

Noise
丹尼爾.康納曼 Daniel Kahneman , 安德魯.羅森費爾德 Andrew M. Rosenfield , 琳妮.甘地 Linnea Gandhi , 湯姆.布萊瑟爾 Tom Blaser
瀏覽人數:15885
  • 文章摘要
  • "康納曼教你精準判斷"

  • 字放大
  • 多人授課購買
    購買〈康納曼教你精準判斷〉文章
  • 個人收藏購買
    購買〈康納曼教你精準判斷〉PDF檔
    下載點數 10
GONNY GONG
我們合作的一家全球金融服務公司裡,一位老客戶不小心把同一份申請檔案,分別送給兩個不同的辦公室。雖然檢視檔案的人員理應遵循同樣的準則,因此獲得類似的結果,但兩個辦公室回覆的報價竟然大不相同。

我們合作的一家全球金融服務公司裡,一位老客戶不小心把同一份申請檔案,分別送給兩個不同的辦公室。雖然檢視檔案的人員理應遵循同樣的準則,因此獲得類似的結果,但兩個辦公室回覆的報價竟然大不相同。那位客戶嚇了一跳,於是轉向該公司的競爭對手洽談生意。從公司的觀點來看,擔任同樣職位的員工應該可以互相取代,但在這個案例裡並非如此。令人遺憾的是,這是個常見的問題。

在許多公司裡,專業人員負責的工作,往往是任意指派的,例如,信用評等公司的鑑價人員、急診室醫師,以及放款和保險部門承銷人員等。公司期待這些專業人員應該有一致性,同樣的業務應以同樣方式處理,或至少是類似的方式。問題是,人類是不可信賴的決策者。人類的判斷,受不相干因素的影響極大,例如他們當下的心情、用餐過後多久時間,以及天氣。我們把判斷的隨機變動性稱為「雜音」(noise),它是影響許多公司獲利的隱形成本。

有些工作不受雜音影響。例如,銀行或郵局職員執行複雜的任務,但他們必須遵循嚴格的規則,因而抑制主觀判斷,並且從設計上,就讓同樣的業務以同樣方式處理。相反地,醫藥專業人員、放款專員、專案經理人、法官和企業高階主管做的主觀決定,都是基於非正式經驗和一般原則,而不是根據嚴格的規定。如果與他們扮演相同角色的其他人所作的決定,和他們的決定不一樣,是可接受的。這就是我們所謂的決定「取決於判斷」。當員工運用判斷,公司並不預期那個決定是完全沒有雜音的。但雜音往往遠超出高階主管能忍受的範圍,而且他們完全沒有察覺。

許多研究都指出,公司裡充斥著雜音。學術研究已多次證實,當專業人員在不同情況下處理同樣的資料,往往產生和自己先前判斷矛盾的結果。例如,軟體開發人員在不同的日子,評估完成某個任務所需的時間,結果兩次預估的時間平均差距為71%。當病理醫師分兩次判讀同一切片的嚴重程度,兩次結果的相關程度只有0.61(完全相關為1.0),顯示他們常做出不一致的診斷。不同人做的判斷,就更可能會不一致了。研究證實,在許多工作上,專家的決定有極大差異,例如,評價股票、鑑價房地產、審判罪犯、評估工作表現,以及稽核財報。當然的結論是,專業人員的決定,經常與同儕的決定、自己先前的決定和他們聲稱遵循的規則,都有顯著的不同。

雜音經常是隱藏的。即使是成功的公司,也會因為雜音而損失慘重,卻不知道有雜音存在。有多慘重?為了估計損失情況,我們詢問我們研究的一家公司裡的高階主管:「假設一樁生意的最適估價是十萬美元,而負責的專業人員評估為11.5萬美元和8.5萬美元,分別會對公司造成多少成本?」結果,預估的成本非常高。把每年的評估加總起來,雜音引起的成本將高達數十億美元。即使是大型的全球化公司,也無法接受這個數字。即使只是降低幾個百分點的雜音,仍可減少數千萬美元的成本。顯然在我們請他們估算之前,該公司完全忽略了這個一致性的問題。

大家早已知道,簡單的統計演算法得出的預測和決定,常比專家更準確。即使專家可取得的資訊比演算法公式使用到的資訊更多,結果仍是如此。但較不為人知的是,演算法關鍵性的優點就是沒有雜音。公式和人不一樣的地方,在於輸入某個資訊,它就一定會產生相同的結果。演算法具有優異的一致性,即使簡單而不完美的演算法,準確度也比專業人員來得高(當然,有時會因無法運作或政治問題而無法使用演算法,這點本文後續將會討論)。

本文說明雜音和偏誤的不同,以及高階主管如何檢視公司裡雜音的嚴重程度和影響。接著,我們會說明一個不昂貴卻不常使用的方法,以建立可減少雜音的演算法。至於無法使用演算法的情況,我們也將說明可提升一致性的程序。

雜音vs.偏誤

提到判斷和決策錯誤,大家通常會想到社會偏誤(例如,對少數族群的刻板印象),以及認知偏誤(例如,過度自信和盲目樂觀)。無益的變動性,也就是我們所謂的雜音,是另一種錯誤。我們以放在浴室的體重計,來說明如何分辨偏誤和雜音。如果一般來說它顯示的數字都太高或太低,我們會說它有偏誤。但如果你的腳剛巧放在不同的位置,就量出不同的體重,那麼它就是有雜音。如果每次量體重都正好少算四磅,那麼它有嚴重的偏誤,但沒有雜音。如果你站上去兩次,顯示兩個不同的數字,那表示它有雜音。許多衡量上的錯誤,偏誤和雜音都是影響因素。大多數便宜的浴室體重計,都是有點偏誤,且雜音很多。

「雜音和偏誤如何影響準確度」這個圖表,以視覺方式呈現兩者的區別。這四個靶顯示四支四個人的隊伍,每個人射擊一次得到的練習結果。

■A隊是準確的:隊員的射擊都在靶心上,彼此也接近。其他三隊是不準確的,但都是不一樣的狀況。

■B隊有雜音:隊員的射擊圍繞著靶心,但分散遙遠。

■C隊有偏誤:每發射擊都沒有打中靶心,但都聚集在一起。

■D隊既有雜音又有偏誤。

比較A隊和B隊可以發現,沒有偏誤時,雜音如果增加,準確度一定下降。有偏誤時,雜音如果增加,卻可能因運氣好而射中靶心,就像D隊的情況。當然,沒有任何一家公司希望仰賴運氣。雜音總是令人厭惡,甚至可能造成災難。

公司如果能了解員工作決定時的偏誤和雜音,顯然非常有用,但收集相關資訊並不容易。衡量這些錯誤時,會碰到一些不一樣的問題。其中一個主要問題是,決定帶來的結果,往往必須在很久以後才會知道,甚至永遠不知道。例如,放款人員往往必須等待好幾年,才看得出他們核准的貸款帶來什麼結果,至於被拒絕的申請者,幾乎永遠不會知道他們後來的情況。

偏誤和雜音不同之處在於,即使不知道正確的反應是什麼,我們仍可衡量雜音。以前述圖表來說明,假設刪除靶上的目標,你就完全不知道各隊的整體精確度,但看到B隊和D隊四處分散的射擊落點,便能肯定一定出了差錯。無論靶心在哪裡,不可能每個隊員都離它很近。若要衡量判斷過程中的雜音,只須進行一個簡單的實驗,讓幾位專業人員各自評估一些實際案例。同樣地,即使不知道正確答案,我們仍可觀察判斷的分散情況。我們稱這樣的實驗是「雜音檢視」(noise audit)。

進行雜音檢視

雜音檢視不是為了寫報告,它的最終目的,是提高決策品質。只有當單位領導人準備好接受令人不悅的檢視結果,並據此採取行動,雜音檢視才能成功。如果要爭取到高階主管這樣的支持,最好能讓他們把檢視結果視為自己的創作。因此,雜音檢視所使用的實際案例,應由受人敬重的團隊成員來匯整,且應涵蓋各種經常會遇到的問題。為了使檢視結果和每位成員息息相關,所有單位成員都應參與檢視。應由在行為實驗方面經驗豐富的社會科學專家,來督導檢視的技術層面,但進行檢視的那個專業單位必須主導整個過程。

最近,我們協助兩家金融服務公司進行雜音檢視。雖然我們研究的兩個團隊,在職責和專業方面差別相當大,但他們都需要評估有些複雜的資料,也都經常參與攸關數十萬美元的決策。檢視這兩家公司時,我們遵循相同的規則。首先,我們請專業團隊的經理人提出幾個實際案例,來作評估。為防止實驗的消息外洩,整個過程在一天之內完成。我們要求員工利用大約半天的時間,分析兩個到四個案例。他們必須決定每個案例的金額是多少美元,就像例行業務一樣。為了避免勾結作弊,我們並未告知參與者這項研究與可靠性有關。例如,其中一家公司說明研究目的是要理解員工的專業思考、增加他們所使用工具的效用,以及改善同事之間的溝通。A公司的七十位專業人員,以及B公司的五十位專業人員,參與了雜音檢視。

我們針對每一個案例建立了一個雜音指數,來回答以下問題:「若隨機選取兩位員工,他們的判斷有多大的差距?」我們以兩者差距的數值占平均數的百分比來表示。假設兩位員工對某個案例的評估分別是六百美元和一千美元。評估的平均值是八百美元,而兩人評估值的差距是四百美元,因此他們的雜音指數為50%。我們對兩人一組的每一組員工進行同樣的計算,然後得出每個案例的整體平均雜音指數。

在進行雜音檢視之前,我們訪談這兩家公司的高階主管。他們預估旗下專業人員的決策差異是5%至10%,這是他們對「需要作判斷的事情」可以接受的差異範圍。然而,檢視的結果讓他們震驚。A公司六個案例的雜音指數從34%至62%,整體平均是48%。B公司四個案例的雜音指數,介於46%到70%之間,平均是60%。也許最令人失望的是,工作經驗似乎並未降低雜音。工作經驗在五年或五年以上的專業人才,平均雜音指數在A公司是46%,在B公司是62%。

只要有判斷就有雜音,而且通常比你以為的還多。

沒有人預期會有這個結果。但因為檢視過程是由兩個公司的高階主管主導,所以他們接受這個結果,同意旗下專業人士的判斷可靠程度,已低落到了無法容忍的程度。所有的高階主管都很快就同意,必須採取行動來改善這個問題。

我們先前的研究已經發現專業判斷的低可靠度,這次雜音檢視的結果與先前研究結果相符,因此我們並不訝異。我們感到困惑的是,這兩家公司不曾認為專業判斷的可靠程度會有問題。

在商業世界裡,雜音問題實際上是隱形的。我們觀察到,每當提及專業判斷的可靠性可能有問題,聽者總是頗為驚訝。為什麼公司無法發覺員工的判斷充滿雜音?答案可從兩個熟悉的現象當中去尋找:經驗豐富的專業人員,往往很有信心自己的判斷很準確,也很尊重同事的智慧。這兩種心態加起來,不可避免地導致過度高估判斷的一致性。當專業人員被問到自己的同事會怎麼說,總是預期別人的判斷與自己的十分接近,但其實卻差得很遠。當然,經驗豐富的專業人員多半完全不在乎別人的想法,只認為他們自己的答案最好。人們看不見雜音問題的原因之一是,他們在生活中,並不習慣想像自己的每個判斷可能會有什麼其他選擇。

有時候,預期別人同意你的判斷是合理的,特別當你已熟練到可以靠直覺來判斷。高難度的西洋棋藝和駕駛,都是把工作練習到幾乎完美的例子。大師級的棋手觀看棋盤情勢時,都會有非常相似的評估,例如,白棋的皇后陷入危險,或是黑棋的國王防禦薄弱。技術高超的駕駛也一樣。如果我們不能假設周圍的司機,對十字路口和圓環的行駛優先順序,與我們的看法一致,那麼穿梭在車陣之中便會極為危險。在高層次的技術中,很少或沒有雜音。

技術高超的棋藝和駕駛,是在可預測的環境當中練習多年而培養出來的。在這種可預測的環境下,行動之後便立即收到清楚的回饋意見。可惜極少專業人員處於這樣的環境。在大多數工作中,員工聆聽經理人、同事的說明和批評,以學習如何判斷,而這種知識來源,比從自己的錯誤中學習更不可靠。長期擔任某個工作的經驗,總是讓人們對自己的判斷更具信心,但若是沒有快速得到回饋意見,有信心並不能保證準確性或共識。

我們在這裡以一則格言為總結:有判斷就有噪音,而且噪音通常比你想像的還多。我們相信,無論專業人員或經理人,通常都無法預測判斷的可靠程度。只有進行雜音檢視,才能得到準確的評估。至少在一些情況下,判斷不一致的問題,嚴重到需要採取行動。

降低雜音

最能從根本解決雜音問題的方法是,以正式規則取代人為判斷。這些規則稱為演算法,它使用有關某個情況的數據資料,來產生預測或決定。過去六十年來,人類曾和演算法進行數百場準確性競賽,涵蓋的任務很多,從預測癌症病患的預期壽命,到預測研究生未來是否成功。其中約有一半的競賽中,演算法比人類的專業人員更準確,另外一半是不分高下。平手的狀況也應該算是演算法獲勝,因為它的成本效益較高。

當然,在許多情況下,採用演算法並不實際。當輸入的項目非常獨特,或是難以轉換為格式一致的代碼,就可能無法使用規則。倘若判斷或決策涉及許多層面,或是必須和他人協商,這時候演算法也可能發揮不了用處。即使當演算法原則上可提供解決方案,有時公司內部考量也可能不採用演算法。以軟體取代現有員工,是一個痛苦的過程,勢必遭到阻力,除非它能讓那些員工改為從事更愉悅的任務。

但如果情況合適,開發和執行演算法其實非常容易。常見的假設是,演算法需要大量的數據,以進行統計分析。例如,我們訪談對象中的大多數人相信,需要幾萬筆貸款申請和申請結果的資料,才能開發出預測商業貸款違約的方程式。但很少有人知道,想開發出合用的演算法,並不需要任何結果的資料,只要輸入少數案例的資訊即可。沒有關於結果的資料所建立的預測公式,稱為「推理規則」(reasoned rule),因為它是根據常識推理而得。

建立推理規則的第一個步驟是,選擇少數一些變數(或許六至八個),這些變數毫無疑問確實與待預測的結果有相關性。例如,如果要預測的結果是貸款違約,變數必定包括資產和負債。下一個步驟是,在預測公式中給這些變數相等的權重,並設定明確的方向符號(資產為正,負債為負)。接下來,便可以運用一些簡單的計算,來建立推理規則(更多細節請見邊欄:「如何建立推理規則」)。

令人驚訝的是,許多研究發現,在許多情況下,推理規則的準確度,和考慮結果資料而建立的統計模型大致一樣。標準的統計模型,結合了一組預測變數,根據這些變數和待預測結果的關係,以及彼此之間的關係,來設定權重。但在許多情況下,這些權重不但在統計上並不穩定,實際上也不重要。給予所選擇的變數相同權重,是一個簡單且可能同樣有效的規則。所有變數權重相同、且不考慮結果資料的演算法,已證實可成功應用在許多領域,例如人事甄選、選舉結果預測、足球比賽結果預測等。

雖然人類可以輸入有用的資訊到公式裡,演算法卻能扮演比人類更好的最終決策者。

重點是,如果你打算用演算法來降低雜音,其實不必等待結果資料。你只要運用常識來選擇變數,再用最簡單的規則來組合那些變數,就可以獲得大部分的好處。

當然,不管使用什麼類型的演算法,人們都必須保留最終控制權。演算法必須加以監測,並在案例的情況條件有變化時做調整。經理人也必須持續注意個別的決策,並在情況條件明確時,否決演算法的結果。例如,如果公司發現貸款申請人已被逮捕,批准貸款的決定就應暫時取消。最重要的是,高階主管應決定如何把演算法的結果轉化為行動。演算法可告訴你,哪些貸款申請案排序在前5%或倒數10%,但必須有人決定如何處理這些資訊。

專業人員有時可把演算法當成資訊的中間來源,然後做出最終決定。例如,公共安全評估(Public Safety Assessment)這個公式,是要幫助美國法官決定,被告在候審期間是否可安全釋放。肯塔基州採用這個公式六個月之後,被告候審期間的犯罪率下降了約15%,而同時間在候審期間釋放被告的百分比是增加的。顯然在這個情況下,法官必須保留最終決定權。如果任憑公式來執行判決,大眾會非常震驚。

以下的資訊,可能會讓人感到不舒服,但研究顯示,雖然人類可以輸入有用的資訊到公式裡,演算法卻能扮演比人類更好的最終決策者。如果純粹從避免錯誤的角度來看,我們應強烈建議經理人,除非情況非常特殊,否則不該否決演算法的結果。

建立判斷的紀律

當專業判斷受到雜音干擾,便應考慮以演算法來取代人為決策,但在大多數情況下,這個解決方法過於激進,或是根本不切實際。另一個解決方法是,採取可提高一致性的程序;做法是確保擔任相同職務的員工,使用類似的方法,以收集資訊、把這些資訊整合為對情況的看法,然後把這個看法轉化為決策。徹底檢視建立這套程序的所有細節,已超出本文的範圍,但我們可以提供一些基本建議。另外要提醒的是,在作判斷時採取嚴謹的紀律,是非常不容易的。

當然,訓練極為重要。但即使是一起受訓的專業人員,也往往不自覺地陷入自己習慣的做事方式。為了防止這個情況,公司有時會舉行圓桌會議,讓決策人員共同檢視案例。可惜大多數圓桌會議的進行方式,都太容易達成共識,因為參與者很快便同意最先提出、或是提出的人表現得最有自信的意見。為了避免這種假性的共識,圓桌會議的每個參與者,都應各自研究待討論的案例,形成自己的意見,並準備為它辯護,而且在開會之前就把意見送交小組領導人。這樣的圓桌會議可有效檢視雜音,接著再進行小組討論,來探討意見的分歧狀況。

還有一個做法,可以替代或補充圓桌會議,就是提供專業人員便於使用的工具,例如,待處理事項清單和精心設計的問題,專業人員可以根據這些工具,來收集資料、做出中間判斷,以及達成最終決定。其中的每一個階段,都可能發生令人不樂見的變動,公司可以且應該測試這些工具降低那些變動的效果。理想的情況是,使用這些工具的人會把它們當成輔助,協助他們用更有效、更簡便的方式來工作。遺憾的是,我們的經驗顯示,建立有效又好用的判斷工具,難度超過許多高階主管的認知。控制雜音不容易,但我們期待,公司進行雜音檢視,以及評估雜音成本的量化金額之後,會同意降低隨機變動性的努力是值得的。

正視雜音

本文的主要目的,是讓經理人了解,什麼是導致錯誤的雜音,以及解釋雜音和偏誤有什麼不同。大眾注意到「偏誤」這個詞,是因為「錯誤」和「偏誤」常互換使用。其實,要做出更好的決策,不能光靠降低一般的偏誤(例如,過度樂觀),以及特定的社會和認知偏誤(例如,歧視女性或錨定效應)。關心準確度的主管,也應努力解決專業判斷不一致的普遍問題。雜音比偏誤更難察覺和理解,但它可能更真實,或是成本更高。

(黃晶晶譯自“Noise,”HBR, October 2016)



丹尼爾.康納曼 Daniel Kahneman

美國普林斯頓大學(Princeton University)心理學講座教授。2002年,和阿莫斯.特弗斯基(Amos Tversky)以認知偏差(cognitive bias)的研究,共同獲得諾貝爾經濟學獎。


安德魯.羅森費爾德 Andrew M. Rosenfield

TGG集團(Greatest Good Group)執行長和執行合夥人。


琳妮.甘地 Linnea Gandhi

TGG集團執行董事。


湯姆.布萊瑟爾 Tom Blaser

TGG集團執行董事。


本篇文章主題決策