決策康納曼教你精準判斷

康納曼教你精準判斷

GONNY GONG

(2024年3月29日編按:諾貝爾經濟學獎得主丹尼爾.康納曼近日與世長辭,享壽90歲。)本文說明雜訊和偏誤的不同,以及高階主管如何檢視公司裡雜訊的嚴重程度和影響。接著,我們會說明一個不昂貴卻不常使用的方法,以建立可減少雜訊的演算法。至於無法使用演算法的情況,我們也將說明可提升一致性的程序。

我們合作的一家全球金融服務公司裡,一位老客戶不小心把同一份申請檔案,分別送給兩個不同的辦公室。雖然檢視檔案的人員理應遵循同樣的準則,因此獲得類似的結果,但兩個辦公室回覆的報價竟然大不相同。那位客戶嚇了一跳,於是轉向該公司的競爭對手洽談生意。從公司的觀點來看,擔任同樣職位的員工應該可以互相取代,但在這個案例裡並非如此。令人遺憾的是,這是個常見的問題。

在許多公司裡,專業人員負責的工作,往往是任意指派的,例如,信用評等公司的鑑價人員、急診室醫師,以及放款和保險部門承銷人員等。公司期待這些專業人員應該有一致性,同樣的業務應以同樣方式處理,或至少是類似的方式。問題是,人類是不可信賴的決策者。人類的判斷,受不相干因素的影響極大,例如他們當下的心情、用餐過後多久時間,以及天氣。我們把判斷的隨機變動性稱為「雜訊」(noise)(編按:也可譯為「雜音」),它是影響許多公司獲利的隱形成本。

有些工作不受雜訊影響。例如,銀行或郵局職員執行複雜的任務,但他們必須遵循嚴格的規則,因而抑制主觀判斷,並且從設計上,就讓同樣的業務以同樣方式處理。相反地,醫藥專業人員、放款專員、專案經理人、法官和企業高階主管做的主觀決定,都是基於非正式經驗和一般原則,而不是根據嚴格的規定。如果與他們扮演相同角色的其他人所作的決定,和他們的決定不一樣,是可接受的。這就是我們所謂的決定「取決於判斷」。當員工運用判斷,公司並不預期那個決定是完全沒有雜訊的。但雜訊往往遠超出高階主管能忍受的範圍,而且他們完全沒有察覺。

許多研究都指出,公司裡充斥著雜訊。學術研究已多次證實,當專業人員在不同情況下處理同樣的資料,往往產生和自己先前判斷矛盾的結果。例如,軟體開發人員在不同的日子,評估完成某個任務所需的時間,結果兩次預估的時間平均差距為71%。當病理醫師分兩次判讀同一切片的嚴重程度,兩次結果的相關程度只有0.61(完全相關為1.0),顯示他們常做出不一致的診斷。不同人做的判斷,就更可能會不一致了。研究證實,在許多工作上,專家的決定有極大差異,例如,評價股票、鑑價房地產、審判罪犯、評估工作表現,以及稽核財報。當然的結論是,專業人員的決定,經常與同儕的決定、自己先前的決定和他們聲稱遵循的規則,都有顯著的不同。

雜訊經常是隱藏的。即使是成功的公司,也會因為雜訊而損失慘重,卻不知道有雜訊存在。有多慘重?為了估計損失情況,我們詢問我們研究的一家公司裡的高階主管:「假設一樁生意的最適估價是十萬美元,而負責的專業人員評估為11.5萬美元和8.5萬美元,分別會對公司造成多少成本?」結果,預估的成本非常高。把每年的評估加總起來,雜訊引起的成本將高達數十億美元。即使是大型的全球化公司,也無法接受這個數字。即使只是降低幾個百分點的雜訊,仍可減少數千萬美元的成本。顯然在我們請他們估算之前,該公司完全忽略了這個一致性的問題。

大家早已知道,簡單的統計演算法得出的預測和決定,常比專家更準確。即使專家可取得的資訊比演算法公式使用到的資訊更多,結果仍是如此。但較不為人知的是,演算法關鍵性的優點就是沒有雜訊。公式和人不一樣的地方,在於輸入某個資訊,它就一定會產生相同的結果。演算法具有優異的一致性,即使簡單而不完美的演算法,準確度也比專業人員來得高(當然,有時會因無法運作或政治問題而無法使用演算法,這點本文後續將會討論)。

本文觀念精粹

問題許多公司期待專業員工的表現具有一致性,然而,人類的判斷經常受天氣、上次經驗等不相干因素影響。更重要的是,不同的員工往往做出不同決定。判斷的隨機變動性稱為「雜音」,它讓公司蒙受驚人的成本。
起始點經理人應該進行雜音檢視,讓單位中的成員各自評估同樣一組狀況,以他們所做決定的差異程度來衡量雜音。雜音常比經理人預期的高出非常多。
解決方案針對嚴重的雜音問題,最根本的解決方案,就是以演算法代替人為判斷。建立演算法並不困難,卻常因運作面和政策面的因素而不可行。在這種情形下,公司應建立一些程序,來幫助專業人員提高一致性。

本文說明雜訊和偏誤的不同,以及高階主管如何檢視公司裡雜訊的嚴重程度和影響。接著,我們會說明一個不昂貴卻不常使用的方法,以建立可減少雜訊的演算法。至於無法使用演算法的情況,我們也將說明可提升一致性的程序。

雜訊vs.偏誤

提到判斷和決策錯誤,大家通常會想到社會偏誤(例如,對少數族群的刻板印象),以及認知偏誤(例如,過度自信和盲目樂觀)。無益的變動性,也就是我們所謂的雜訊,是另一種錯誤。我們以放在浴室的體重計,來說明如何分辨偏誤和雜訊。如果一般來說它顯示的數字都太高或太低,我們會說它有偏誤。但如果你的腳剛巧放在不同的位置,就量出不同的體重,那麼它就是有雜訊。如果每次量體重都正好少算四磅,那麼它有嚴重的偏誤,但沒有雜訊。如果你站上去兩次,顯示兩個不同的數字,那表示它有雜訊。許多衡量上的錯誤,偏誤和雜訊都是影響因素。大多數便宜的浴室體重計,都是有點偏誤,且雜訊很多。

「雜訊和偏誤如何影響準確度」這個圖表,以視覺方式呈現兩者的區別。這四個靶顯示四支四個人的隊伍,每個人射擊一次得到的練習結果。

  • A隊是準確的:隊員的射擊都在靶心上,彼此也接近。其他三隊是不準確的,但都是不一樣的狀況。
  • B隊有雜訊:隊員的射擊圍繞著靶心,但分散遙遠。
  • C隊有偏誤:每發射擊都沒有打中靶心,但都聚集在一起。
  • D隊既有雜訊又有偏誤。

比較A隊和B隊可以發現,沒有偏誤時,雜訊如果增加,準確度一定下降。有偏誤時,雜訊如果增加,卻可能因運氣好而射中靶心,就像D隊的情況。當然,沒有任何一家公司希望仰賴運氣。雜訊總是令人厭惡,甚至可能造成災難。

公司如果能了解員工作決定時的偏誤和雜訊,顯然非常有用,但收集相關資訊並不容易。衡量這些錯誤時,會碰到一些不一樣的問題。其中一個主要問題是,決定帶來的結果,往往必須在很久以後才會知道,甚至永遠不知道。例如,放款人員往往必須等待好幾年,才看得出他們核准的貸款帶來什麼結果,至於被拒絕的申請者,幾乎永遠不會知道他們後來的情況。

偏誤和雜訊不同之處在於,即使不知道正確的反應是什麼,我們仍可衡量雜訊。以前述圖表來說明,假設刪除靶上的目標,你就完全不知道各隊的整體精確度,但看到B隊和D隊四處分散的射擊落點,便能肯定一定出了差錯。無論靶心在哪裡,不可能每個隊員都離它很近。若要衡量判斷過程中的雜訊,只須進行一個簡單的實驗,讓幾位專業人員各自評估一些實際案例。同樣地,即使不知道正確答案,我們仍可觀察判斷的分散情況。我們稱這樣的實驗是「雜訊檢視」(noise audit)。

進行雜訊檢視

雜訊檢視不是為了寫報告,它的最終目的,是提高決策品質。只有當單位領導人準備好接受令人不悅的檢視結果,並據此採取行動,雜訊檢視才能成功。如果要爭取到高階主管這樣的支持,最好能讓他們把檢視結果視為自己的創作。因此,雜訊檢視所使用的實際案例,應由受人敬重的團隊成員來匯整,且應涵蓋各種經常會遇到的問題。為了使檢視結果和每位成員息息相關,所有單位成員都應參與檢視。應由在行為實驗方面經驗豐富的社會科學專家,來督導檢視的技術層面,但進行檢視的那個專業單位必須主導整個過程。

最近,我們協助兩家金融服務公司進行雜訊檢視。雖然我們研究的兩個團隊,在職責和專業方面差別相當大,但他們都需要評估有些複雜的資料,也都經常參與攸關數十萬美元的決策。檢視這兩家公司時,我們遵循相同的規則。首先,我們請專業團隊的經理人提出幾個實際案例,來作評估。為防止實驗的消息外洩,整個過程在一天之內完成。我們要求員工利用大約半天的時間,分析兩個到四個案例。他們必須決定每個案例的金額是多少美元,就像例行業務一樣。為了避免勾結作弊,我們並未告知參與者這項研究與可靠性有關。例如,其中一家公司說明研究目的是要理解員工的專業思考、增加他們所使用工具的效用,以及改善同事之間的溝通。A公司的七十位專業人員,以及B公司的五十位專業人員,參與了雜訊檢視。

我們針對每一個案例建立了一個雜訊指數,來回答以下問題:「若隨機選取兩位員工,他們的判斷有多大的差距?」我們以兩者差距的數值占平均數的百分比來表示。假設兩位員工對某個案例的評估分別是六百美元和一千美元。評估的平均值是八百美元,而兩人評估值的差距是四百美元,因此他們的雜訊指數為50%。我們對兩人一組的每一組員工進行同樣的計算,然後得出每個案例的整體平均雜訊指數。

在進行雜訊檢視之前,我們訪談這兩家公司的高階主管。他們預估旗下專業人員的決策差異是5%至10%,這是他們對「需要作判斷的事情」可以接受的差異範圍。然而,檢視的結果讓他們震驚。A公司六個案例的雜訊指數從34%至62%,整體平均是48%。B公司四個案例的雜訊指數,介於46%到70%之間,平均是60%。也許最令人失望的是,工作經驗似乎並未降低雜訊。工作經驗在五年或五年以上的專業人才,平均雜訊指數在A公司是46%,在B公司是62%。

只要有判斷就有雜訊,而且通常比你以為的還多。

沒有人預期會有這個結果。但因為檢視過程是由兩個公司的高階主管主導,所以他們接受這個結果,同意旗下專業人士的判斷可靠程度,已低落到了無法容忍的程度。所有的高階主管都很快就同意,必須採取行動來改善這個問題。

我們先前的研究已經發現專業判斷的低可靠度,這次雜訊檢視的結果與先前研究結果相符,因此我們並不訝異。我們感到困惑的是,這兩家公司不曾認為專業判斷的可靠程度會有問題。

在商業世界裡,雜訊問題實際上是隱形的。我們觀察到,每當提及專業判斷的可靠性可能有問題,聽者總是頗為驚訝。為什麼公司無法發覺員工的判斷充滿雜訊?答案可從兩個熟悉的現象當中去尋找:經驗豐富的專業人員,往往很有信心自己的判斷很準確,也很尊重同事的智慧。這兩種心態加起來,不可避免地導致過度高估判斷的一致性。當專業人員被問到自己的同事會怎麼說,總是預期別人的判斷與自己的十分接近,但其實卻差得很遠。當然,經驗豐富的專業人員多半完全不在乎別人的想法,只認為他們自己的答案最好。人們看不見雜訊問題的原因之一是,他們在生活中,並不習慣想像自己的每個判斷可能會有什麼其他選擇。

有時候,預期別人同意你的判斷是合理的,特別當你已熟練到可以靠直覺來判斷。高難度的西洋棋藝和駕駛,都是把工作練習到幾乎完美的例子。大師級的棋手觀看棋盤情勢時,都會有非常相似的評估,例如,白棋的皇后陷入危險,或是黑棋的國王防禦薄弱。技術高超的駕駛也一樣。如果我們不能假設周圍的司機,對十字路口和圓環的行駛優先順序,與我們的看法一致,那麼穿梭在車陣之中便會極為危險。在高層次的技術中,很少或沒有雜訊。

技術高超的棋藝和駕駛,是在可預測的環境當中練習多年而培養出來的。在這種可預測的環境下,行動之後便立即收到清楚的回饋意見。可惜極少專業人員處於這樣的環境。在大多數工作中,員工聆聽經理人、同事的說明和批評,以學習如何判斷,而這種知識來源,比從自己的錯誤中學習更不可靠。長期擔任某個工作的經驗,總是讓人們對自己的判斷更具信心,但若是沒有快速得到回饋意見,有信心並不能保證準確性或共識。

我們在這裡以一則格言為總結:有判斷就有雜訊,而且雜訊通常比你想像的還多。我們相信,無論專業人員或經理人,通常都無法預測判斷的可靠程度。只有進行雜訊檢視,才能得到準確的評估。至少在一些情況下,判斷不一致的問題,嚴重到需要採取行動。

降低雜訊

最能從根本解決雜訊問題的方法是,以正式規則取代人為判斷。這些規則稱為演算法,它使用有關某個情況的數據資料,來產生預測或決定。過去六十年來,人類曾和演算法進行數百場準確性競賽,涵蓋的任務很多,從預測癌症病患的預期壽命,到預測研究生未來是否成功。其中約有一半的競賽中,演算法比人類的專業人員更準確,另外一半是不分高下。平手的狀況也應該算是演算法獲勝,因為它的成本效益較高。

當然,在許多情況下,採用演算法並不實際。當輸入的項目非常獨特,或是難以轉換為格式一致的代碼,就可能無法使用規則。倘若判斷或決策涉及許多層面,或是必須和他人協商,這時候演算法也可能發揮不了用處。即使當演算法原則上可提供解決方案,有時公司內部考量也可能不採用演算法。以軟體取代現有員工,是一個痛苦的過程,勢必遭到阻力,除非它能讓那些員工改為從事更愉悅的任務。

但如果情況合適,開發和執行演算法其實非常容易。常見的假設是,演算法需要大量的數據,以進行統計分析。例如,我們訪談對象中的大多數人相信,需要幾萬筆貸款申請和申請結果的資料,才能開發出預測商業貸款違約的方程式。但很少有人知道,想開發出合用的演算法,並不需要任何結果的資料,只要輸入少數案例的資訊即可。沒有關於結果的資料所建立的預測公式,稱為「推理規則」(reasoned rule),因為它是根據常識推理而得。

建立推理規則的第一個步驟是,選擇少數一些變數(或許六至八個),這些變數毫無疑問確實與待預測的結果有相關性。例如,如果要預測的結果是貸款違約,變數必定包括資產和負債。下一個步驟是,在預測公式中給這些變數相等的權重,並設定明確的方向符號(資產為正,負債為負)。接下來,便可以運用一些簡單的計算,來建立推理規則(更多細節請見:「如何建立推理規則」)。

如何建立推理規則

建立有用的預測演算法,並不需要結果的資料,例如,你不必知道過去的貸款案後來發生的情況,只需要少量的近期貸款申請資料,就足以相當有效地建立預測貸款違約的推理規則。以下是接下來的步驟:

  1. 選擇六到八個變數,每個變數都不同,且都明顯和要預測的結果相關。資產和收入(正加權),以及負債(負加權)當然包括在內,還包括其他一些貸款申請的特性。
  2. 選取一組申請案的資料(過去一年所有的貸款申請案),計算其中每個變數的平均值和標準差。
  3. 對資料組中每一筆申請案,計算出每個變數的「標準分數」(standard score),算法是單筆申請案的價值與整組平均值相減,再除以標準差。有了標準分數,所有變數都是用同樣的基準來呈現,可以進行比較和平均。
  4. 算出每筆申請案的「總結分數」(summary score),算法是把所有變數的標準分數加以平均,這就是推理規則算出的結果。同樣的公式,將用於新的申請案,計算時使用原資料組的平均值和標準差,並定期更新。
  5. 將資料組中每筆申請案依總結分數由高到低排序,然後決定針對不同的分數區間,採取適當的行動。例如,分數前10%的貸款申請案可獲得折扣,倒數30%的申請案會遭到拒絕。

現在你已準備好把上述規則應用在新的貸款申請案,演算法會算出每個新申請案的總結分數,然後做出決定。

令人驚訝的是,許多研究發現,在許多情況下,推理規則的準確度,和考慮結果資料而建立的統計模型大致一樣。標準的統計模型,結合了一組預測變數,根據這些變數和待預測結果的關係,以及彼此之間的關係,來設定權重。但在許多情況下,這些權重不但在統計上並不穩定,實際上也不重要。給予所選擇的變數相同權重,是一個簡單且可能同樣有效的規則。所有變數權重相同、且不考慮結果資料的演算法,已證實可成功應用在許多領域,例如人事甄選、選舉結果預測、足球比賽結果預測等。

雖然人類可以輸入有用的資訊到公式裡,演算法卻能扮演比人類更好的最終決策者。

重點是,如果你打算用演算法來降低雜訊,其實不必等待結果資料。你只要運用常識來選擇變數,再用最簡單的規則來組合那些變數,就可以獲得大部分的好處。

當然,不管使用什麼類型的演算法,人們都必須保留最終控制權。演算法必須加以監測,並在案例的情況條件有變化時做調整。經理人也必須持續注意個別的決策,並在情況條件明確時,否決演算法的結果。例如,如果公司發現貸款申請人已被逮捕,批准貸款的決定就應暫時取消。最重要的是,高階主管應決定如何把演算法的結果轉化為行動。演算法可告訴你,哪些貸款申請案排序在前5%或倒數10%,但必須有人決定如何處理這些資訊。

專業人員有時可把演算法當成資訊的中間來源,然後做出最終決定。例如,公共安全評估(Public Safety Assessment)這個公式,是要幫助美國法官決定,被告在候審期間是否可安全釋放。肯塔基州採用這個公式六個月之後,被告候審期間的犯罪率下降了約15%,而同時間在候審期間釋放被告的百分比是增加的。顯然在這個情況下,法官必須保留最終決定權。如果任憑公式來執行判決,大眾會非常震驚。

以下的資訊,可能會讓人感到不舒服,但研究顯示,雖然人類可以輸入有用的資訊到公式裡,演算法卻能扮演比人類更好的最終決策者。如果純粹從避免錯誤的角度來看,我們應強烈建議經理人,除非情況非常特殊,否則不該否決演算法的結果。

建立判斷的紀律

當專業判斷受到雜訊干擾,便應考慮以演算法來取代人為決策,但在大多數情況下,這個解決方法過於激進,或是根本不切實際。另一個解決方法是,採取可提高一致性的程序;做法是確保擔任相同職務的員工,使用類似的方法,以收集資訊、把這些資訊整合為對情況的看法,然後把這個看法轉化為決策。徹底檢視建立這套程序的所有細節,已超出本文的範圍,但我們可以提供一些基本建議。另外要提醒的是,在作判斷時採取嚴謹的紀律,是非常不容易的。

當然,訓練極為重要。但即使是一起受訓的專業人員,也往往不自覺地陷入自己習慣的做事方式。為了防止這個情況,公司有時會舉行圓桌會議,讓決策人員共同檢視案例。可惜大多數圓桌會議的進行方式,都太容易達成共識,因為參與者很快便同意最先提出、或是提出的人表現得最有自信的意見。為了避免這種假性的共識,圓桌會議的每個參與者,都應各自研究待討論的案例,形成自己的意見,並準備為它辯護,而且在開會之前就把意見送交小組領導人。這樣的圓桌會議可有效檢視雜訊,接著再進行小組討論,來探討意見的分歧狀況。

還有一個做法,可以替代或補充圓桌會議,就是提供專業人員便於使用的工具,例如,待處理事項清單和精心設計的問題,專業人員可以根據這些工具,來收集資料、做出中間判斷,以及達成最終決定。其中的每一個階段,都可能發生令人不樂見的變動,公司可以且應該測試這些工具降低那些變動的效果。理想的情況是,使用這些工具的人會把它們當成輔助,協助他們用更有效、更簡便的方式來工作。遺憾的是,我們的經驗顯示,建立有效又好用的判斷工具,難度超過許多高階主管的認知。控制雜訊不容易,但我們期待,公司進行雜訊檢視,以及評估雜訊成本的量化金額之後,會同意降低隨機變動性的努力是值得的。

正視雜訊

本文的主要目的,是讓經理人了解,什麼是導致錯誤的雜訊,以及解釋雜訊和偏誤有什麼不同。大眾注意到「偏誤」這個詞,是因為「錯誤」和「偏誤」常互換使用。其實,要做出更好的決策,不能光靠降低一般的偏誤(例如,過度樂觀),以及特定的社會和認知偏誤(例如,歧視女性或錨定效應)。關心準確度的主管,也應努力解決專業判斷不一致的普遍問題。雜訊比偏誤更難察覺和理解,但它可能更真實,或是成本更高。

(黃晶晶譯自“Noise,”HBR, October 2016)