本文出自

與競爭者共舞

與競爭者共舞

2021年1月號

力保機器學習不脫軌

When Machine Learning Goes Off the Rails
博利斯.巴比克 Boris Babic , 葛倫.柯恩 I. Glenn Cohen , 希奧多羅斯.埃弗基尼歐 Theodoros Evgeniou , 莎拉.葛基 Sara Gerke
瀏覽人數:1775
  • "力保機器學習不脫軌"

  • 字放大
  • 授課文章購買
    購買〈力保機器學習不脫軌〉文章
  • 個人收藏購買
    購買〈力保機器學習不脫軌〉PDF檔
    下載點數 10
當愈來愈多產品和流程使用以機器學習為基礎的人工智慧時,風險也隨之而來。企業主管和董事會該如何善用機器學習,並管理風險?

機器學習這種電腦軟體,會吸收新資訊,並據以改變做決定的方式;而如果機器學習導致投資虧損、產生有認知偏誤的雇用或貸款作業,或者引發車禍,那該怎麼辦?企業應該讓它們的智慧型產品和服務自動演變發展,還是應該「鎖定」它們的演算法,並定期更新?如果選擇後者,應該在何時更新、更新的頻率該是如何?企業又該如何評估和減少這些選擇和其他選擇帶來的風險?

在整個企業界,隨著以機器學習為基礎的人工智慧(AI),滲透進入愈來愈多產品和流程,高階主管和董事會必須準備答覆這些問題。本文根據作者在健康照護法律、道德、法規,以及機器學習方面的工作心得,提出一些重要概念,以便了解和管理這種先進科技的潛在缺點。

本文觀念精粹

問題

仰賴機器學習的產品大量增加,對開發和使用它們的公司,或是提供資料來訓練它們的公司,造成各種新風險。這是因為這類系統不見得一定會做出合乎道德或正確的選擇。

原因

首先,這些系統常是根據機率來做決定。第二,它們所處的環境,可能以預料不到的方式演變。第三,這些系統的複雜性,讓人很難決定它們是否出錯或為何出錯。

解決辦法

高階主管必須決定是要任由系統持續演變,或每間隔一段時間就推出鎖定的版本。此外,他們在推出產品前後應進行適當的測試,產品上市後也應持續監測它的表現。

為何機器學習有風險

機器學習與之前的數位科技有一大不同,就是前者能獨立做出愈來愈複雜的決定,像是要買賣哪些金融產品、車輛要如何因應路上的各種障礙、病人是否得了某種疾病等,而且,機器學習能持續因應新的數據資料來作調整。但是,這些演算法不見得一直都能順利運作,未必一定會做出合乎道德或正確的選擇。這有三個根本原因。

可能性不等於正確性

第一,這些演算法通常是仰賴各種情況的「發生機率」來做決定,像是某個人對貸款賴帳,或是罹患某種疾病的機率。那些演算法必須做出很大量的預測,因此其中有些預測可能不正確,只因為出錯的可能性永遠存在。這種出錯的可能性取決於很多因素,包括用以訓練演算法的資料數量和品質、選用哪種機器學習法(例如,使用複雜數學模型的深度學習法,還是仰賴決策法則的分類樹),以及這個系統是否只使用「可解釋的演算法」(也就是人們能夠說明自己如何做成某個決定),這可能會使系統無法獲得最高的正確性。

外在變因的影響

第二,機器學習運作的環境本身可能會演變,或是已經不同於當初開發演算法時面對的環境。許多情況可能造成這種問題,其中最常見的兩種情況,就是概念漂移(concept drift)和共變數偏移(covariate shift)。

在概念漂移方面,系統使用的輸入資料及產出的資料之間的關係,長期下來並不穩定,或者可能會出現誤判。以股票交易的機器學習演算法為例。如果這套演算法之前只使用一段市場波動小、經濟高度成長時期的資料來訓練,那麼在碰到經濟陷入衰退或激烈動盪時(像是新冠疫情大流行之類的危機),這套演算法可能會表現不佳。隨著市場出現變化,輸入和輸出資料之間的關係也可能改變,例如,企業的舉債程

度和它的股票報酬之間的關係。類似的偏差情況,可能會在景氣循環的不同時點發生在信用評等模型上。

在醫學方面,概念漂移的一個例子,就是以機器學習為基礎的診斷系統,使用皮膚影像作為輸入資料來偵測皮膚癌,卻沒有做出正確診斷,因為這套系統未能適當掌握病人的膚色(可能因種族或日曬等因素而有不同膚色),與診斷決定之間的關係。這類資訊,甚至常常沒有記錄在用以訓練機器學習模型的電子病歷裡。

發生共變數偏移,是當使用演算法時輸入的資料,與訓練演算時所用的資料不同。即使演算法學習到的形態很穩定,而且沒有出現概念漂移,仍可能發生共變數偏移。例如,醫療裝置公司可能使用來自大型城市醫院的資料,來開發以機器學習為基礎的系統。只是一旦這種裝置上市,鄉村地區醫療人員輸入這個系統的醫療資料,可能與深算法開發階段輸入的資料不太一樣。城市醫院可能有更多來自某些社會人口群體的病人,而這些人口群體可能罹患的疾病,在鄉村醫院裡並不常見。可能只有等到些醫療裝置上市,犯下比測試階段更多的錯誤之後,才會發現這種差異。由於市場的多元性質,以及市場改變的速率,因此愈來愈難預測系統實際操作的環境將會發生什麼情況,而且資料再多都無法掌握現實世界存在的種種細微差異。

系統的複雜性

機器學習可能做出不正確決定的第三個原因,與內建它的整體系統的複雜性有關。就以根據醫生輸入的影像來診斷疾病的裝置為例,像是IDx-DR系統。這套系統可診斷糖尿病視網膜病變和視網膜黃斑部水腫等眼疾,而且是第一種獲得美國聯邦食品藥物管理局(FDA)核准使用的具自主性、以機器學習為基礎的醫療裝置。任何診斷的品質,都取決於供檢視的影像有多清晰、這個裝置使用的演算法、用以訓練這種演算法的資料、輸入影像的醫生是否受過適當訓練等。要考量的因素這麼多,因此難以評估這種裝置是否可能出錯、為什麼會出錯,更遑論要確定它會如何運作。

但做出不正確決定,並非機器學習唯一的風險。以下來看另外兩種類別:經手人風險和道德風險。

經手人風險

機器學習不夠完善,帶來另一種重要挑戰:不受特定企業或使用者控制的事物所導致的風險。

發生意外事故時,通常能根據可靠的證據,重建導致事故發生的情況。因此,發生事故時,高階主管至少能對公司可能必須承擔的責任,獲得一些有用的估計。但機器學習通常內建於複雜的系統裡,因此往往不清楚導致出錯的原因,也就是不清楚哪一方或哪個「經手人」(例如,演算法開發者、系統建置者,或某個合作伙伴),必須為某個錯誤負責,也不清楚那套演算法本身、使用者輸入的某些資料,或是用以訓練演算法的資料(這可能來自好幾個第三方供應商)是否有問題。環境改變及機器學習的機率性質,造成更難把責任歸給個某個經手人。其實,即使沒有任何人為疏忽,都可能出現意外事故或不合法的決定;畢竟,出現不正確決定的可能性永遠存在。

高階主管必須知道,根據現行法律,自家公司何時可能面對法律責任,而法律本身也可能演變。就以醫療情況來說。法庭向來認為醫生是做最後決定的人,因此,不太願意把醫療產品出事的責任,歸給製作醫療軟體的人。但隨著更多黑盒子式或自主性的系統做出診斷和建議,而沒有診所裡的醫生參與(或是參與極少),這種情況可能會改變。例如,若是機器學習系統建議病人接受非標準治療(像是比通常標準高許多的藥物劑量),而管制法規演變成只有在醫生不遵守系統建議時,才最有可能面對損害責任,情況會如何?法規的這種改變,可能把責任風險從醫生身上,轉移到其他各方身上,包括機器學習為基礎的醫療裝置的開發者、參與開發演算法的資料供應商,或是參與裝設和建置演算法的公司。

道德風險

自主做出決定的產品和服務,也必須解決各種道德難題,而這種要求帶來額外的風險,以及法規和產品開發方面的更多挑戰。學者現在已開始把這些挑戰建構為「負責任的演算法設計」問題。其中包括如何自動化進行道德推論的難題。例如,特斯拉(Tesla)為自家汽車開發的軟體,應設定為純粹功利主義的成本效益考量,還是應遵循康德學派路線,也就是不論有多大的利益,某些價值觀絕對不可退讓?即使答案是功利主義,要量化還是極為困難:例如,如何為車輛設定程式,讓它面對三個老年人與一個中年人的生命時,能判斷孰輕孰重?企業如何平衡隱私、公平、正確性和安全性之間的權衡取捨?所有這些種類的風險,能否完全避免?

道德風險也包括有關人口群體的偏誤。例如,臉部辨識演算法,對辨認有色人種就有困難;皮膚病變分類系統應用於不同種族的人,似乎正確性不一;再度犯罪預測工具,錯誤地給予黑人和西班牙語裔的人再犯高比率,信用評等系統則不公平地給予他們低分。機器學習系統已廣泛用於許多商業用途,可能被認為在某些面向上對特定群體不公平。

若要定義何謂公平,並把這定義納入演算法,做法有很多,而且彼此可能互不相容,因而使得問題變得更加複雜。貸款演算法可接受校準(也就是說,在控制風險水準之後,演算法所做的決定不受群體身分影響),卻仍有太高比率拒絕貸款給信用良好的少數群體。因此,企業可能發現自己陷入進退兩難的處境。如果它使用演算法來決定貸款對象,可能很難避免根據「公平」的某個定義,有歧視某些群體之嫌的指控。不同的文化,也可能接受不同的定義和道德退讓;這對供應全球市場的產品造成問題。2020年2月,歐盟委員會對人工智慧發表的白皮書就指出這些挑戰,並要求開發蘊含「歐洲價值觀」的人工智慧。但是,這種人工智慧是否能輕易出口到擁有不同價值觀的地區?

最後,所有這些問題都可能因模型不穩定而出現,也就是彼此近似的輸入資料,卻導致非常不同的決定。不穩定的演算法,可能以非常不同、且可能不公平的方式,對待非常類似的人。

當然,所有這些考量,並不表示我們應該完全避免使用機器學習。相反地,高階主管必須積極接受機器學習創造的機會,同時確保以恰當方式處理相關風險

鎖定還是不鎖定?

領導人一旦決定採用機器學習,就面對下一個關鍵問題:公司應該讓機器學習持續演變發展,還是應該每間隔一段時間就推出經過測試和鎖定的版本?後者是否能緩和前述的那些風險?

這個問題與醫學界碰到的問題類似。美國FDA迄今只核准有鎖定演算法的「軟體即醫療裝置」(software as a medical device,也就是不需要硬體即可執行醫療功能的軟體)。原因是:如果醫療裝置的診斷程序或治療途徑,會以FDA不了解的方式持續改變,FDA就不願意核准這些裝置的使用。但FDA和其他管制機構目前逐漸了解,鎖定演算法可能同樣有風險,因為這未必能消除以下這些危險:

不正確的決定。機器學習演算法通常是根據「估算的機率」來做決定,而鎖定演算法並不能改變這個事實。此外,輸入更多資料,雖然通常能導致效能提高,卻未必一定會如此,而且改善的數量也可能不同;未鎖定演算法的改善數量,可能因使用的系統或資料數量不同而提高或降低。我們很難了解演算法在未鎖定的情況下,可能會如何改變決策的正確性(或不正確性),但嘗試了解這一點是很重要的。

環境挑戰。同樣也很重要的是,系統做決定的環境會不會演變、如何演變。例如,汽車自動駕駛系統運作的環境,會因為其他駕駛人的行為而持續改變。只要景氣循環進入新階段,定價、信用評等和交易系統,就可能面對市場機制變動。這些挑戰造成機器學習系統必須與環境共同演變,以便系統能做適當的決定。

經手人風險。鎖定演算法,並不能消除內建了演算法的系統本身的複雜性質。例如,使用第三方提供的劣質資料來訓練演算法,或是使用者的技能不同,還是可能造成錯誤。而要決定資料供應商、演算法開發者、部署者和使用者的責任,仍然很具挑戰性。

道德風險。鎖定的系統,可能保留原創者都不知道的缺陷或偏誤。例如,在分析乳房X光影像尋找乳癌跡象時,鎖定的演算法就無法從它面對的人口次群體中學習。不同種族的平均乳房密度可能不同,因此這套系統如果用來篩檢在訓練資料當中代表性不足的人口群體,就可能會導致診斷錯誤。同樣地,如果用某個社經地位隔離的人口次群體來訓練信用評等演算法,那麼這套演算法就可能會像非法的金融歧視拒貸政策(redlining policy)一樣,歧視某些貸款人。我們希望演算法盡快改正這類錯誤,改正方法是在「觀察」到更多來自先前代表性不足,甚至從未被辨識出來的人口次群體的資料時,能夠自我更新。相反的,未被鎖定的機器學習系統裝置,如果大多是使用來自某個群體的資料來演變發展,長期下來就可能損害另一個或更多不同的群體。此外,可能很難看出這種裝置在面對一個群體時,效能會在何時變得相對較差。

高階主管可用的工具

因此,高階主管要如何管理機器學習現有和新出現的風險?這方面的重要步驟,包括開發出適當的流程、加強管理階層和董事會的熟練程度、提出恰當的問題,以及採用正確的心態。

多重測試與分析

把機器學習當人看待。高階主管必須把機器學習視為活生生的實體,而不是沒有生命的科技。正如對員工進行認知測驗,無法顯示他們被納入企業現有團隊之後會有什麼表現,同樣的,實驗室測試也無法預測機器學習系統,在現實世界的效能。高階主管應要求完整地分析員工、顧客或其他使用者會如何應用這些系統,以及他們對系統的決定有何反應。即使法規管制機構沒有規定要這樣做,企業可能也應該讓新的機器學習產品,接受隨機對照測試,以便在正式推出前,確保這些產品的安全、效用和公平。但他們可能也應該要分析,在各種類型使用者都存在的實際市場中,這些產品會做出什麼決定,以了解產品對各種類型使用者所做的決定,在品質方面是否有差異。此外,企業應把演算法所做決定的品質,與在相同情況下不使用演算法所做的決定做比較。在大規模部署產品,尤其是全面推出那些未經過隨機對照測試的產品之前,企業應考慮在有限的市場裡測試它們,以便更了解產品在不同因素作用時的正確性如何,以及會有什麼表現;這些因素包括使用者的專業知識不同、資料的來源不同,或是環境有變化等等。若演算法在現實世界的環境下表現差勁,就顯示必須改善或放棄這套演算法。

參考標準認證機制

採用法規管制機構的想法,並先獲得認證。企業在推出機器學習產品上市之前,應先擬定獲得認證的計畫。法規管制機構的做法,對如何進行這件事提供良好的方針。例如,2019年FDA發表一份討論報告,建議一套新的法規架構,用以修改以機器學習為基礎的「軟體即醫療裝置」。這份文件說明一套方法,可讓這類軟體持續改善,同時維護病人的安全,其中包括完整評估開發那套軟體的公司或團隊,以確保它擁有追求組織卓越和高品質的文化,這種文化能促使它定期測試自家的機器學習裝置。企業如果不採用這種認證流程,可能會惹上法律責任問題,例如,對產品沒有做到足夠的實質審查。

許多新創公司提供服務,為客戶認證產品和流程沒有存在偏誤、歧視、刻板印象、不公平和其他問題。一些專業組織,也為這類認證設計了標準,像是電機和電子工程師學會(Institute of Electrical and Electronics Engineers)、國際標準組織(International Organization for Standardization)等;Google之類的公司則提供人工智慧道德服務,檢視這類產品的多個面向,從用以訓練系統的資料、這些系統的行為表現,到它們對福祉的影響,都包括在內。企業可能必須開發自己的類似架構。

運作後仍需時時檢測

持續監測。隨著機器學習產品和服務,以及它們運作的環境演變發展,企業可能會發現,自家的科技不像最初預期的那樣運作。因此很重要的是,企業應制定一些方法,以查核這些科技是否在適當限制內運作。其他產業的情況可作為參考範例。FDA的「警戒計畫」(Sentinel Initiative)利用電子病歷等不同的資料來源,來監測醫療產品的安全性,並能強迫不合格的產品撤回。企業的監測計畫,可能在許多方面都很類似一些領域目前使用的預防性維護工具和流程,像是製造業、能源公司或網路安全領域所用的。例如,企業也許可以仿照對資訊系統防禦能力進行例行測試時所用的方法,對人工智慧進行所謂的對抗攻擊。

探究四大面向

問恰當的問題。高階主管和法規管制機構必須深入探究以下這些問題:

→正確性和競爭力。如果不鎖定演算法,從使用機器學習系統獲得的新資料數量,可能使系統效能改善多少?這種改善對企業有何意義?消費者對鎖定和未鎖定系統的利弊,了解到何種程度?

→偏誤。演算法先前是用哪一種資料來訓練?這些資料對演算法最終要應用到的人口群體有多大的代表性?如果任由未鎖定的演算法長期學習,我們能否預測這種系統產出的結果,會比鎖定的系統有較少的偏誤?演算法犯的錯誤,是否特別會對少數群體或其他群體造成影響?採取持續監測的做法,能否建「護欄」以防止演算法出現歧視?

→環境。產品的使用環境,長期下來會如何改變?是否存在不應讓機器學習做決定的情況,如果有,是哪些情況?在環境本身改變的情況下,如何確保產品表現也適當地演變?在環境和產品的表現差距已變得太大時,應在何時下架產品?在環境的哪些界限之內,我們的產品可以順應調整並順利運作?我們的機器學習系統,在整個生命週期當中有多麼有效運作和安全?

→經手人。我們機器學習演算法的運作,須仰賴哪些第三方的因素(包括資料來源)?不同類型的使用者,例如,技能較差的人,會造成系統的表現有多大差異?其他組織有哪些產品或服務,使用我們的資料或機器學習演算法,有可能導致我們面對法律責任風險?是否應讓其他組織使用我們開發的機器學習演算法?

明確、簡潔的準則

針對商業風險擬定處理原則。企業必須為管理這些新風險建立本身的準則,包括道德準則;Google和微軟等企業已經這樣做。這類準則往往必須相當明確(例如,公司對「公平」採取什麼定義),才能發揮效用,而且必須針對要處理的風險量身制定。如果你使用機器學習來做雇用決定,最好擁有簡單、公平和透明的模型。如果使用機器學習來預測商品期貨合約的價格,或許不必這麼在乎這些數值,而更該注重機器學習系統做的任何決定,所允許的最大潛在財務損失。

幸好,制定和實施這些原則的歷程並不孤單。高階主管可以好好參考一些機構為此努力多年的成果,像是經濟合作暨發展組織(OECD)開發出的第一套跨政府人工智慧原則(2019年獲得許多國家採用)。OECD的原則,是要促進開發出創新、可靠、負責任而又透明的人工智慧,這種人工智慧能尊重人權、法治、多元和民主價值,並推動包容性的成長、永續發展,以及人類福祉。它們也強調人工智慧系統在整個生命週期當中,應維持有效運作、安全可靠,以及持續進行風險管理。

OECD最近啟動的「人工智慧政策觀察站」,提供更多有用的資源,像是全面收集世界各地的人工智慧政策。

控制風險尤為重要

機器學習的潛力巨大。但隨著這種科技及其他形式的人工智慧,納入我們的經濟和社會組成之中,它構成的風險也跟著增加。對企業界,減少這些風險,可能與妥善管理對機器學習的採用同樣重要,甚至更加重要。如果企業不建立適當的實務做法來應付這些新的風險,可能很難在市場上推進發展。

(黃秀媛譯自“When Machine Learning Goes Off the Rails” HBR, January - February 2021)



博利斯.巴比克 Boris Babic

歐洲工商管理學院(INSEAD)決策科學助理教授。


葛倫.柯恩 I. Glenn Cohen

哈佛法學院(Harvard Law School)副院長、法學教授,以及佩弗健康法律政策、生物科技與生物倫理中心教學主任。。


希奧多羅斯.埃弗基尼歐 Theodoros Evgeniou

歐洲工商管理學院決策科學和科技管理教授。


莎拉.葛基 Sara Gerke

哈佛法學院佩弗中心醫學、人工智慧和法律研究員。


本篇文章主題技術