你的演算法是否捍衛了公平標準?

Are Your Algorithms Upholding Your Standards of Fairness?
李天惠 Michael Li
瀏覽人數:1775
如果演算法並未支持你對公平性設下的標準,會發生什麼情況?本文提到發生在亞馬遜公司的狀況,以及ProPublica一篇有關機器偏見的文章,並得出結論:公司領導人必須對衡量公平性進行自我教育,以便決定如何為組織定義公平性。這也意味著,應該要把所選的公平性衡量標準納入關鍵績效指標,搭配傳統的業務衡量標準一起使用。

在最近備受關注的人工智慧(AI)偏見醜聞之後,企業已經開始了解到必須重新思考本身的人工智慧策略,不僅要把人工智慧公平性(AI fairness)納入策略,而且要更廣泛地把演算法公平性(Algorithmic Fairness)當成一項基本原則。我任職的務實學院(Pragmatic Institute),為《財星》五百大企業提供關於資料科學和人工智慧的教育課程。我們從這些工作中發現,許多企業很難為自家組織明確定義何謂演算法公平性。如果沒有明確的定義,立意良好的公平性方案就會在善意之中失去活力,絕不會產生有意義的影響。但是,定義公平性並不像表面看來那樣容易。有兩個例子可說明這項工作可能會有多大的挑戰。

首先,想想2016年亞馬遜(Amazon)發生的情況,這家總部位於西雅圖的線上零售商當時向27個都會區,推出了Prime會員一日到貨服務。當時彭博社(Bloomberg)指出,向來是非裔美國人的社區被排除在外(如紐約市的布朗克斯區或芝加哥南區),不符合一日到貨服務的資格,結果亞馬遜受到大量批評。在亞特蘭大,有96%的白人居民住在一日到貨區域,黑人居民則只有41%。這個例子特別令人不愉快,因為它喚起人們對紅線措施(red-lining)的痛苦記憶,紅線措施是美國1930年代的一種做法,當時美國聯邦政府成立的「房主貸款公司」(Home Owners' Loan Corporation)製作地圖,將主要由少數族群居住的社區以紅色標記為「危險」,這種歧視做法在五十多年前已被禁止。在亞馬遜的案例中,透過國會議員和市政府官員的遊說,才讓亞馬遜開始將許多以前被排除的社區,納入Prime會員一日到貨服務地區。

亞馬遜告訴彭博社,它在演算法中用來做這項決定的關鍵考慮因素之一,就是Prime會員的集中度。從物流的角度來看,使用Prime會員集中度作為他們的關鍵績效指標(KPI),必然具有成本效益,而且從表面判斷,它看起來甚至是公平而沒有偏見的。但是,考慮到種族不平等的歷史模式,以獲利能力為焦點的指標,可能會對少數族裔展現強烈偏見。其實,1964年的《民權法案》(Civil Rights Act)禁止那些接受聯邦經費的單位採用「表面中立」(facially neutral)的做法,因為這種做法對於受保護階級的成員,會有不合理的負面影響。即使這項法律不直接適用於許多未接受聯邦經費的公司,它仍然對社會期望提供了良好的指引。

設法避免醜聞的公司不僅必須避免差別待遇(明顯以不利方式對待受保護的階級),也必須注意他們的行動所造成的不同影響。

第二個例子也來自2016年,非營利新聞機構ProPublica發表一篇關於機器偏見的文章,聲稱法院用於協助進行保釋決定的演算法,對黑人被告存有偏見。這個演算法會為個別被告產生一個「風險分數」,以估計這個人再次犯罪的機率。ProPublica發現,在最終沒有再犯的被告中,只有24%的白人被告被那個演算法錯誤地標記為高風險,黑人被告則有45%。由於演算法給予他們高風險分數,因此這些最終沒有再犯的被告更有可能被拒絕保釋候審,也更有可能獲判更長的刑期。

但是,由史丹福大學(Standford)和加州大學柏克萊校區(Berkeley)的一群獨立研究員得到不同的結論;他們審視的是同一批資料,但檢視另一個不同的指標。他們發現,被那個演算法判斷具有類似風險分數的被告,再犯的可能性大致相同,無論被告屬於什麼族裔。這看似使ProPublica所做的分析無效,但即使這兩方的解讀顯然不同,這兩個結果仍是同時成立的。根據被告的最終再犯情況來衡量資料(如ProPublica所做的),以及根據被告的風險分數來衡量資料(如研究人員所做的),可能導致對保釋決定演算法的公平性有很不一樣的詮釋。其實,芝加哥大學(University of Chicago)和康乃爾大學(Cornell University)的研究人員指出,ProPublica和史丹福大學、柏克萊大學研究人員採用的衡量方法,一定會不一致。更具體地說,由於預測再犯這項工作本身的不完善性質,以及導致非裔美國人監禁率較高的結構性不平等的歷史,因此,要同時滿足這兩種衡量方法的公平性,在數學上是不可能的。

換句話說,公平性的定義可歸結到我們選擇使用的衡量標準。

這兩個案例說明,公司領導人必須對衡量公平性進行自我教育,才能明智地決定如何為自家組織定義公平性。這也意味著,要把所選的衡量標準納入KPI,搭配營收或獲利能力等傳統的業務衡量標準一起使用。企業至今仍在努力解決那些定義及其涵義,而這些重要對話應從現在就開始進行。人工智慧和演算法在21世紀的經濟中扮演核心角色,領導人若不了解人工智慧或演算法在公平性方面的涵義,可能會造成嚴重的後果。最終是由他們來決定,自家組織對公平性的定義為何。企業如果希望能順利度過由人工智慧驅動的複雜未來,現在就必須開始仔細思考棘手的演算法公平性議題。

(林麗冠譯)



李天惠

李天惠 Michael Li

資料科學訓練和建置公司The Data Incubator創辦人及執行長。他是資料科學家,曾任職於Google、Foursquare和創投公司Andreessen Horowitz,經常為VentureBeat、The Next Web與《哈佛商業評論》撰寫文章。他擁有劍橋大學(Cambridge)碩士學位和普林斯頓大學(Princeton)博士學位。


本篇文章主題技術