別讓演算法被偏誤擾亂

Addressing the Biases Plaguing Algorithms
麥可.李 Michael Li
瀏覽人數:896
Google、亞馬遜、微軟與臉書,仍未找出解決之道。

受到人工智慧所吸引的高階主管,必須了解人工智慧與數據資料中普遍存在的各種可能性與風險。即使人類透過語音和聊天之類的媒介與人工智慧互動的時代才剛開始,已有許多紀錄是關於人工智慧試圖理解與說出人類語言卻失敗。本文專注討論微軟(Microsoft)、Google與亞馬遜(Amazon)近期備受矚目的三項案例,說明人工智慧領導人可以如何從這些錯誤中學習,實施能夠保護他們人工智慧計畫的方案。

(誤)學了青少年俚語

2016年3月,微軟開發了一個使用人工智慧的推特(Twitter)聊天機器人Tay,這是透過挖掘公開對話而打造的。這個聊天機器人以「對話型」人工智慧為宣傳招牌,目標是測試會話語言的界線:微軟把Tay描述為「來自網際網路,很敢說的人工智慧哥們!」這個機器人也會根據它在推特上的對話而調整、學習。

遺憾的是,網路酸民只花了不到24小時,就訓練Tay吐出嚴重種族歧視、厭女與普遍來說很冒犯的推文。原本設計是要用來進行「輕鬆、好玩」對話的趣味聊天機器人,變成一場公關災難。

不懂察言觀色的人工智慧提醒

臉書有一項「動態回顧」(Memories)功能,讓使用者回顧前幾年的今天發生了什麼事。它能讓人想起一些難忘的假期、朋友的婚禮,或是其他的歡樂場合。然而,它也可能讓人想起痛苦的回憶,像是家人的忌日,或可能請你祝一位已過世的朋友生日快樂。

2019年4月,臉書宣布要運用人工智慧來篩選這些不得體的提醒。可惜,眾所周知這項任務很艱巨,這家社群媒體巨擘以前這麼做曾失敗過。2016年11月,它的動態回顧功能錯把許多在世的使用者當成過世的人,包括我的一位朋友。有些猜測認為,這對總統候選人希拉蕊.克林頓(Hilary Clinton)的競選支持者與工作人員造成了嚴重影響,他們收到為希拉蕊落選致哀的廣泛流傳訊息,而這是臉書演算法錯誤解讀導致的。

厭女翻譯

「Google翻譯」服務功能使用人工智慧與深度學習,來處理數兆位元的文字資料,以提供數十種語言的自動翻譯服務。

但在2017年11月,據報導它的人工智慧演算法有性別歧視。例如,在土耳其文中的第三人稱單數代名詞「o」,沒有指明性別;在英文中,我們視性別而定,通常不是使用「he」就是「she」。如果要將土耳其文翻譯成英文,翻譯演算法在翻譯中性的「o」時,會選定一個性別,產生性別歧視翻譯,例如「他是醫生」、「她是護士」、「他很努力」或「她很懶惰」。不只翻譯土耳其文會有這種問題,許多其他語言指明性別的方式,都與英文不同,而這凸顯了人類語言的複雜。雖然Google注意到這個問題之後就迅速修正,但這次事件仍讓這家科技巨擘蒙羞。

性別歧視聘雇

據報導,被數百萬份履歷淹沒的亞馬遜,曾嘗試開發可以篩選潛在求職者的人工智慧。他們使用公司收到的履歷來訓練那個人工智慧演算法,從過去成功聘雇的履歷中尋找模式,並把這些特質應用到新的求職者身上。

遺憾的是,這個演算法強化了「聘雇男性擔任已由男性主導的職位」的偏誤,例如軟體工程師。它發現了既有的模式,並依此訓練。演算法教導自己,履歷內容若包含如「女性科學家協會」之類的字詞,就較不受喜愛,因為有「女性」一詞。根據路透社(Reuters)報導,2018年10月,亞馬遜已放棄這項計畫。

可以從人工智慧的失敗中學到什麼?

這些例子告訴我們人工智慧的一個重要風險。首先我們必須理解,人工智慧風險是商業風險。人工智慧與深度學習的部分威力在於,人工智慧訓練會無差別地學習所有語言的微小細節,即使我們沒有明確指示它這麼做。可惜,它會選出我們希望它別選擇跟隨的趨勢,例如我們使用語言時固有的性別偏見。這是人工智慧更大隱憂的一部分,它會加強我們固有的偏見與刻板印象,甚至沒有察覺到這一點。

必須謹記在心的是,人工智慧在本質上並沒有偏見。正如我們所見,這些演算法裡之所以有偏見,是因為人類建立來訓練演算法的資料有偏見。並非是那項基礎科技有種族或性別歧視,而是我們用來訓練那些演算法的資料有歧視。很可惜,解決方案不能只是單純地蒐集無偏見的資料,因為幾乎所有人類資料,在某些方面都有根本上的偏見。

公司必須保持警覺,把偏見排除於人工智慧系統之外。他們必須把反偏見訓練也同時納入人工智慧與機器學習訓練,從正在進行的計畫中找出可能會有歧視的地方,積極更正。除了我們對軟體進行的例行「問與答」流程,人工智慧還必須接受另外一層次的社會「問與答」,以便先找出問題,避免消費者碰到這些問題,並引發大規模反彈。此外,負責訓練模型的資料科學家與人工智慧工程師,也必須修習人工智慧風險課程。

最重要的是,商業領導人需要一套專門的人工智慧訓練,以了解相關可能性與風險。這不是技術方面的訓練,因為高階主管不需要成為實際動手執行的人,但他們的確必須對資料科學與人工智慧有足夠的了解,才能管理人工智慧產品與服務。商業領導人必須了解,人工智慧有潛力讓業務轉型改善,同時也有潛在的缺點與危險。

了解這些危險,不只是人工智慧計畫負責人的責任,也是所有高階主管的職責。公關領導人若是了解社群媒體互動情況與惡意酸民文化,原本應可避免那種自我學習人工智慧推特機器人帶來的危險。精通人力資源與就業歧視法的高階主管,可協助找出履歷篩選機器人的潛在危險。而具備跨國營運經驗的主管,或許能發現翻譯無性別代名詞時應具備的敏感度。

人工智慧的風險可能來自商業的任何一個層面,而沒有哪一位主管身處的情境,可以看出所有的潛在風險。相反地,在人工智慧滲透所有事務的世界中,公司必須訓練所有商業領導人,讓他們了解人工智慧的潛力與風險,好讓每一條業務線都能發現機會,也找出值得擔憂之處。能發現人工智慧危險之處的機構知識,早已存在於你的公司之中,只是你必須把讓它發揮作用。

(游樂融譯)



麥可.李

麥可.李 Michael Li

資料科學訓練與建置公司「資料孵化器」(The Data Incubator)創辦人及執行長。李是一位資料科學家,曾任職於Google、Foursquare及Andreessen Horowitz,經常為VentureBeat、The Next Web與《哈佛商業評論》撰寫文章。他擁有劍橋大學(Cambridge)碩士學位與普林斯頓大學(Princeton)博士學位。


本篇文章主題技術