迎戰「眼見不為憑」時代

Business in the Age of Computational Propaganda and Deep Fakes
史考特.貝里納托 Scott Berinato
瀏覽人數:8034
不實新聞的擬真程度,即將提升到一個全新的層次。企業該如何因應?

你看,那就是美國前總統歐巴馬(Obama)的影片,他說:「保持清醒,X婆娘。」不過,那當然不是歐巴馬本人。那段影片是天衣無縫的移花接木:臉孔是歐巴馬的,嘴巴和聲音卻是喜劇演員喬登.皮爾(Jordan Peele)的。這個噱頭的目的,是要喚起大眾注意,不實新聞現象已經進入影片領域,即使還不到可以讓人全然相信的地步,看起來卻已經逼真到令人擔憂。

研究不實新聞的專家預言這一步發展,已有一段時間了。他們最近在矽谷舉辦一場高峰會,與會者包括一流的技術人員、網路安全專業人士、社群媒體與平台企業專家、研究人員、記者、人權運動人士,以及其他在影片與驗證機制方面的專家。他們的目標是討論出一套策略,以打擊惡意運用「換臉」(deep fakes)和其他「合成媒體」(synthetic media)技術的行為。這些惡意行為可能會引發對電子資訊的進一步疑慮,包括要靠信譽和公眾信任來營運的公司所提供的資訊,以及與那些公司相關的資訊,都受波及。

山姆.葛雷戈里(Sam Gregory)是會議籌畫人之一。他是人權團體WITNESS得獎節目的導演;WITNESS關注的議題,是壓迫事件的資訊和記錄資料,如何在視聽媒體和社群網路上傳播。葛雷戈里督導的計畫,是有關人權事件目擊影片的創新,以及信任、公信力和影像等議題。他還負責主持WITNESS的「科技與倡導」(Tech + Advocacy)行動,協助科技公司理解,人權運動人士如何使用他們的平台。他曾參與拉丁美洲和亞洲的推廣活動,他的作品曾協助促成美國國會、英國議會和聯合國改變了政策和法律。他也是世界經濟論壇的全球未來委員會(Global Future Council)的人權小組成員,也是國際刑事法院(International Criminal Court)的科技顧問理事會成員。

葛雷戈里認為,「歐巴馬/皮爾」影片是一記警鐘,但他憂心的事,不僅在於快速傳播、大規模的造假內容。他擔憂的是「數位野火」(digital wildfire),也就是專為特定人口製作、有針對性的輕微變造影片,它的觸及範圍較小,但仍具有影響力。他說,企業必須理解,換臉程式及其他形式的合成媒體,並不只是政治遊戲,而可能以任何仰賴信任或必須維護信譽的組織為目標。「這不是芝麻小事,」他說。

《哈佛商業評論》與葛雷戈里討論了換臉影片,以及他所謂的運算宣傳(computational propaganda)。以下是對談的部分內容,為求簡明,文字經過編輯處理。

《哈佛商業評論》問(以下簡稱問):我們先從「換臉」這個詞開始。你怎麼定義這種技術?

山姆.葛雷戈里答(以下簡稱答):我知道這個詞彙愈來愈熱門,而它的定義因人而異,但它指的就是運用機器學習和人工智慧來操縱媒體。具體來說,就是這項技術可以把影片中某個人的臉,換成另一個人的。因此,我可以錄下你說話的影片,然後把另一個人的影像疊加在你的影像之上,讓影片看起來是別人在說你說的話。或者,換個說法可能比較容易理解:我可以找一個人冒充你來拍影片,讓他說「我的文章內容是我編造的」,然後換上你的臉孔,讓影片看起來像是你說了這些話。到最後,我甚至可以製作聽起來像是你在說話的假錄音,把它放進一支假冒你的影片裡。

問:即使被造假的對象沒有合作,也辦得到嗎?

答:沒錯。到目前為止最知名的例子,就是喬登.皮爾模仿歐巴馬總統的影片。(影片內有粗話。)

這就是我們對換臉技術的定義。但重要的是,我們必須把它看成更廣泛的技術進步的一部分,那些技術進步是用人工智慧來製造內容,而這些內容可創造出無數合成媒體。影音的編輯或個人化、臉部表情的模擬等等,已變得愈來愈容易。


影片字幕

我們身處的這個時代,敵人可以在任何時候,製造出表象,讓任何一個人看起來說出了你要他說的任何話,即使這些人絕對不會說出那些話。他們可能會讓我說「大反派齊爾蒙格是對的,」或是「班.卡森完蛋了」,還是乾脆就說「川普總統是個無藥可醫的白癡。」你們看,我絕對不可能說這些話,至少不會公開講。但有人會講這些話,例如喬登.皮爾。這是一個危險的時代。我們在往前邁進之時,必須提高警覺,慎選可信任的網路內容。這個時候,我們必須仰賴可信任的新聞來源。這聽起來或許很基本,但關於我們的前景,資訊時代將左右我們是否能安然存活,或是變成某種反烏托邦。謝謝大家,還有,保持清醒,X婆娘。


問:因此,這件事的重點,不只在於某個人是否非常擅長編輯圖片或影片,還是可以維妙維肖地模仿別人的聲音?

答:沒錯。最新的合成媒體,大多是由機器學習的進步來驅動的,具體來說,就是所謂的「生成對抗網路」技術(generative adversarial networks, GAN)。基本上,就是讓兩個神經網路用同樣的資料彼此較勁。其中一個網路負責製造內容,例如,幾可亂真的造假圖片。另一個網路則負責分辨影像的真偽。這變成一個持續進行的貓捉老鼠遊戲,可以加速學習,讓網路提高造假能力。

我也應該提到,這項技術還是有強大的正面用途;我認為這方面的報導不足。以擴增實境和虛擬實境來說,把人物疊加在內容之上的功能就非常實用。例如,肌萎縮性脊髓側索硬化症(ALS)患者可以建立聲音銀行,以供他們失去口語能力時使用。這項技術有許多潛在的良好用途,但我們仍必須謹慎考量負面用途。

問:那段喬登.皮爾影片令人震驚,但看起來並不那麼真實。真假難辨的換臉技術是否尚未問世?

答:這要看用途而定。在大部分情況下,臉部的移花接木可以看得出來。你可以看出嘴巴和鼻子的動作,有細微的不一致。如果背景紛雜,效果可能就不佳。這些都屬於進階事物。目前GAN的運作仍需要很多條件,包括:強大的處理器、良好的影像卡、優質的訓練資料(也就是你提供給系統使用的圖片),還有耐心。但它已不再是好萊塢片廠專有的電腦成像技術(computer generated imagery, CGI),目前已有長足的進展。隨著運算能力和網路的進步,它也會演變,而且它的威脅可能會轉向行動通訊領域,但現在還沒有。

問:所以,這仍不是業餘人士做得出來的?

答:嗯,不是每個業餘的人都做得到。但威脅模式會隨著科技進步而演變。換臉影片的製作門檻已大幅降低。換臉軟體的程式碼已公布,大家也開始以此為基礎來延伸應用。但還是要有些聰明才智才做得到,即使只是想知道該挑選和採用哪些影像。不管如何,從威脅的觀點來看,真正精細複雜的換臉技術,並不是我最擔心的事。

問:更值得擔心的是什麼?

答:有三件事。第一,輕微變造。例如,在影片的背景或前景中,添加或移除一些元素,這件事很快就可以更容易做到,而這麼做可能徹底改變視覺圖像或影片的意義。例如,在畫面裡加上原本不存在的爭議旗幟,移除牽涉某個事件的關鍵目擊者,或是刪除地上的一支槍。

第二,目前還不清楚,換臉影片是否非得做到幾可亂真的地步,才能產生一些效果。在色情產業,換臉是一個影片類別,把色情影片演員換上名人臉孔,不逼真也能吸引觀眾。在更切身相關的主流世界,根據我在人權領域的經驗,我們就曾看過,有人用粗製濫造的換臉影片,來攻擊公信力和真相。例如,指稱一名女性記者在印度參與性活動的影片,即使不可信,還是能危害到當事人,對她造成嚴重的威脅。關鍵似乎在於媒體的個人化,而比較不在於造假影像本身的可信度。

我也在思索數位野火的問題,也就是惡意針對某些目標的影片流傳(通常在封閉通訊應用程式裡流傳),在局部地區迅速造成具殺傷力的效應。這或許不是公眾人物煽動暴力,而是某支針對一群想相信謊言的人,而製作的品質低劣造假影片,像病毒般迅速流傳進入主流。印度才剛發生這種事件:一支經過編輯的影片宣稱,有兩名男子因綁架孩童而遭到私刑處置,而這正是能透過合成媒體增強的威脅模式。我憂慮在政治、人權領域出現這種現象,也擔心商業領域。

問:關於針對企業而製作的換臉影片和其他合成媒體,企業該留意哪些事?

答:商業與聲譽有關,換臉影片能以企業聲譽為目標,讓企業領導人公開說出,或是支持一些他們其實並不支持的想法。上市公司股票交易的基礎,是對於判斷企業價值時所用資訊的信任。網路爆紅影片可能會影響聲譽和股價。我們已經看到,不實新聞如何用於「哄抬拋售」的炒股騙局,以及其他詐欺事件。換臉影片和其他合成媒體也可以用來做相同的事。大眾對市場的信心會因此遭到摧毀。這可不是芝麻小事。

不過,我思考的仍然不只是逼真的造假陰謀如何摧毀整家企業。我也會思考那些發生在較低層次的數位野火,例如:經過操縱的食物汙染或產品安全問題影片;聽起來像是某個高階主管談話的低品質爆料音檔,暗示企業有串供之嫌;或是羞辱某個富有同情心立法者的換臉影片。這些資訊會持續影響到公司和一般人對資訊的信任,即使在造假被揭穿後,仍會持續影響。

就像個人一樣,企業應該留意,合成媒體的運用,以及運用資訊來作惡的其他趨勢,這兩者之間的交會重疊。其中包括與其他運算宣傳形式的交會,像是聊天機器人與運算法如何用來模仿和擴大人類活動,還有網路行動如何高度仰賴在網路聊天室和線下進行的協調。合成媒體的運用,與對新聞媒體機構常見的不信任問題,這兩者是有交集的,當然,與社會中意識形態兩極化的問題也有交集。

問:是否要考慮網路素養的問題?錯誤資訊和宣傳都不是新鮮事。關鍵在於大眾對資訊應該有批判思考的能力。

答:沒錯,這是一部分。但人對視覺內容有一種深刻的信任感,而對於查證視覺資料時應尋求的重點,經驗就少得多。我們往往不會以懷疑的態度來評估視覺內容。我們在這方面的素養還不夠。這是可以教導的,而且,可能必須要教導才對。

問:生活在這樣的世界,感覺很艱辛的,因為任何事物都不能輕易信任。

答:這是常見的憂慮:如果沒有任何事物能相信,你就應該什麼都不相信。故意汙染環境,以破壞信任,是常見的威權體制技倆。因此,我們必須小心防範。但另一項重大顧慮,比較屬於局部的性質:以小眾為目標的換臉影片和其他合成媒體。在人權領域,這種做法可能是找出目標群眾,以便對他們傳達仇恨言論,然後,專門針對他們,製作聽來像是他們同儕或備受推崇領導人的聲音。在商業界我想到的例子,是假造你信任的聲音以進行網路釣魚詐騙。我們試圖廣泛因應錯誤資訊,或是造假資訊的危險時,這些是我們設定的一些威脅模式。

問:那麼,我們要如何著手因應這些威脅?

答:我們在最近的研討會裡,建構出12個解決方案領域。整體來說,我們認為,在進入風暴中心、合成媒體更廣為流傳之前,有必要先發制人,備妥解決方案。我想把焦點放在我認為最有潛力的三、四個方法。

第一,理解如何用傳統鑑識技術,來偵測換臉影片或虛假圖像。還有,如何把這一點傳達給記者、調查人員、最後是消費者。我們正檢視運用那些鑑識技術的新方法。例如,換臉軟體目前還做不到的一點,是在臉部重製心跳。但在真實影片裡,我們有方法可以放大像素,偵測到脈搏跳動。我們能用其中的部分技巧找出造假之處嗎?這需要投入高額的研究經費。

第二,運用製作換臉影片的那些技術,來偵測換臉影片。最近,研究人員建立名為「臉孔鑑識」(FaceForensics)的假圖像資料庫,用來訓練神經網路偵測假圖像。在第一輪,神經網路的表現優於肉眼。當然,你能辨識的造假愈多,就愈能增加訓練用的影像和資料,好讓演算法變得更擅長尋找造假。這是個有潛力的領域,但科技界對這種軍備競賽問題存有歧見:區分器能趕上生成器的腳步嗎?許多人相信,目前可以。但這項技術還是要能在平台層次取用和整合,讓造假內容永遠無法外流。

這就導向第三個領域:促成平台採取行動,並形成政策。我們要如何適切掌握造假與諷刺(和其他情況)之間的微妙界線?藝術家可能會主張,為領導人配音,只不過是政治漫畫的延伸,而在政治漫畫裡,扭曲是評論的一部分。你要如何控制惡意內容,而不限制言論自由?平台必須找出因應這些問題的辦法。Reddit撤下換臉的內容分類。動態圖庫蒐尋引擎Giphy和色情分享網站Pornhub也都撤除換臉的內容。平台、蒐尋網站和社群媒體網站面臨了重大問題,我們也需要因應。

最後,我認為有希望創造出技術方法,以確認資料來歷和真實性。我們是否能提升我們記錄影像原始來源、顯示監管鏈(chain of custody)的能力,以增加我們對真實影像的信任?影像生成的時候有後設資料(metadata),透過區塊鏈或其他加註標記的方式來追蹤編輯紀錄。這些方法也有缺點,例如,處境脆弱的當事人不能冒險把太多資訊或身分資訊,加進關鍵內情或犯罪證據裡。但我們必須談論如何建立對照片和影片的信任,以及資料來歷和真實性能扮演什麼角色。

問:你是否有信心,運用這些策略就能遏止換臉影片流傳?

答:這些策略都不是一勞永逸的萬靈丹。所有這些領域都有漏洞和缺點,但我認為這些領域是最可能建立信任的領域,只是我們不能假設這麼做就能解決問題。廣泛操縱圖像、聲音和影片,是我們還不習慣的概念。即使我們習慣了這一點,還是必須去理解,為什麼有人明知是假的,還是想要這些東西。

(周宜芳譯自2018年7月24日HBR.org數位版文章)



史考特.貝里納托 Scott Berinato

《哈佛商業評論》英文版資深編輯,著有《好圖表練習本:做出更好的資料圖表的訣竅、工具和練習》(Good Charts Workbook: Tips, Tools, and Exercises for Making Better Data Visualizations, HBR Press, 2019)和《哈佛教你做出好圖表》(Good Charts: The HBR Guide to Making Smarter, More Persuasive Data Visualizations)。


本篇文章主題安全與隱私