小數據在人工智慧裡的大角色

Small Data Can Play a Big Role in AI
詹姆士.威爾遜 H. James Wilson , 保羅.道格提 Paul R. Daugherty
瀏覽人數:1285
因小數據技術進步而提高的效率、準確度和透明度,逐漸應用在各個產業和企業職能部門。但競爭優勢的來源不會是自動化,而是人為因素。例如,隨著人工智慧在員工技能訓練中扮演的角色日益加重,它從較小數據集當中學習的能力,將讓員工專家能夠把自己的專業知識納入訓練系統之中,持續改善那些系統,並且有效率地將自身技能轉移給其他員工。因此,別低估未開發數據集的力量。

今日,有超過四分之三的大型企業正在實施「數據渴求」型(data-hungry)的人工智慧行動方案,這些方案包括神經網路,或是根據大規模資料庫來接受訓練的深度學習系統。然而,組織裡最有價值的數據集當中,有很多都非常小:它們的單位是千位元組或百萬位元組,而不是艾位元組(exabyte,10的18次方位元組)。這些數據缺乏大數據的數量和速度,因此常會被忽略,在個人電腦和功能部門數據庫中閒置無用,也沒有連結到全公司的資訊科技創新行動方案。

但我們最近對醫學編碼人員進行的一項實驗證明,新興的人工智慧工具和技術,再配合仔細關注人為因素,能為使用小型數據來訓練人工智慧和改造各項流程,開創出新的可能。

以典型的大型組織來說,每一個用來驅動人工智慧或先進分析行動方案的大數據集(具有十億列和行),可能伴隨一千個未被使用的小數據集。這類例子很多:針對新顧客區隔的行銷調查,會議紀錄,少於一千列和行的電子表單。在我們的實驗中,未被使用的小數據集,是一個由醫療編碼人員團隊負責添加到病歷圖表裡的註解,數千個病歷圖表中,每一個圖表只有幾十個註解。

醫療編碼人員會分析個別病人的病歷圖表,並把有關診斷、療法、藥物等的複雜資訊,轉換為字母數字代碼。這些代碼被提交給計費系統和醫療保險公司,用於付款和申報給付,並在病人醫療照護中扮演關鍵的角色。

參與我們實驗的編碼人員都是註冊護理師,已經習慣使用人工智慧系統提供協助。人工智慧系統掃描圖表,找出醫療病況和療法之間的關聯性,然後建議在那張圖表使用的適當代碼。

我們想看看是否可能將負責正確地一次評估一張圖表的編碼人員,轉型為人工智慧訓練人員,能夠用醫學知識來豐富人工智慧,以改善人工智慧系統辨識關聯性的成效。

我們在為期12週的實驗過程中發現,若要結合小型數據和人工智慧來創造和改造工作流程,就必須密切關注人為因素。我們認為,在實驗中出現的三個以人為本的原則,可協助組織著手展開自己的小型數據行動方案:

用人員領域專業知識,來平衡機器學習。目前已開發出許多人工智慧工具,可利用小數據來訓練人工智慧。例如,小樣本學習(few-shot learning)可教導人工智慧只根據一個或少數幾個例子,而不是根據數十個圖像,來辦識物體類別(例如臉部、貓、摩托車)。在零樣本學習中,人工智慧能準確預測機器訓練數據中並不存在的圖像或物體標籤。換句話說,它可以正確辨識以前從未見過的事物。遷移學習(transfer learning)是把從某項任務中獲得的知識,移到新任務的學習中;例如,根據另一種類型的知識來辦識癌症的亞型,如此人工智慧就不需要大量新數據來執行新任務。

我們在實驗中,使用一般稱為「知識圖」的工具,用以明確呈現不同類型實體之間的各種關係:「藥物A治療病況B」、「療法X減輕症狀Y」、「症狀Y與病況B相關」等等。它簡潔地掌握到專家知識,並讓這些知識適合用於機器推理,例如,針對處方開立的藥物和療法,推測出現特定病況的可能性。

為了讓編碼人員能將本身的知識傳授給人工智慧,我們開發一個容易使用的介面,讓他們可以查看圖表資料庫中有爭議的關聯性。這些關聯性,就是他們同事在查看個別圖表時,不同意人工智慧指派的那些關聯性,他們可能會添加系統不知道的關聯性,或是刪除已添加的關聯性。編碼人員可以根據自己的專業知識,直接驗證、刪除或添加關聯性,並說明自己做這些決定所根據的理由,而他們的編碼同事之後也可以看到這些說明。此外,我們鼓勵他們採用自己偏好的方式,也就是使用Google(通常與WebMD結合使用)來研究藥物與疾病的關聯性,不必局限於使用他們覺得速度很慢的現有人工智慧查找工具。

結合機器學習和人類專業知識,可產生顯著的乘數效應。編碼人員並不是只評估個別圖表,而是添加可影響到未來所有圖表的醫學知識。此外,人工智慧承接了大部分的例行工作,因而大幅減少了篩選所有病歷圖表的需求,讓編碼人員可以將精力集中在特別有問題的病例上。同時,數據科學家不再身陷於繁瑣、低價值的數據清理、正規化和整理的工作。

把重點擺在人類輸入的品質,而不是機器輸出的數量。在現有系統中,編碼人員專注在評估大量的個別圖表。隨著時間過去,人工智慧從眾多編碼人員添加或拒絕的眾多關聯性當中學習:一旦編碼人員多次提出某個人工智慧不熟悉的藥物與疾病關聯性,數據科學家便會把這項關聯添加到圖表數據庫。這個手動過程僅偶爾執行,部分原因是,累積編碼人員所建議的關聯會有時間差,而且它仰賴關聯的數量來運作,而不是仰賴醫學專業知識。

新系統鼓勵編碼人員減少對個別關聯數量的關注,而把更多精力用在指導人工智慧了解處理個別的藥物與疾病關聯的一般性做法,並在必要時進行研究。現在可以在較少的量化證據下,考慮將關聯添加到知識圖表人工智慧之中。人工智慧將更規律、更動態地學習,特別是有關稀有、有爭議或新的藥物與疾病關聯。

了解負責處理小型數據團隊的社會動態。編碼人員在擔任新職務時,不只迅速把自己當成人工智慧的老師,也是其他編碼人員的老師。最重要的是,他們了解到,自己在團隊其他成員中的聲譽,取決於自己為本身決定提供的扎實理由依據。他們經常談到,這些依據很重要,攸關後續編碼人員在遇到陌生關聯時是否有信心。

只進行了少數幾次實驗後,就有很多參與者要求,增加工具裡的理由文字框可容納的字數。之後,他們又要求調整研究框,讓它能容納多個參考資料。值得一提的是,他們現在花費在每個案件上的時間,比以前用既有系統處理時更多,而且隨著實驗進行,他們為自己的決定,提供了更全面的理由依據。此外,編碼人員表示,在執行新任務時使用自身的更多知識,並取得新技能來幫忙建立自身的專業,因而不僅感覺更滿意,也更有生產力。他們對每天使用人工智慧系統,也抱持更正面的態度。

隨著小型數據技術進步而提高的效率、準確度和透明度,將逐漸應用在各個產業和企業職能部門。例子包括藥物發現、工業圖像檢索、新消費性產品的設計、工廠機器零件瑕疵偵測等等。

但競爭優勢的來源,將不會是自動化,而是人為因素。例如,隨著人工智慧在員工技能訓練中扮演的角色日益加重,它從較小數據集當中學習的能力,將讓員工專家能夠把自己的專業知識納入訓練系統之中,持續改善那些系統,並且有效率地將自身技能轉移給其他員工。不是數據科學家的員工,也可以轉型為人工智慧訓練員,就像我們的編碼人員一樣,進而讓公司能應用和擴展組織獨有的、大量未開發的專業知識。此外,小型數據應用所產生的結果,不會如同數據渴求應用般來自黑盒子,而是來自人機協作,讓我們能夠解釋得到的結果,因此在組織內外都更值得信賴。

掌握將小型數據與人工智慧結合在一起的人為面向,有助於許多組織建立差異化競爭,尤其是那些發現自己在大數據競賽中不太可能獲勝的組織。


致謝:作者要感謝我們位於都柏林的埃森哲創新中心The Dock、都柏林埃森哲實驗室和舊金山的研究團隊。我們的核心團隊成員,包括迪亞米德.卡哈蘭(Diarmuid Cahalane)、梅德.柯科倫(Medb Corcoran)、安德魯.道爾頓(Andrew Dalton)、詹姆斯.普里斯塔斯(James Priestas)、派屈克.康納利(Patrick Connolly)和大衛.拉維耶里(David Lavieri)。


(劉純佑譯)



詹姆士.威爾遜 H. James Wilson

埃森哲研究所(Accenture Research)資訊科技與企業研究的全球執行董事,與保羅.道格提合著《人+機器:在人工智慧時代重新設想工作》(Human+Machine: Reimagining Work in the Age of AI, HBR Press, 2018)。


保羅.道格提 Paul R. Daugherty

埃森哲顧問公司(Accenture)科技與創新長,與詹姆士.威爾遜合著《人+機器:在人工智慧時代重新設想工作》。


本篇文章主題數據資料