別把導入AI想得複雜又昂貴

AI Doesn't Have to Be Too Complicated or Expensive for Your Business
吳恩達 Andrew Ng
瀏覽人數:1798
Illustration by Skizzomat
每個領域的領導人都知道,AI技術具有巨大的獲利潛能,但將AI工具導入企業,除了採購成本,還有員工訓練與人才招募等方面,看上去又貴又複雜,對非科技業來說,進入門檻會不會太高?本文告訴你:不會!

人工智慧(AI)雖然有龐大的潛力,但尚未在大多數產業裡扎根。當然,AI已經改變了消費者網際網路公司,像是Google、百度與亞馬遜(Amazon),而這些都是擁有豐富數據的巨型企業,而且有數億名用戶。但是,對AI每年創造13兆美元價值的預測若要成真,製造業、農業與醫療照護等許多產業,仍需要找到方法,來使用這項技術創造效益。問題在於:這些消費者網際網路公司用來建立本身AI系統的做法,是採用一個能一體適用的單一AI系統,可服務大量用戶,而這種做法並不適用於其他產業。

相反地,這些歷史悠久的產業,需要大量專門訂製的解決方案,可調整以符合它們許多不同的使用案例。但是,這並不意味著AI不適合用於這些產業。這只是表示它們必須採取不同的做法。

為了消除這項差距,並發揮AI的全部潛力,所有產業的高階主管,都應該採取以數據為中心的全新方法,來建立AI。具體來說,他們應該把目標放在建立AI系統,並努力確保數據清楚地傳達他們需要AI學習的內容。要做到這一點,就必須聚焦在那些涵蓋重要案例,並持續被標記的數據,這麼一來,AI就能從這些數據中學會它該做的事。換句話說,若要創造這些有價值的AI系統,關鍵在於我們需要能用數據寫程式的團隊,而不是用代碼寫程式的團隊。

非科技業的三大難為

為什麼在消費者網際網路公司之外,AI沒有得到廣泛運用?其他產業採用AI時,面臨的最大挑戰包括:

1. 小數據集。在擁有大量用戶的消費者網際網路公司,工程師有數百萬個數據點,可讓他們的AI從中學習。但在其他產業裡,數據集的規模小很多。例如,你是否能建立一個AI系統,只看過五十個案例之後,就能檢測出有缺陷的汽車零件?或是僅看過一百個診斷案例並從中學習,就能偵測出罕見的疾病?為五千萬個數據點而建立的各項技巧,在碰到你只有五十個數據點時,是派不上用場的。

2. 客製化的成本。消費者網際網路公司,雇用數十或數百位技能精良的工程師,來建立與維護完整的AI系統,而這些系統能創造龐大的價值,比如一年能創造十億美元營收的線上廣告系統。但在其他產業裡,有很多個一百萬到五百萬美元的專案,每個專案都需要一套客製化的AI系統。舉例來說,製造不同類型產品的每家工廠,可能都需要一套客製化的檢查系統,而每家用自己的方式為病歷編碼的醫院,可能需要自己的AI系統,來處理自家病患的數據。這數十萬個專案合計的價值很巨大,但單一專案的經濟價值,可能不足以雇用一個專責的大型AI團隊,來建立並維護這套系統。AI人才持續短缺,加深了這個問題,進一步推高這些成本。

3. 概念驗證與實際使用之間的落差。即使AI系統在實驗室奏效,仍需要行龐大的工程作業來把它部署使用。一種並不少見的情況是,團隊在慶祝概念得到成功驗證之後,卻發現還要再花12到24個月工作,才能部署與維護這套系統。

若要讓AI充分發揮潛力,我們需要一個系統性的方法,來解決所有產業都面臨的這些問題。以數據為中心的AI推動方法,可以做到這一點;這套方法有一些工具提供支持,用以建立、部署,以及維護AI應用軟體,而這套方法稱為「機器學習操作」(machine learning operations,MLOps)平台。更快採用這個方法的公司,會比競爭對手更具優勢。

以數據為中心的AI開發方法

AI系統由軟體與數據組成;軟體是指包含AI模型的電腦程式,而數據是用於訓練那個模型的資訊。舉例來說,若要建立一個用於製造業自動檢測的AI系統,AI工程師可能要打造一套軟體,來執行深度學習演算法,然後向這個演算法展示一個包含良好零件與有瑕疵零件圖片的數據集,讓演算法從中學習如何區分這兩者。

在過去十年裡,許多AI研究是由以軟體為中心的開發方式所驅動的(這種開發方式也稱為以模型為中心的開發),在這種開發方式中,數據是固定的,團隊試著優化或發明新的程式,以便從可使用的數據中學習得更好。許多科技公司擁有來自數百萬名消費者的大量數據集,用這些數據來驅動AI的大量創新。

但以AI目前的複雜程度來說,許多應用程式的瓶頸,在於取得適當的數據以提供給AI軟體。我們已經聽說大數據的各種好處,但現在知道,對許多應用程式來說,更有成果的做法,是致力確保擁有「優良」的數據,而「優良」是指,這些數據能清楚說明我們需要AI學習哪些概念。舉例來說,這表示這些數據涵蓋重要案例的範圍應該相當全面,並持續進行標記。數據是AI的糧食,而現代的AI系統不只需要卡路里,還需要高品質的營養。

把你的焦點從軟體轉向數據,可帶來一個重要優勢:這仰賴你已經擁有的員工來執行。在目前優秀AI人才短缺的時代,以數據為中心的方法,讓許多對自己所在產業擁有廣泛知識的主題專家,為AI系統的開發做出貢獻。

舉例來說,大部分工廠裡,都有一些工人很擅長定義與辨識什麼是缺陷(0.2公釐的刮痕是缺陷嗎?還是這刮痕太小,所以沒有關係?)如果我們期望每家工廠都要求員工發明新的AI軟體,來獲得工廠需要的專門訂製解決方案,那麼進度會很緩慢。但相反地,我們可以打造並提供一些工具,讓這些領域專家安排運用那些數據,也就是讓專家提供數據給AI,以傳達他們在製造方面的知識;這麼做,成功機率會大幅提高。

系統性與可重複性

MLOps這個新興的領域,讓企業能夠轉向採取以數據為中心的AI開發方法,因為MLOps提供一些工具,讓建立、部署與維護AI系統,變得比以往任何時候都更容易。尤其是設計來協助產出高品質數據集的工具,是前述各項挑戰的關鍵,挑戰包括小數據集、高昂的客製化成本,以及將AI專案投入實際使用的漫長道路。

具體是要怎麼做?首先,要確保擁有高品質的數據,就表示AI系統要能從大多數產業擁有的較小數據集中學習。其次,所有產業藉著讓企業的領域專家,而不是AI專家來運用數據,就更容易獲得運用AI的能力。第三,MLOps平台提供將AI系統,投入實際使用時所需的大量搭建(scaffolding)軟體,因此團隊不再需要開發這項軟體。這使得團隊能部署AI系統,並在幾週或幾個月之內,就消除概念驗證與實際使用之間的落差,而不用耗費數年的時間。

絕大多數有價值的AI專案,還沒有被設想出來。即使是團隊已在進行的專案,從概念驗證到部署供實際使用之間的鴻溝,仍有待消除;確實,埃森哲顧問公司(Accenture)估計,80%到85%公司的AI專案,仍處於概念驗證階段。

以下是一些公司目前立即能做的事:

1.不只要聚焦在所收集數據的數量,還要考慮到數據品質,請確保那些數據可清楚顯示我們需要AI學習哪些概念。

2.確保你的團隊,考慮採用以數據為中心的方法,而非以軟體為中心的方法。許多AI工程師,包括眾多有強大學術或研究背景的工程師,都接受過以軟體為中心方法的訓練,請你促使他們,也採用以數據為中心的技巧。

3.對任何你打算投入實際使用的AI專案,一定要對部署流程做好規畫,並提供MLOps工具來支持推動。舉例來說,即使在建立概念驗證系統時,也要促使團隊開始為數據管理、部署,以及AI系統的監控與維護,制定長期計畫。

在不像消費者網際網路事業那樣數據豐富的其他產業,AI仍有可能成為一項蓬勃發展的資產,不過目前尚未取得進展。但也因為如此,AI未開發的最大機會,或許在於將它帶進其他產業。就像電力已經改變每個產業,AI也在這樣的發展道路上。但這條路的接下來幾個步驟,會需要我們在建立與部署AI系統的行動方法上,做出改變。特別是,採取以數據為中心的全新心態,加上有一些MLOps工具,可讓產業領域專家參與AI系統的創建、部署與維護,如此就可確保所有產業,都能獲得AI可帶來的回報。

(王怡棻譯自2021年7月29日HBR.org數位版文章)



吳恩達 Andrew Ng

Landing AI創辦人及執行長,曾擔任百度副總裁暨首席科學家、Coursera共同董事長與共同創辦人、Google Brain創辦領導人,以及史丹福大學(Stanford University)兼任教授。


本篇文章主題科技