逛人工智慧平台,找數位幫手

Navigating the New Landscape of AI Platforms
馬努.沙爾瑪 Manu Sharma
瀏覽人數:751
近幾年,企業執行長們都日益重視可運用機器學習或人工智慧,來協助公司轉型。然而,讓內部的數據科學團隊自行開發,會耗費過多時間在建立和維護系統。其實,現在市場上已經有許多平台,提供各種層面與需求的現成系統,企業不但可以挑選購買自身需要的系統,還能推出自己開發的演算法。執行長可以根據自身企業的需求,判斷預算要花在何處。

將近兩年前,西雅圖運動科學公司(Seattle Sport Sciences)進行重大轉型,跨足人工智慧(AI)領域;這家公司專門提供數據給足球俱樂部高階主管、教練、訓練員和球員,以改善訓練。他們開始開發一套系統,可追蹤影片裡足球的物理運行狀況和球員的動作。為了打造這套系統,公司必須標註數百萬筆的影片畫面,以教導電腦演算法要在影片裡找什麼。首先,他們雇用一個小型團隊坐在電腦螢幕前,辨識每一張畫面中的球員和球。但他們很快就發現,需要一個軟體平台才能擴大規模。不久後,他們重金禮聘的數據科學團隊,把大部分的時間都花在建立一個能處理大量資料的平台。

在目前的風潮當中,每位執行長都可以看到(或至少察覺到)一些機會,可運用機器學習(machine learning)系統來改造本身的事業。幾乎每一家公司都有一些流程適合運用機器學習,這其實只是一種教電腦辨識模式、根據這些模式做出決定的方式,而電腦做這些事情比人類更快、更正確。路上有隻狗擋在我面前?踩剎車。X光片上有腫瘤?提醒醫生注意。地上有雜草?噴灑除草劑。

只有業內人士才知道,數據科學家獲得雇用之後,花在打造和維護人工智慧系統工具的時間,多於打造系統本身的時間。Algorithmia公司最近針對五百家企業所做的調查發現,企業高價禮聘的團隊花在機器學習模型的訓練和反覆執行的時間,還不到四分之一,而這其實才是他們最主要的工作。

不過,目前出現一些新工具,可讓企業更容易進入這個科技創新的時代。統一的平台把收集、標註和饋送(feed)數據的工作,納入監督學習模型(supervised learning model),或是打造模型本身,而這些平台承諾可以把各項工作流程標準化,就像Salesforce和Hubspot用來管理顧客關係的那些工作流程一樣。其中有些平台運用整合的機器學習演算法,把複雜的工作任務自動化,讓這些工作變得更加容易。這讓數據科學家可以空出時間,去打造那些他們受雇來打造的真正的結構,並且讓西雅圖運動科學公司之類的中小型企業,也能運用人工智慧。

西雅圖運動科學的人工智慧架構師約翰.密爾頓(John Milton),原本因為他們的數據科學團隊花了很多精力卻毫無進展,而感到沮喪,最後他終於找到一款商業解決方案幫了很多忙。「我真希望早點知道我們需要那些工具,」密爾頓說。他原先在編預算時,並沒有考慮到這套基礎設施,而後來他得回去找資深主管要求提供這筆經費,這對每個人都不是愉快的經驗。

一窺工具箱樣貌

人工智慧巨擘,像是Google、亞馬遜(Amazon)、微軟(Microsoft)和蘋果(Apple)等公司,持續開放一些工具讓大眾使用,其中許多是免費的,包括大型的編碼庫,工程師可用來彙編打造出深度學習模型。臉書(Facebook)強大的物體辨識工具Detectron自2018年發表以來,已成為最被廣泛採用的開放原始碼專案之一。但是,使用這些工具仍可能有挑戰性,因為這些工具不見得能合在一起運作。這表示數據科學團隊必須建立每一項工具之間的連結,讓它們執行公司需要完成的工作。

即將出現的最新大進展,就可以處理這個痛點。新的平台現在能夠讓工程師直接插入組件,而不用擔心連結性的問題。

舉例來說,深度學習平台Determined AI 和雲端運算公司 Paperspace,都銷售可以管理機器學習工作流程的平台。Determined AI 的平台包括一些自動化的要素,協助數據科學家找出神經網絡的最佳架構,而Paperspace則在雲端提供專用圖形處理器(GPU)。

「如果公司無法使用一個統一平台,他們會說,『這裡有個開放原始碼的東西可以做超參數優化(hyperparameter tuning),另外還有這個東西可以做分散式訓練(distributed training)』,他們真的就是把這些東西全都串起來,」Determined AI 的共同創辦人艾文.史巴克(Evan Sparks)說。「他們做這件事的方式,就像是用膠帶黏東西一樣。」

Labelbox是一個訓練數據平台(training data platform,TDP),用來管理數據的標記作業,好讓數據科學團隊有效率地與全球的標記團隊共事(本文作者就是Labelbox的共同創辦人)。它讓企業有能力追蹤他們的數據,並找出和修正數據裡的偏誤,而且優化他們的訓練數據的品質,然後才把數據饋送進機器學習模型裡。

西雅圖運動科學公司就是使用這套解決方案。農業機械公司強鹿(John Deere)也用這個平台來標註每棵植物的影像,好讓智慧型追蹤器找到雜草,並精準地噴灑殺蟲劑,這樣不僅能省下費用,也避免讓環境承受不必要的化學藥劑。

同時,企業不再需要雇用經驗豐富的研究人員,來撰寫機器學習演算法(演算法是現代技術的核心)。企業可以免費取得演算法,或是從曾經解決過類似問題的公司取得授權。

Algorithmia協助企業配置、運用、拓展他們的機器學習模型,並經營一個演算法市集,讓數據科學團隊不必自行打造演算法,重複去做別人已經做過的事情。使用者可以在該公司的平台上的七千個不同的演算法當中搜尋,並取得一個演算法的授權,或者也可以「上傳」他們自己的演算法。

企業甚至可以直接購買現成的深度學習模型,直接使用。

舉例來說,Fritz.ai提供了許多預先訓練過的模型,能夠偵測影片裡的物體,或是把某張影像的藝術風格轉而套用於另一個影像,而所有這些功能都可以在使用者的行動裝置上執行。這家公司也提供高階收費服務,包括打造客製化的模型,以及更多自動化的功能以管理和改良模型。

企業可以使用訓練平台來標記訓練數據,也可以找到已做好標記的資料集,這些是一般性的資料集,足以解決許多問題,而且其中很多是免費的。

不久之後,企業甚至可以提供機器學習的服務:顧客只要上傳數據與目標,就能夠透過一個應用程式介面(API)來使用一個訓練過的模型。

依預算選定工具

18世紀末,莫茲雷(Maudslay) 發明的金屬車床,導致產生標準化的螺紋,而標準化螺紋帶來了可互換的零件,這使得工業革命擴展得更廣遠。機器學習工具也會對人工智慧發揮同樣的作用,而且因為有了這些進展,企業能夠運用較少的數據科學家和較資淺的數據科學團隊,來執行機器學習。這一點很重要,因為機器學習的人才需求很大:根據鄧白氏(Dun & Bradstreet)2019年的一項報告,《富比世》雜誌(Forbes)全球兩千大企業受訪者當中,有40%表示他們正在增加更多與人工智慧有關的工作。而徵才入口網站Indeed.com上刊出的人工智慧相關職缺,從2018年5月到2019年5月躍升了29%。這其中的大多數需求,是從事監督學習的工程師。

但高階主管必須了解,隨之而來對這些工具和預算產生的需求。就如同西雅圖運動科學公司學到的心得,在推動專案之前,你最好先熟悉整個機器學習的工作流程,並找出必要的工具。

無論公司決定要自己打造那些工具或是買現成的,工具都很昂貴。就像關鍵的商業基礎設施一樣,自行打造會有隱藏的成本。買現成的解決方案一開始可能看起來花費較多,但長遠來看常是比較便宜的。

你確認必要的基礎設施之後,可以調查一下市場情況,看看有哪些解決方案,並且把這套設施的成本編入預算。小心不要被強迫推銷所欺騙。這個產業還很年輕,包括產業出現的時間尚短,而且產業裡的創業者還年輕。因為熱忱而進入這個產業的人往往是理想主義者,受到使命的驅使。他們相信自己正在普及一項很強大的新科技。

人工智慧工具的產業面對很大的需求。如果你發現有人只是在追求金錢,就要格外小心。認真的參與者會熱切地分享他們的知識,協助引導企業領導人邁向成功。成功對所有人都有益。

(陳佳穎譯)



馬努.沙爾瑪 Manu Sharma

深度學習系統訓練數據平台Labelbox共同創辦人,他是航太工程師,曾在幾家電腦視覺(computer vision)公司任職,像是無人機操作軟體DroneDeploy和地球成像公司行星實驗室(Planet Labs),打造企業內部深度學習(deep learning)模型的基礎架構。


本篇文章主題數據資料