生成式人工智慧 別再依賴通用AI模型!從資料治理到應用落地的六步策略

別再依賴通用AI模型!從資料治理到應用落地的六步策略

Illustration by Rocío Egio

企業導入生成式AI,若只仰賴通用模型與外部內容,難以獲得實質報酬。「檢索增強生成」(RAG)是目前最有效整合自家專有知識與大型語言模型的做法,前提是非結構化數據具備足夠品質。本文說明企業該如何準備、清理、評估與維護這類內容,讓AI真正解決業務疑問、發揮價值。

企業擁有的內容大多存在於「非結構化數據」中,也就是工作流程中產生的那些電子郵件、合約、表格、SharePoint資料、會議紀錄等等。這些自家專有的內容,讓生成式人工智慧(AI)更加獨特,更了解你公司的產品和服務,更不容易產生幻覺,也更有可能帶來經濟價值。誠如我們訪談的一位數據長所指出:「如果只是安裝CoPilot的話,你恐怕不會獲得太多投資報酬。」

許多企業已經得出結論,生成式AI的最大價值在於將大型語言模型(LLM)卓越的語言能力、推理能力和通用知識,與自身的專有內容結合起來。這樣的結合對企業層級的生成式AI應用是必要的,例如在客服、行銷、法務、軟體開發,以及為顧客提供的產品與服務等方面的應用。

目前企業導入自家內容的最普遍做法是「檢索增強生成」(retrieval augmented generation, RAG),該技術將數據庫等傳統資訊收集工具與LLM檢索到的資訊結合起來。採用這種方法,是因為將大量內容直接輸入提示詞,在技術上常常不可行,或是成本過高。RAG方法雖然技術上較為複雜,但確實可行,只要所使用的非結構化數據品質良好,就能對使用者提示做出準確回應。而問題就出在這裡。非結構...