藥商善用機器學習,找出病患最佳療法

How a Pharma Company Applied Machine Learning to Patient Data
拉斐克.阿賈尼 Rafiq Ajani , 阿爾諾.切特吉 Arnaub Chatterjee , 安納克西.塔韋 Aniketh Talwai , 傑克.張 Jack Zhang(音譯)
瀏覽人數:1370
電子病歷提供發掘新見解的大好機會。

真實世界的數據資料愈來愈容易取得,讓健康照護界大為振奮。據估計,健康資料的數量每年增加48%,過去十年內,這種資訊的收集與匯集已蓬勃發展。這些資料裡,最有機會可能產生新穎洞見、破壞目前對病患照護的理解的其中一種資料,就是電子病歷(electronic health records, EHR)。

但是,要分析電子病歷資料,需要能在短時間內處理大量資料的工具。人工智慧,更準確地說是機器學習,已經在破壞一些領域如藥物探索和醫學影像等,但對於健康照護領域的可能性,才剛觸碰到皮毛而已。

來看看與我們合作的一家製藥公司的案例。它運用機器學習來處理電子病歷和其他資料,研究非霍奇金氏淋巴瘤(non-Hodgkin's lymphoma)的病患,想找出什麼樣的特徵或觸發因素,是病患必須轉換至下一線療法的預兆。公司希望更了解這個疾病的臨床進展,以及病人在各階段最適合的療法。這間公司的案例凸顯了三項指導原則,其他藥商也可以運用,以便在自己的組織裡成功使用進階分析法。

讓對的利害關係人參與,才能建立有意義的假設(和贏得組織支持)

雖然你可能有股衝動,想直接從資料著手,開始分析,但初期很重要的一步,就是制定一定要回答的關鍵商業問題,以及建立假設。建立一份完整的清單,列出能夠處理的各種假設,好讓分析團隊決定需要哪些類型的假設,以測試和證實(或駁斥)那些假設。

很重要的是,應該引進關鍵利害關係人對全公司各個職能團隊的看法,以確保那些假設包含了正確的專業知識,並為公司帶來最大的價值。這也能為分析爭取到支持和信任。

這個案例中,製藥公司找來品牌、醫療和商業情報等單位的人員,共同建立假設,說明可能有哪些因素可預測病患將從某種療法,換成另外一種療法,以及這些轉換療法的觸發因素。例如,在嘗試假設什麼因素會促使疾病進展加速或減緩的過程中,醫療團隊貢獻了對那個疾病的臨床知識,品牌團隊提供他們對公司治療產品和醫師如何使用這些產品的詳盡資訊,此外,商業情報團隊會介紹他們已經使用哪些分析模型與資料集,以塑造他們目前對治療法和病程的理解。

最好的資料,可能是多個資料集的結合

找到一個足夠廣泛、豐富的資料集,用來好好訓練機器學習演算法,非常重要。在腫瘤科尤其如此,這個領域有大量變數(包含年齡、性別、診斷歷史、用藥與治療歷史、實驗室數值,以及就醫情況),必須從許多病人身上持續收集這些變數的資料,而且時間跨度必須夠長,才能夠做出有效的分析。

那家製藥公司的分析團隊發現,它們內部的資料,對於或許可以用來預測病人是否會轉換療法的變數,收集得不夠深入。因此它們採用一種策略,使用內部與外部的資料,結合成一個專門針對腫瘤、整合的、結構化的電子病歷資料集,以及一些在醫療保險申請理賠資料上重複驗證過的分析。

匯集結合所有資料,投入一個能「自動發現特徵」(automated-feature-discovery, AFD)的機器學習引擎,讓公司可以在幾小時內測試數百萬個假設。這個引擎會探索病患資料每一種可能的變異情況,看看是否有任何變數,與轉換到下一線治療在統計上顯著相關。收集主題領域專家的見解,可以協助確保AFD的結果有臨床意義。例如,當結果顯示一項肝功能標記的數值上升,與疾病進展有相關性,醫療人員證實這個因素在臨床上是可能的,雖然他們之前並不會考慮這個因素。

回饋循環(很多次)是達到最佳結果的關鍵

重複測試並學習的過程,對發展出正確的模型很重要。這家製藥公司的分析團隊,測試了超過兩百項實驗室數值、幾個主要慢性共病症,以及病史中的元素。機器學習協助找出並隔離出能預測療法轉換的關鍵變數組合。模型經過驗證和改善,以避免雜訊,並減少變數的數量。

經過數星期的反覆學習和驗證,成功打造出一個模型,可以預測從初步診斷,到轉換至下一線療法的進展。具體來說,是運用機器學習,從病患的治療、實驗室和用藥歷史中,擷取一些特徵和觸發因素,而經過驗證的特徵,被用來為病患評分及評等,以呈現病患會轉換療法的可能性。

這個模型發掘了許多重要見解,包括:

● 特定化驗報告的異常,例如肝功能標記數值上升,在某些案例中,會將病患轉換到下一線療法的可能性提高140%。

● 進行維持治療的病患,轉換到下一線療法的可能性降低了20%。

人工智慧為醫療帶來重大改變

運用正確的資料、組織流程和臨床知識,機器學習與人工智慧就能為今日的製藥和健康照護界帶來重大改變,雖然還是存在某些限制。例如,可能還是很難理解為何一些複雜的模型會做出某些結論,而且,為需要大量資料的模型標記大量資料集,是很坎坷且辛勞的工作。

然而,最近有一些方法可用來處理這類限制,例如LIME(local-interpretable-model-agnostic explanations,局部─可理解─與模型無關的解釋方法),可協助演示模型的推理過程,也有一些人正設法讓機器學習自行標記資料集。隨著限制被突破,製藥和健康照護領域的機會將會大大擴展。已經開始運用機器學習的公司,屆時會擁有已打造好的必要基礎設施和流程,得以善用那些機會。

(游樂融譯)



拉斐克.阿賈尼 Rafiq Ajani

麥肯錫顧問公司(McKinsey)位於美國麻州沃爾瑟姆市辦公室的合夥人,領導該公司的北美知識中心(North America Knowledge Center)。


阿爾諾.切特吉 Arnaub Chatterjee

麥肯錫顧問公司北美知識中心的資深專家,哈佛醫學院(Harvard Medical School)教職員。


安納克西.塔韋 Aniketh Talwai

麥肯錫顧問公司北美知識中心專家。


傑克.張 Jack Zhang(音譯)

麥肯錫顧問公司北美知識中心專家。


本篇文章主題分析