對加州理工學院 (California Institute of Technology, Caltech) 的先驅研究員 Matt Thomson 來說,研發癌症療法的主要挑戰在於資料,即將機器學習 (ML) 模型大規模應用於病患資料,從而研發出新療法來攻克難以治癒的腫瘤。
「我們知道,如果我們能夠利用人體自身的免疫系統來攻擊腫瘤,就可以治癒癌症,」Thomson 表示。「但對於一些嚴重的癌症來說,此策略不起作用。因此,現在我們使用機器學習來查看與病患相關的所有資料,瞭解此策略有效還是無效,然後開發新的療法。」
Thomson 是加州理工學院單細胞分析和工程中心 (亦稱為 Thomson Lab) 的主要研究員。他和團隊整合並分析廣泛的可變資料集,以在名為蛋白質工程的過程中建立和應用大型語言機器學習模型。
這些模型包含多達 1000 億個參數,需要分散式運算方面的專業知識來大規模託管、執行及微調。每個模型都必須在蛋白質設計測試週期中執行數千次。蛋白質設計不僅需要單一模型,還需要專門用於下游應用的模型庫,例如免疫調節 (減少或增強免疫反應) 和熱穩定性 (物質在受到中度熱度影響時保持其特性的能力)。Thomson Lab 面臨的挑戰在於存取大規模執行和測試模型所需的高效能運算 (HPC) GPU。
「單一 GPU 無法容納 1000 億個參數,」Thomson 表示。「只有多年合約才能提供充足且有彈性的 HPC 資源,但在學術界內幾乎不可能獲得這麽多的資金。」
在進行研發時,個別研究人員和組織過去通常會建置自家的一次性電腦,但這些電腦在幾個月內就過時了。最近,該實驗室使用 Caltech 自家的 HPC 叢集,但隨著研究的進展,即使是強大的資源也是不夠的。
因此,Thomson 轉向採用雲端。但該實驗室與一家知名雲端基礎架構供應商的首次合作因隱藏費用和內部管理負擔而受阻。後來,Thomson 透過其人脈與 Oracle AI 和 ML 團隊聯絡,設計了概念驗證 (PoC),在 Oracle Cloud Infrastructure (OCI) GPU 實例上建立及測試模型。
「藉由隨時存取 OCI 上最新的 GPU 實例,研究人員可以使用最新技術。對於此類研究來說,內部部署 HPC 叢集可能很快就會作廢。」
在訓練模型時,每個模型都會將約 20 TB 的總資料庫中的約 80 GB 資料提取並保存在 GPU 記憶體中。在 PoC 中,Thomson Lab 已建立 1,000 個模型。此前,該實驗室一次只能建立 10 個模型的測試。
「在 PoC 期間,Oracle 與我們通力合作,而且 Oracle 團隊持續展現對推動我們工作的承諾,」Thomson 表示。「其他供應商會提供註冊獎勵,但對與我們這樣規模的組織合作,他們並沒有表現出任何實際的興趣。」
生物學研究需要將越來越多的資料與無數新的數學模型整合。過去,研究界並不依賴專業級資料庫,而是選擇使用符合經濟效益的開源資料庫服務。
例如,Thomson Lab 處理 100 多個資料集,每個資料集包含多達 1,000 萬個資料列和 30,000 個資料欄,每週產生約 20 TB 的新資料。目前,資料集以 CSV 檔案格式單獨儲存在本機硬碟上。但是,如果沒有可以儲存加州理工學院以及其他研究組織的所有資料集的資料儲存和管理系統,就無法使用所有可用的相關資訊來訓練機器學習模型。
因此,Thomson Lab 期望在未來與 Oracle 合作開發一個資料儲存與管理系統,以保存所有資料集,同時可供任何機構的研究人員動態存取。
Thomson 樂觀地表示,Caltech 與 Oracle 的合作將在癌症研究和照護方面取得突破性進展。
「所有工具都在那裡,」他表示。「我們希望與 Oracle 合作,將一切整合起來,並以雙方同意的貨幣化模式實現經濟效益,這不僅適用於於 Caltech,也適用於類似的組織。我們致力於共創無限可能。」
研究人員在 OCI 上執行 ML 模型的速度是原來的兩倍。
使用 OCI Data Science、裸機實例和叢集網路訓練 AI 模型。