資料科學服務特色


資料準備

彈性的資料存取

資料科學家可以存取和使用任何雲端或內部部署的資料來源。這可提供更多潛在的資料功能,進而改善模型。

資料標籤

Oracle Cloud Infrastructure (OCI) Data Labeling 是用來建置標記資料集的服務,可更精確訓練 AI 和機器學習模型。使用 OCI Data Labeling,程式開發者與資料科學家可收集資料、建立和瀏覽資料集,並將標籤套用至資料記錄。

使用 Spark 大規模進行資料準備

將互動式 Spark 查詢送出至您的 OCI 資料流程 Spark 叢集。或者,您也可以使用 Oracle Accelerated Data Science SDK 輕鬆開發 Spark 應用程式,然後從資料科學環境內,大規模地在 OCI 資料流程上執行應用程式。

功能存放區 (預覽中)

透過完全受管理的執行來定義功能工程管線和建置功能。同時記錄功能和特徵管線。共用、管理及控制功能的存取權。同時使用批次與即時推論案例的功能。

模型建立

JupyterLab 介面

內建雲端代管的 JupyterLab 筆記型電腦環境,可讓資料科學團隊使用熟悉的使用者介面建立及訓練模型。

開放原始碼機器學習架構

OCI Data Science 為資料科學家提供熟悉度和多樣性,其中有數百個熱門的開源工具和架構,例如 TensorFlow 或 PyTorch,或是增加選擇架構。OCI 與 Anaconda 之間的策略夥伴關係可讓 OCI 使用者直接從 Anaconda 儲存區域下載和安裝套裝程式,而無須花費成本,即可更輕鬆地存取開放原始碼。

Oracle Accelerated Data Science (ADS) 程式庫

Oracle Accelerated Data Science SDK 是一套容易使用的 Python 工具套件,透過其整個端對端資料科學工作流程支援資料科學家。

模型訓練

功能強大的硬體,包括圖形處理單元 (GPU)

藉由 NVIDIA GPU,資料科學家可在更短的時間內建置及訓練深度學習模型。效能可提升 5 到 10 倍。

工作

使用工作以批次模式執行可重複的資料科學工作。支援裸機 NVIDIA GPU 和分散式訓練,可縱向擴展您的模型訓練。

工作使用者自建物件的主控台編輯

使用程式碼編輯器,直接從 OCI 主控台輕鬆建立、編輯及執行資料科學工作使用者自建物件。隨附 Git 整合、自動版本控制、個人化等功能。

治理和模型管理

模型目錄

資料科學家使用模型目錄來保存和分享已完成的機器學習模型。目錄會儲存使用者自建物件,並擷取模型之分類與內容的描述資料、超參數、模型輸入與輸出資料綱要的定義,以及模型來源的詳細來源資訊,包括原始程式碼與訓練環境。

模型評估與比較

自動產生全面的度量和視覺化套件,以根據新資料衡量模型效能並比較模型候選人。

可重製的環境

運用預先建置且策劃的 conda 環境,來處理各種使用案例,例如 NLP、電腦視覺、預測、圖形分析和 Spark。發布自訂環境並與同事分享,確保訓練和推斷環境的可再現性。

版本控制

資料科學家可以連接到組織的 Git 儲存庫,以保存和檢索機器學習工作。

自動化與 MLOps

受管理模型部署

將機器學習模型部署為 HTTP 端點,以即時對新資料提供模型預測。只需從模型目錄中按一下即可部署,OCI Data Science 可處理所有基礎架構操作,包括運算配置和負載平衡。

ML 管線

使用完全託管的服務來編寫、除錯、追蹤、管理和執行 ML 管線,以操作並自動化您的模型開發、訓練和部署工作流程。

ML 監控功能

持續監控生產中的模型,提供資料和概念差異。可讓資料科學家、網站可靠性工程師和 DevOps 工程師接收警示,並快速評估模型重新訓練需求。

ML 應用程式

針對 Oracle 自己的 SaaS 應用系統設計來內嵌 AI 功能,現在可以使用 ML 應用系統將整個 MLOps 生命週期 (包括開發、佈建及持續維護與運輸隊伍管理) 自動化,適用於為其數千名客戶提供數百個模型的 ISV。

AI Quick Actions

無需程式碼

藉助 Mistral、Meta 和其他公司的 LLM,您無需透過 OCI Data Science 記事本中的無縫使用者介面編寫程式碼。

從 OCI Object Storage 匯入任何 LLM,然後透過易於使用的使用者介面進行微調和部署。

部署

只要按幾下滑鼠,即可部署 LLM,此 LLM 由常見的推論伺服器提供支援,例如 vLLM (來自加州大學伯克利分校)、文字生成推論 (來自 Hugging Face) 或 TensorRT-LLM (來自 NVIDIA),以獲得超高效能。

微調

為了達到最佳效能,請使用 PyTorch、Hugging Face Accelerate 或 DeepSpeed 進行分散式訓練來微調 LLM。透過物件儲存啟用微調權重的儲存。此外,提供服務的 Condas 消除了對自訂 Docker 環境的要求,並且可以更快的速度實現共用。

評估

根據 BERTScore 或以回憶為導向的 Gisting 評估 (ROUGE),為您的 LLM 產生詳細的評估報告,協助您瞭解此模型的效能與其他模型相比如何。