GPU 執行個體

Oracle Cloud Infrastructure (OCI) Compute 為適用於主流圖形、由 NVIDIA GPU 支援的裸機和虛擬機器 (VM) 執行個體提供業界頂尖的可擴展性、 AI 推論、AI 訓練、數位分身和 HPC

Modal Labs 透過 OCI 協助開發人員應對 AI 運算挑戰 (1:35)
史丹佛大學研究人員採用 Oracle Cloud,尋找治療心臟衰竭的新方法

OCI Supercluster 大規模提供高效能 GPU,以加速心胸研究中使用的大型語言模型 (LLM) 的訓練。

為什麼 GPU 執行個體需要使用 OCI?

擴展性

131,072

OCI Supercluster 中的 GPU 數目上限 1

效能

3,200

高達 3,200 Gb/ 秒的 RDMA 叢集網路頻寬 2

價值

220%

其他 CSP 的 GPU 成本可能高出 220%3

多樣選擇

VM/BM

透過虛擬機器調整規模並透過裸機執行個體調整效能

1: OCI Supercluster 最多可擴展至 131,072 個 NVIDIA B200 GPU (計畫中);NVIDIA GB200 Superchips 中超過 100,000 個 NVIDIA B200 GPU (計畫中);65,536 個 H200 GPU (計畫中);32,768 個 NVIDIA A100 GPU;以及 16,384 個 NVIDIA H100 GPU。

2: 適用於具有 NVIDIA H100 GPU 的裸機執行個體。

3: 根據截至 2024 年 6 月 5 日的按需定價。

GPU 執行個體 - 主要功能

OCI 是唯一提供配備 NVIDIA GPU 的裸機執行個體的主要雲端供應商,以實現高效能且無需虛擬化開銷。對於 AI 訓練期間的檢查點,我們的執行個體為每個節點提供最大的本地儲存 (61.44 TB)。

高效能 NVIDIA GPU 執行個體

NVIDIA Tensor Core GPU

OCI 為由 NVIDIA H100 Tensor Core GPUL40S GPUA100 Tensor Core GPUA10 Tensor Core GPU 及舊版 NVIDIA GPU 提供的裸機和虛擬機器運算執行個體提供最高價值和效能。OCI 計畫提供配備 NVIDIA H200Blackwell GPUs 的執行個體。

NVIDIA 超級晶片

OCI 提供 NVIDIA GH200 Grace Hopper Superchip,並計畫提供用於 LLM 推論的 GB200 Grace Blackwell Superchip。

高效能叢集網路

Oracle 的超低延遲叢集網路是基於遠端直接記憶體存取 (RDMA),可達到微秒級低延遲。

在 VM、裸機執行個體和 Kubernetes 叢集上部署

VM 執行個體

對於虛擬機器,可以選擇 NVIDIA 的 Hopper、Ampere 和舊版 GPU 架構;每個虛擬機器具有一至四個核心、16 至 64 GB GPU 記憶體,以及高達 48 Gb/秒的網路頻寬。

裸機執行個體

使用 OCI Supercluster,搭配使用具有 NVIDIA 的 Blackwell、Hopper 或 Ampere 超級晶片和 GPU、每個節點具有 640 GB GPU 記憶體的裸機執行個體。

Kubernetes 協調流程

利用託管 Kubernetes服務網格容器登錄來協調 AI 和機器學習 (ML) 訓練和容器推論。

存取現成的軟體

存取軟體和磁碟映像

Oracle Cloud Marketplace 為資料科學、分析、人工智慧 (AI) 和機器學習 (ML) 模型提供軟體和磁碟映像,讓客戶能夠快速從資料中取得洞察分析。

NVIDIA AI Enterprise

存取 NVIDIA AI Enterprise,這是一個用於資料科學和生產 AI 的端對端軟體平台,其中包括生成式 AI、電腦視覺和語音 AI。

NVIDIA DGX Cloud

OCI 上的 NVIDIA DGX Cloud 是一個 AI 訓練即服務平台,為開發人員提供針對生成式 AI 進行最佳化的無伺服器體驗。

NVIDIA GPU Cloud Machine Image

使用 NVIDIA GPU Cloud Machine Image 存取數百個 GPU 最佳化的應用程式,以進行涵蓋各種產業和工作負載的機器學習、深度學習和高效能運算。

NVIDIA RTX Virtual Workstation

每當有需要時,員工可在 Oracle Cloud 上執行 NVIDIA RTX Virtual Workstation,以獲得強大的工作站效能。

控制您的 AI 運算環境和資料

分散式雲端

與 GPU 運算結合時, OCI 的分散式雲端可協助企業在需要的地方以所需的方式執行 AI 和雲端服務。

主權雲端

支援某一地區或國家內的資料駐留,包括歐盟美國英國澳洲

OCI Dedicated Region

藉助 OCI Dedicated Region,在您的資料中心部署完整的雲端區域,以完全掌控您的資料和應用程式。

Oracle Alloy

成為 Oracle Alloy 的合作夥伴,提供雲端服務來滿足特定的市場需求。

微服務和容器

容器登錄

開發人員使用容器建置的應用程式,會利用 Oracle 管理的專用容器登錄服務來儲存和共用容器映像。使用 Docker V2 API 和標準 Docker 指令行介面 (CLI),將 Docker 映像推送至登錄或從中提取。映像可直接下載到 Kubernetes 部署位置。

Oracle 函數

函數即服務 (FaaS) 使開發人員能夠執行與 Oracle Cloud Infrastructure、Oracle Cloud Applications 和第三方服務整合的無伺服器應用程式。利用開源 Fn Project 社群來提高開發人員效率。

GPU 執行個體 - 使用案例

用於深度學習訓練和推論的 AI 基礎架構

使用 OCI Data Science、裸機執行個體、以 RDMA 為基礎的叢集網路和 NVIDIA GPU 訓練 AI 模型。


AI 訓練和推論 此圖表描述深度學習模型開發的兩個階段:模型訓練和模型推斷。在左側的模型訓練中,未訓練的神經網路會輸入至由 OCI 資料科學、裸機運算、本機儲存及叢集網路提供的訓練演算法。訓練演算法的輸出為具有新功能的訓練模型。右側描述模型推斷步驟。假設有一個訓練模型 (例如 DALL-E 2),可採用文字輸入並產生影像。文字輸入會饋送至訓練模型,然後從該模型提供影像輸出。

虛擬桌面基礎架構 (VDI)

由 NVIDIA GPU 驅動的 OCI 運算為 VDI 提供一致的高效能。


虛擬桌面基礎架構 虛擬桌面基礎架構

使用 GPU 執行個體進行 CFD 和高效能運算

OCI 啟用電腦輔助工程和運算流體動力學,以快速預測物體的空氣動力特性。


使用 GPU 執行個體進行 CFD 和高效能運算 使用 GPU 執行個體進行 CFD 和高效能運算

GPU 執行個體 — 客戶

探索更多客戶案例
2024 年 9 月 11 日

宣布推出全球首個、最大的 Zettascale 級 AI 超級電腦

OCI 執行副總裁 Mahesh Thiagarajan

客戶一直以來在 Oracle Cloud Infrastructure (OCI) 上執行先進的 AI 工作負載。客戶的成功進一步加強了我們的策略,也就是不僅為客戶提供最高效能的人工智慧基礎架構,還提供強大的安全和主權控制,充分發揮雲端的價值。

閱讀完整文章

開始使用 GPU 執行個體

試用 Oracle AI,立即試用 30 天

Oracle 針對大多數 AI 服務提供免費的定價等級,以及附贈 300 美元點數的免費試用帳戶,這些點數可用於試用額外的雲端服務。AI 服務包括生成式 AI 等一系列產品,以及預先建立的機器學習模型,讓開發人員能夠更輕鬆地將 AI 應用到應用程式和業務營運中。

  • 哪些 Oracle AI and ML 服務提供免費的定價等級?

    • OCI Speech
    • OCI Language
    • OCI 願景
    • OCI 文件理解
    • Oracle Database 中的機器學習功能
    • OCI 資料標籤

    您也只需要支付 OCI 資料科學的運算和儲存空間費用。

瞭解 OCI 可以助您節省多少成本

Oracle Cloud 的定價簡單明瞭,在全球各地保持一致的實惠價格,而且支援廣泛的使用案例。若要預估您的費率,請查看費用預估工具,並依照您的需要設定服務。

聯絡 GPU 和 AI 專家

取得協助,以建置下一個 GPU 解決方案或在 OCI AI 基礎架構上部署 AI 工作負載。

  • 我們的業務代表可以為您解答以下問題:

    • 如何開始使用 Oracle Cloud?
    • OCI 可以執行哪些類型的 AI 工作負載?
    • OCI 提供哪些類型的 AI 服務?