Oracle의 분산형 클라우드는 고객이 원하는 모든 지점에서 생성형 AI, 컴퓨터 비전, 예측 분석을 비롯한 가장 까다로운 AI 워크로드를 더욱 신속히 실행할 수 있도록 지원합니다. Oracle Cloud Infrastructure(OCI) Supercluster를 사용해 현재 최대 32,768개 GPU, 향후 최대 131,072개 GPU까지 확장할 수 있습니다.*
AI 훈련 및 추론 속도를 향상시키는 방법을 살펴보세요
OCI AI 인프라는 추론, 교육, AI 어시스턴트 등 모든 AI 워크로드를 위한 최고의 성능 및 가치를 제공합니다.
최대 500Gb/s초의 지속적인 처리량을 제공하는 고성능 마운트 타깃(HPMT)을 활용해 보세요. NVIDIA H100 GPU가 탑재된 인스턴스에서 업계 최대인 61.44TB의 로컬 스토리지 용량을 사용할 수 있습니다.
Oracle의 분산형 클라우드 서비스는 고객이 원하는 모든 지점에 AI 인프라를 배포하여 성능, 보안, AI 주권 관련 요구 사항을 충족시켜 줍니다.
최대 131,072개의 GPU, 8X의 확장성 향상
OCI Supercluster는 네트워크 패브릭 혁신을 통해 최대 131,072개 NVIDIA B200 GPU, 100,000개 이상의 NVIDIA Grace Blackwell Superchips의 Blackwell GPU, 65,536개 NVIDIA H200 GPU까지 확장할 수 있습니다. NVIDIA A100 및 H100 GPU를 탑재한 OCI Supercluster의 현재 한도 대비 최대 8배의 확장성을 제공합니다.
OCI는 생성형 AI와 관련하여 추론, 미세 조정, 대규모 수평 확장 모델의 학습 등을 수행하고자 하는 고객을 위해 관련 요건에 부합하는 초고대역폭 네트워크 및 고성능 스토리지를 갖춘 업계 최고의 베어메탈 및 가상머신 GPU 클러스터 옵션을 제공합니다.
컴퓨팅
• NVIDIA H100 GPU 8개, 노드당 61.44TB NVMe SSD
• NVIDIA A100 GPU 8개, 노드당 27.2TB NVMe SSD
• NVIDIA L40S GPU 4개, 노드당 7.38TB NVMe SSD
스토리지
• 블록 스토리지: 볼륨당 최대 32TB
• 객체 스토리지: 객체당 최대 10TiB
• 파일 스토리지: 파일 시스템당 최대 8EB
• 고밀도 I/O 구성의 스토리지 클러스터
네트워킹
• RDMA over Converged Ethernet(RoCE v2)
• 수 마이크로초 단위의 노드 간 지연 시간
• OCI Supercluster 노드 간 대역폭:
o NVIDIA H100: 3200Gb/초
o NVIDIA A100: 1600Gb/초
o NVIDIA L40S: 800Gb/초
OCI 고객은 NVIDIA L40S, H100, A100 GPU 기반의 OCI 베어메탈 인스턴스를 통해 딥러닝, 대화형 AI, 생성형 AI와 같은 대규모 AI 모델을 실행할 수 있습니다. OCI Supercluster를 통해 클러스터당 최대 32,768개 A100 GPU, 16,384개 H100 GPU, 3,840개 L40S GPU까지 확장할 수 있습니다.
RDMA over Converged Ethernet version 2를 지원하는 NVIDIA ConnectX 네트워크 인터페이스 카드를 활용한 초고속 RDMA 클러스터 네트워킹을 통해 온프레미스와 동일한 경험을 제공하는 초저지연 네트워킹 및 애플리케이션 확장성을 갖춘 대규모 GPU 인스턴스 클러스터를 생성할 수 있습니다.
RDMA 기능, 블록 스토리지, 네트워크 대역폭에 대한 추가 비용은 발생하지 않으며, 처음 10TB의 이그레스 비용은 무료입니다.
OCI 고객은 OCI Supercluster를 통해 엑사스케일 컴퓨팅을 위한 로컬, 블록, 오브젝트, 파일 스토리지에 액세스할 수 있습니다. OCI는 주요 클라우드 제공업체 중에서도 독보적인 용량의 고성능 로컬 NVMe 스토리지를 제공함으로써 모델 학습 중 체크포인팅을 더 자주 수행하여 보다 신속한 장해 복구를 지원합니다.
BeeGFS, GlusterFS, Lustre, WEKA 등의 HPC 파일 시스템을 사용하여 성능 저하 없는 대규모 AI 학습을 수행할 수 있습니다.
Chief Technical Architect인 Pradeep Vincent가 OCI Supercluster가 머신러닝 모델의 학습 및 추론을 지원하고 수만 개의 NVIDIA GPU를 사용하여 확장하는 방식을 설명합니다.
GPU, RDMA 클러스터 네트워킹, OCI Data Science로 구동되는 OCI 베어메탈 인스턴스에서 AI 모델을 학습시킬 수 있습니다.
매일 수십억 건씩 이루어지는 금융 거래를 보호하기 위해서는 대량의 과거 고객 데이터를 분석할 수 있는 향상된 AI 도구가 필요합니다. NVIDIA GPU 기반의 OCI Compute에서 실행되는 AI 모델과 OCI Data Science 및 기타 오픈 소스 모델 등의 모델 관리 도구는 금융 기관의 사기 감지 및 방지에 도움을 줍니다.
많은 병원이 다양한 유형의 의료 이미지를 분석하기 위해 AI를 사용하고 있습니다(예: 엑스레이 및 MRI). 학습된 AI 모델은 방사선 전문의가 즉각적으로 검토해야 하는 케이스를 우선순위로 설정하고, 그 외의 케이스에 대한 최종 결과 보고에 도움을 줄 수 있습니다.
신약 개발은 여러 해의 시간과 수백만 달러가 소요될 수도 있는, 시간과 비용이 매우 많이 드는 프로세스입니다. 연구자들은 AI 인프라 및 데이터 분석을 활용하여 신약 개발을 가속화할 수 있습니다. 또한 OCI 고객은 NVIDIA GPU 기반의 OCI Compute와 BioNeMo 등의 AI 워크플로 관리 도구를 사용하여 데이터를 큐레이팅하고 전처리할 수 있습니다.
Oracle AI 서비스들의 가격 정책에는 대부분 무료로 이용 가능한 티어가 포함되어 있으며, 추가 클라우드 서비스를 체험할 수 있는 미화 300달러 상당의 무료 크레딧이 함께 제공됩니다. Oracle은 생성형 AI가 포함된 다양한 AI 서비스 모음을 제공합니다. 개발자들은 Oracle의 사전 구축된 머신러닝 모델을 활용하여 애플리케이션 및 비즈니스 운영에 AI를 손쉽게 적용할 수 있습니다.
또한 OCI Data Science를 사용하면서 발생한 컴퓨트 및 스토리지 비용만이 청구됩니다.
RDMA 클러스터 네트워킹, GPU 인스턴스, 베어메탈 서버 등과 관련된 정보를 더 자세히 살펴보세요.
Oracle Cloud는 저렴한 가격을 전 세계적으로 동일하게 적용하며, 간편하고 다양한 사용 사례를 지원합니다. 예상 요금 절감액을 확인하려면, 비용 계산기를 사용하여 필요에 맞게 서비스를 구성해보세요.
Oracle 전문가들이 AI 솔루션 구축, OCI AI 인프라에 워크로드 배포하기와 같은 다양한 AI 관련 주제에 대한 상담을 제공합니다.