AI 인프라

Oracle의 분산형 클라우드는 고객이 원하는 모든 지점에서 생성형 AI, 컴퓨터 비전, 예측 분석을 비롯한 가장 까다로운 AI 워크로드를 더욱 신속히 실행할 수 있도록 지원합니다. Oracle Cloud Infrastructure(OCI) Supercluster를 사용해 현재 최대 32,768개 GPU, 향후 최대 131,072개 GPU까지 확장할 수 있습니다.*

OCI Supercluster: 대규모 생성형 AI를 지원하는 인프라(0:55)

AI 훈련 및 추론 속도를 향상시키는 방법을 살펴보세요

OCI AI 인프라를 선택하는 이유

탁월한 성능 및 가치

OCI AI 인프라는 추론, 교육, AI 어시스턴트 등 모든 AI 워크로드를 위한 최고의 성능 및 가치를 제공합니다.

HPC 스토리지

최대 500Gb/s초의 지속적인 처리량을 제공하는 고성능 마운트 타깃(HPMT)을 활용해 보세요. NVIDIA H100 GPU가 탑재된 인스턴스에서 업계 최대인 61.44TB의 로컬 스토리지 용량을 사용할 수 있습니다.

소버린 AI 지원

Oracle의 분산형 클라우드 서비스는 고객이 원하는 모든 지점에 AI 인프라를 배포하여 성능, 보안, AI 주권 관련 요구 사항을 충족시켜 줍니다.

OCI Supercluster 확장성 이미지, 아래 설명 이 이미지는 클러스터 네트워킹 선을 따라 연결되는 컴퓨트 및 스토리지를 나타내는 상자를 보여주고 있습니다. 맨 왼쪽에는 16,000개 NVIDIA H100 GPU가 탑재된 가장 작은 클러스터의 컴퓨팅 상자 4개와 스토리지 상자 2개가 표시되어 있습니다. 그 오른쪽에는 32,000개 NVIDIA A100 GPU가 탑재된 클러스터의 컴퓨팅 상자 8개와 스토리지 상자 4개가 표시되어 있습니다. 다음으로는 64,000개 NVIDIA H200 GPU 클러스터의 컴퓨팅 상자 16개와 스토리지 박스 8개가 표시되어 있습니다. 마지막으로 가장 오른쪽에는 128,000개 NVIDIA Blackwell 및 Grace Blackwell GPU 클러스터의 컴퓨팅 상자 32개와 스토리지 상자 16개가 표시되어 있습니다. 이는 가장 왼쪽의 가장 작은 16,000개 GPU 구성에서 가장 오른쪽의 가장 큰 128,000개 GPU 구성을 비교해 보았을 때 OCI Supercluster의 확장성이 최대 8배 증가됨을 나타냅니다.

NVIDIA Blackwell 및 Hopper GPU가 탑재된 OCI Supercluster

최대 131,072개의 GPU, 8X의 확장성 향상
OCI Supercluster는 네트워크 패브릭 혁신을 통해 최대 131,072개 NVIDIA B200 GPU, 100,000개 이상의 NVIDIA Grace Blackwell Superchips의 Blackwell GPU, 65,536개 NVIDIA H200 GPU까지 확장할 수 있습니다. NVIDIA A100 및 H100 GPU를 탑재한 OCI Supercluster의 현재 한도 대비 최대 8배의 확장성을 제공합니다.

고객의 모든 요구 사항을 충족하는 OCI AI 인프라

OCI는 생성형 AI와 관련하여 추론, 미세 조정, 대규모 수평 확장 모델의 학습 등을 수행하고자 하는 고객을 위해 관련 요건에 부합하는 초고대역폭 네트워크 및 고성능 스토리지를 갖춘 업계 최고의 베어메탈 및 가상머신 GPU 클러스터 옵션을 제공합니다.

AI 인프라 제품 다이어그램, 아래 설명
또한 OCI는 전 세대 NVIDIA P100 및 V100 GPU도 제공합니다.
이 이미지는 왼쪽 하단의 가장 소규모 구성으로 시작하여 중간 규모 및 대규모 구성으로 점진적으로 증가하는 여러 AI 인프라 제품을 보여줍니다. 가장 작은 구성은 GPU 1개가 탑재된 가상 머신이고, 가장 큰 구성은 GPU 100,000개 이상이 탑재된 RDMA 클러스터입니다.

AI 혁신기업들은 차세대 AI 모델의 호스팅, 학습, 추론에 OCI를 활용하고 있습니다.

대규모 AI 학습용 OCI Supercluster 살펴보기

지금 사용 가능: NVIDIA H100, A100, L40S GPU를 탑재한 대규모 확장형 클러스터


컴퓨팅
• NVIDIA H100 GPU 8개, 노드당 61.44TB NVMe SSD
• NVIDIA A100 GPU 8개, 노드당 27.2TB NVMe SSD
• NVIDIA L40S GPU 4개, 노드당 7.38TB NVMe SSD

스토리지
• 블록 스토리지: 볼륨당 최대 32TB
• 객체 스토리지: 객체당 최대 10TiB
• 파일 스토리지: 파일 시스템당 최대 8EB
• 고밀도 I/O 구성의 스토리지 클러스터

네트워킹
• RDMA over Converged Ethernet(RoCE v2)
• 수 마이크로초 단위의 노드 간 지연 시간
• OCI Supercluster 노드 간 대역폭:
o NVIDIA H100: 3200Gb/초
o NVIDIA A100: 1600Gb/초
o NVIDIA L40S: 800Gb/초

Supercluster 컴퓨트

OCI 고객은 NVIDIA L40S, H100, A100 GPU 기반의 OCI 베어메탈 인스턴스를 통해 딥러닝, 대화형 AI, 생성형 AI와 같은 대규모 AI 모델을 실행할 수 있습니다. OCI Supercluster를 통해 클러스터당 최대 32,768개 A100 GPU, 16,384개 H100 GPU, 3,840개 L40S GPU까지 확장할 수 있습니다.

Supercluster 컴퓨터 이미지
크게 보기+
이 다이어그램은 NVIDIA A100 GPU와 2마이크로초 미만의 지연 시간을 제공하는 네트워킹을 활용하여 구동되는 GPU 클러스터 노드를 보여줍니다.

Supercluster 네트워킹

RDMA over Converged Ethernet version 2를 지원하는 NVIDIA ConnectX 네트워크 인터페이스 카드를 활용한 초고속 RDMA 클러스터 네트워킹을 통해 온프레미스와 동일한 경험을 제공하는 초저지연 네트워킹 및 애플리케이션 확장성을 갖춘 대규모 GPU 인스턴스 클러스터를 생성할 수 있습니다.

RDMA 기능, 블록 스토리지, 네트워크 대역폭에 대한 추가 비용은 발생하지 않으며, 처음 10TB의 이그레스 비용은 무료입니다.

Supercluster 네트워킹
크게 보기+
이 다이어그램은 총 1.6Tb/초의 인터노드 대역폭으로 전이중 네트워크 패브릭을 통해 연결된, 노드당 8개의 NVIDIA A100 GPU가 탑재된 슈퍼클러스터 RDMA 네트워크를 보여줍니다.

OCI Supercluster용 스토리지

OCI 고객은 OCI Supercluster를 통해 엑사스케일 컴퓨팅을 위한 로컬, 블록, 오브젝트, 파일 스토리지에 액세스할 수 있습니다. OCI는 주요 클라우드 제공업체 중에서도 독보적인 용량의 고성능 로컬 NVMe 스토리지를 제공함으로써 모델 학습 중 체크포인팅을 더 자주 수행하여 보다 신속한 장해 복구를 지원합니다.

BeeGFS, GlusterFS, Lustre, WEKA 등의 HPC 파일 시스템을 사용하여 성능 저하 없는 대규모 AI 학습을 수행할 수 있습니다.

OCI Supercluster의 작동 방식

Chief Technical Architect인 Pradeep Vincent가 OCI Supercluster가 머신러닝 모델의 학습 및 추론을 지원하고 수만 개의 NVIDIA GPU를 사용하여 확장하는 방식을 설명합니다.

일반적 AI 인프라 사용 사례

GPU, RDMA 클러스터 네트워킹, OCI Data Science로 구동되는 OCI 베어메탈 인스턴스에서 AI 모델을 학습시킬 수 있습니다.


딥러닝 학습 및 추론 다이어그램, 하단 설명
GPU, RDMA 클러스터 네트워킹, OCI Data Science로 구동되는 OCI 베어메탈 인스턴스에서 AI 모델을 학습시킬 수 있습니다.

매일 수십억 건씩 이루어지는 금융 거래를 보호하기 위해서는 대량의 과거 고객 데이터를 분석할 수 있는 향상된 AI 도구가 필요합니다. NVIDIA GPU 기반의 OCI Compute에서 실행되는 AI 모델과 OCI Data Science 및 기타 오픈 소스 모델 등의 모델 관리 도구는 금융 기관의 사기 감지 및 방지에 도움을 줍니다.


AI로 강화된 사기 감지 다이어그램, 하단 설명
NVIDIA GPU 기반의 OCI Compute에서 실행되는 AI 모델과 OCI Data Science 및 기타 오픈 소스 모델 등의 모델 관리 도구는 금융 기관의 사기 감지 및 방지에 도움을 줍니다.

많은 병원이 다양한 유형의 의료 이미지를 분석하기 위해 AI를 사용하고 있습니다(예: 엑스레이 및 MRI). 학습된 AI 모델은 방사선 전문의가 즉각적으로 검토해야 하는 케이스를 우선순위로 설정하고, 그 외의 케이스에 대한 최종 결과 보고에 도움을 줄 수 있습니다.


AI 기반 의료 이미지 분석 다이어그램, 하단 설명
강력한 GPU가 탑재된 OCI Compute에서 실행되는 학습된 AI 모델은 의료 이미지를 분석하여 즉각적인 결론을 이끌어내거나, 추가적인 검토가 필요한 이미지에 우선순위를 설정하는 데 도움을 줄 수 있습니다.

신약 개발은 여러 해의 시간과 수백만 달러가 소요될 수도 있는, 시간과 비용이 매우 많이 드는 프로세스입니다. 연구자들은 AI 인프라 및 데이터 분석을 활용하여 신약 개발을 가속화할 수 있습니다. 또한 OCI 고객은 NVIDIA GPU 기반의 OCI Compute와 BioNeMo 등의 AI 워크플로 관리 도구를 사용하여 데이터를 큐레이팅하고 전처리할 수 있습니다.


AI를 사용한 신약 개발 가속화, 하단 설명
연구자들은 AI 인프라 및 데이터 분석을 활용하여 신약 개발을 가속화하고, 관련 데이터를 큐레이션 및 전처리할 수 있습니다.

OCI AI 인프라 시작하기

Oracle AI 30일 무료 체험하기

Oracle AI 서비스들의 가격 정책에는 대부분 무료로 이용 가능한 티어가 포함되어 있으며, 추가 클라우드 서비스를 체험할 수 있는 미화 300달러 상당의 무료 크레딧이 함께 제공됩니다. Oracle은 생성형 AI가 포함된 다양한 AI 서비스 모음을 제공합니다. 개발자들은 Oracle의 사전 구축된 머신러닝 모델을 활용하여 애플리케이션 및 비즈니스 운영에 AI를 손쉽게 적용할 수 있습니다.

  • 무료 서비스 항목이 포함된 Oracle AI 및 ML 서비스

    • OCI Speech
    • OCI Language
    • OCI Vision
    • OCI Document Understanding
    • Oracle Database에 포함된 Machine Learning
    • OCI Data Labeling

    또한 OCI Data Science를 사용하면서 발생한 컴퓨트 및 스토리지 비용만이 청구됩니다.

추가 리소스

RDMA 클러스터 네트워킹, GPU 인스턴스, 베어메탈 서버 등과 관련된 정보를 더 자세히 살펴보세요.

OCI를 통해 얻을 수 있는 절감 효과 확인하기

Oracle Cloud는 저렴한 가격을 전 세계적으로 동일하게 적용하며, 간편하고 다양한 사용 사례를 지원합니다. 예상 요금 절감액을 확인하려면, 비용 계산기를 사용하여 필요에 맞게 서비스를 구성해보세요.

AI 전문가와 상담하기

Oracle 전문가들이 AI 솔루션 구축, OCI AI 인프라에 워크로드 배포하기와 같은 다양한 AI 관련 주제에 대한 상담을 제공합니다.

  • 다음과 같은 문의사항들에 답해드립니다.

    • Oracle Cloud를 시작하려면 어떻게 해야 하나요?
    • OCI에서는 어떤 종류의 AI 워크로드를 실행할 수 있나요?
    • OCI는 어떤 유형의 AI 서비스를 제공하나요?