I modelli LLM (Large Language Model) hanno fatto passi da gigante nella generazione del testo, nella risoluzione dei problemi e nel seguire le istruzioni. Mentre le aziende utilizzano i LLM per sviluppare soluzioni all'avanguardia, la necessità di piattaforme di distribuzione scalabili, sicure ed efficienti diventa sempre più importante. Kubernetes è diventata l'opzione preferita per la sua scalabilità, flessibilità, portabilità e resilienza.
In questa demo, dimostriamo come implementare container per inferenze LLM ottimizzati su Oracle Cloud Infrastructure Container Engine for Kubernetes (OKE), un servizio Kubernetes gestito che semplifica le implementazioni e le operazioni su larga scala per le aziende. Il servizio consente loro di conservare il modello e i data set personalizzati all'interno della propria tenancy senza fare affidamento su un'API di inferenza di terze parti.
Useremo Text Generation Inference (TGI) come framework di inferenza per esporre i LLM.
Questa pagina è stata tradotta da una macchina.