Nel tentativo di semplificare le attività ripetitive o automatizzarle completamente, perché non avvalersi dell'aiuto dell'AI? L'utilizzo di un modello di base per automatizzare le attività ripetitive può sembrare attraente, ma può mettere a rischio i dati riservati. La generazione Retrieval-augmented (RAG) è un'alternativa alla messa a punto, con dati di inferenza isolati dal corpus di un modello.
Vogliamo mantenere separati i nostri dati di inferenza e il nostro modello, ma vogliamo anche una scelta in quale modello di linguaggio di grandi dimensioni (LLM) usiamo e una potente GPU per l'efficienza. Immagina se potessi fare tutto questo con una sola GPU!
In questa demo, mostreremo come distribuire una soluzione RAG utilizzando una singola GPU NVIDIA A10, un framework open source come LangChain, LlamaIndex, Qdrant o vLLM e un LLM leggero da 7 miliardi di parametri di Mistral AI. Si tratta di un ottimo equilibrio tra prezzo e prestazioni e mantiene separati i dati di inferenza durante l'aggiornamento dei dati in base alle esigenze.