No esforço de simplificar tarefas repetitivas ou automatizá-las completamente, por que não contar com a ajuda da IA? Usar um modelo básico para automatizar tarefas repetitivas pode parecer atraente, mas pode colocar dados confidenciais em risco. A geração aumentada por recuperação (RAG) é uma alternativa ao ajuste fino, mantendo os dados de inferência isolados do corpus de um modelo.
Queremos manter nossos dados de inferência e modelo separados, mas também queremos uma escolha em qual modelo de linguagem grande (LLM) usamos e uma GPU poderosa para eficiência. Imagine se você pudesse fazer tudo isso com apenas uma GPU!
Nesta demonstração, mostraremos como implantar uma solução RAG usando uma única GPU NVIDIA A10; uma estrutura de código aberto, como LangChain, LlamaIndex, Qdrant ou vLLM; e um LLM leve de 7 bilhões de parâmetros da Mistral AI. É um excelente equilíbrio de preço e desempenho e mantém os dados de inferência separados enquanto atualiza os dados conforme necessário.