En el esfuerzo por simplificar las tareas repetitivas o automatizarlas por completo, ¿por qué no recurrir a la ayuda de la IA? El uso de un modelo básico para automatizar tareas repetitivas puede sonar atractivo, pero puede poner en riesgo los datos confidenciales. La generación aumentada de recuperación (RAG) es una alternativa al ajuste fino, manteniendo los datos de inferencia aislados del corpus de un modelo.
Queremos mantener nuestros datos de inferencia y nuestro modelo separados, pero también queremos una opción en qué modelo de lenguaje grande (LLM) utilizamos y una potente GPU para la eficiencia. ¡Imagínate si pudieras hacer todo esto con una sola GPU!
En esta demostración, mostraremos cómo implementar una solución RAG utilizando una única GPU NVIDIA A10; un marco de código abierto como LangChain, LlamaIndex, Qdrant o vLLM; y un LLM ligero de 7 mil millones de parámetros de Mistral AI. Es un excelente equilibrio de precio y rendimiento y mantiene los datos de inferencia separados al actualizar los datos según sea necesario.