هل تساءلت يومًا عن كيفية نشر نموذج لغة كبير (LLM) على Oracle Cloud Infrastructure (OCI)؟ في هذا الحل، ستتعلم كيفية نشر LLM باستخدام مثيلات OCI Compute Bare Metal التي تسرعها وحدات معالجة الرسومات NVIDIA مع خادم استدلال يسمى vLLM.
يمكن نشر vLLM كخادم ينفذ بروتوكول واجهة برمجة التطبيقات OpenAI. يسمح ذلك باستخدام vLLM كبديل مباشر للتطبيقات باستخدام OpenAI API، مما يعني أنه يمكننا اختيار نماذج OpenAI (مثل GPT-3.5 أو GPT-4) لإنشاء نص لطلبنا استنادًا إلى أمرين فقط.
يمكن أن تأتي LLMs هذه من أي مستودع Hugging Face جيد التكوين (اختيار المطور)، لذلك سنحتاج إلى المصادقة على Hugging Face لسحب النماذج (إذا لم نبنيها من التعليمات البرمجية المصدر) باستخدام رمز مصادقة.
يمكن أيضًا نشر LLMs باستخدام NVIDIA NIM، وهي مجموعة من الخدمات الصغيرة سهلة الاستخدام المصممة للنشر الآمن والموثوق به لنموذج الذكاء الاصطناعي عالي الأداء الذي يستنتج على مثيلات NVIDIA GPU المسرّعة على OCI.