يمكن لعلماء البيانات الوصول إلى أي مصدر بيانات واستخدامه في أي سحابة أو في أماكن العمل. يوفر ذلك ميزات بيانات محتملة أكثر تؤدي إلى نماذج أفضل.
تعد تسمية بيانات Oracle Cloud Infrastructure (OCI) خدمة لبناء مجموعات بيانات مسماة لتدريب نماذج الذكاء الاصطناعي والتعلم الآلي بشكل أدق. باستخدام تسمية بيانات OCI، يقوم المطورون وعلماء البيانات بتجميع البيانات، وتكوين مجموعات البيانات واستعراضها، وتطبيق التسميات على سجلات البيانات.
إرسال استعلامات Spark التفاعلية إلى مجموعة Spark لتدفق بيانات OCI. أو استخدم Oracle Accelerated Data Science SDK لتطوير تطبيق Spark بسهولة وتشغيله على نطاق واسع في تدفق بيانات OCI، كل ذلك من بيئة علوم البيانات.
حدد مسارات هندسية للميزات وقم بإنشاء ميزات باستخدام التنفيذ المدار بالكامل. إصدار وتوثيق كل من الميزات ومسارات الميزات. مشاركة الوصول إلى الميزات وإدارتها والتحكم فيها. استهلك الميزات لكل من سيناريوهات الاستدلال في الوقت الفعلي والدفعات.
تُمكِّن بيئات الحواسيب المحمولة من JupyterLab المدمجة والمستضافة على السحابة فِرق علم البيانات من إنشاء النماذج وتدريبها باستخدام واجهة مستخدم مألوفة.
توفر OCI Data Science المعرفة وتعدد الاستخدامات لعلماء البيانات، مع مئات الأدوات وأطر العمل مفتوحة المصدر الشائعة، مثل TensorFlow أو PyTorch، أو إضافة أطر عمل قابلة للاختيار. تتيح الشراكة الاستراتيجية بين OCI وAnaconda لمستخدمي OCI تنزيل الحزم وتثبيتها مباشرة من مستودع Anaconda دون تكلفة—لتكون مصدرًا مفتوحًا آمنًا يمكن الوصول إليه أكثر من أي وقت مضى.
تمثل Oracle Accelerated Data Science SDK مجموعة أدوات Python سهلة الاستخدام تدعم عالم البيانات من خلال سير العمل الكامل لعلوم البيانات.
باستخدام وحدات معالجة الرسومات NVIDIA، يمكن لعلماء البيانات إنشاء نماذج تعلم عميقة وتدريبها في وقت أقل. يمكن أن تكون سرعات الأداء أسرع بمقدار 5 إلى 10 مرات.
استخدام الوظائف لتشغيل مهام علوم البيانات القابلة للتكرار في وضع الدفعات. زيادة نطاق تدريبك النموذجي بدعم وحدات معالجة الرسومات NVIDIA بدون أنظمة تشغيل والتدريب الموزع.
تكوين البيانات الاصطناعية لوظيفة علوم البيانات وتحريرها وتشغيلها بسهولة من وحدة تحكم OCI باستخدام محرر التعليمات البرمجية. يأتي مع تكامل Git والتشغيل التلقائي والتخصيص والمزيد.
يستخدم علماء البيانات كتالوج النماذج للحفاظ على نماذج التعلم الآلي المكتملة ومشاركتها. يخزن الكتالوج البيانات الاصطناعية ويسجل بيانات التعريف حول التصنيف وسياق النموذج والمعلمات التشعبية وتعريفات مخططات بيانات مدخلات النموذج والمخرجات ومعلومات المنشأ التفصيلية المتعلقة بأصل النموذج، بما في ذلك التعليمات البرمجية المصدر وبيئة التدريب.
إنشاء تلقائي لمجموعة شاملة من المقاييس والتمثيلات المرئية لقياس أداء النماذج مقارنة بالبيانات الجديدة ومقارنة مرشحي النماذج.
استفد من بيئات conda المنسقة والمنشأة مسبقًا لمعالجة مجموعة متنوعة من حالات الاستخدام، مثل معالجة اللغة الطبيعية (NLP) ورؤية الكمبيوتر والتنبؤ وتحليلات الرسوم البيانية وSpark. نشر بيئات مخصصة ومشاركتها مع الزملاء، مع ضمان قابلية إعادة إنتاج بيئات التدريب والاستدلال.
يمكن لعلماء البيانات الاتصال بمستودع Git في مؤسستهم للحفاظ على عمل التعلم الآلي واسترداده.
نشر نماذج التعلم الآلي كنقاط نهاية HTTP لتقديم تنبؤات بالنماذج على البيانات الجديدة في الوقت الفعلي. ما عليك سوى النقر للنشر من كتالوج النماذج، بينما تتعامل OCI Data Science مع جميع عمليات البنية الأساسية، بما في ذلك إعداد الحوسبة وموازنة الأحمال.
قم بتشغيل عمليات سير عمل تطوير النماذج والتدريب والنشر وأتمتتها باستخدام خدمة مدارة بالكامل لكتابة مسارات التعلم الآلي وتصحيح أخطائها وتتبعها وإدارتها وتنفيذها.
المراقبة المستمرة للنماذج في الإنتاج لانحراف البيانات والمفاهيم. تمكين علماء البيانات ومهندسي موثوقية الموقع ومهندسي DevOps من تلقي التنبيهات وتقييم سريع لاحتياجات إعادة تدريب النموذج.
تم تصميم تطبيقات التعلّم الآلي في الأصل لتطبيقات SaaS الخاصة بـ Oracle لتضمين ميزات الذكاء الاصطناعي، وتُتاح الآن لأتمتة دورة حياة MLOps بأكملها، بما في ذلك التطوير والإمداد والصيانة المستمرة وإدارة الأسطول، لمورّدي البرامج المستقلين (ISV) الذين لديهم مئات النماذج لكل الآلاف العملاء لديهم.
استخدم نماذج اللغات الكبيرة من Mistral وMeta وغيرها من دون كتابة سطر واحد من التعليمات البرمجية عبر واجهة مستخدم سلسة في دفاتر ملاحظات علم بيانات OCI.
استورد أي نموذج لغة كبير من تخزين كائنات OCI، ثم اضبط وانشر عبر واجهة مستخدم سهلة الاستخدام.
انشر نماذج اللغة الكبيرة ببضع نقرات، مدعومة بواسطة خوادم استدلال شائعة مثل نموذج اللغة الكبير الظاهري (من UC Berkeley) أو استدلال إنشاء النص (من Hugging Face) أو TensorRT-LLM (من NVIDIA) للحصول على الأداء الأمثل.
لتحقيق الأداء الأمثل، استفد من التدريب الموزع باستخدام PyTorch أو Hugging Face Accelerate أو DeepSpeed من أجل الضبط الدقيق لنماذج اللغة الكبيرة. ومكِّن تخزين الأوزان المضبوطة بدقة مع تخزين الكائنات. بالإضافة إلى ذلك، تلغي Condas الموفرة للخدمة متطلبات بيئات Docker المخصصة وتتيح المشاركة وتقليل التباطؤ.
قم بإعداد تقارير تقييم تفصيلية لنموذج اللغة الكبير الخاص بك على أساس BERTScore أو الدراسة البديلة الموجهة لتقييم المضمون (ROUGE)، لمساعدتك على فهم كيفية مقارنة أداء النموذج بالنماذج الأخرى.