ما هو بالتعلم بالتعزيز؟

مايكل تشن | خبير استراتيجيات المحتوى | 3 أبريل 2024

يُعد التعلم بالتعزيز شكل من أشكال التعلم الآلي (ML) الذي يتيح لنماذج الذكاء الاصطناعي تحسين عملية صنع القرار الخاصة بها استنادًا إلى ردود فعل إيجابية ومُحايدة وسلبية تساعدهم على تحديد إذا كان يتم تكرار إجراء في ظروف مماثلة. يحدث التعلم بالتعزيز في بيئة استكشافية، إذ يسعى المطورون إلى تحقيق هدف محدد، مما يجعله مُختلفًا عن التعلم الاستقرائي والاستنتاجي.

خلال التعلم بالتعزيز، تعمل الخوارزمية مع مجموعة بيانات غير مُسماة تركز على نتيجة محددة. تنشئ كل خطوة يتم اتخاذها بواسطة الخوارزمية لاستكشاف مجموعة البيانات ملاحظات، إما إيجابية أو سلبية أو مُحايدة. تُعد تلك الملاحظات جزء "التعزيز" من عملية التعلم—كلما تتراكم، كما تدعم قرار إما المضي قدمًا مع مسار إيجابي أو تجنب مسار سلبي. في نهاية المطاف، يمكن للنموذج تحديد أفضل استراتيجية لتحقيق نتيجة. نظرًا إلى أن الخوارزمية تمثل الهدف الأساس للصورة الأكبر، فقد يتضمن هذا المسار عملية تأخر المتعة، مما يؤدي إلى تراكم عواقب سلبية أصغر من أجل تحقيق النتيجة المرجوة.

إذا كان هذا يبدو مألوفًا، فذلك لأن التعلم بالتعزيز يحاكي عملية التعلم الطبيعية. يعلم الثناء والمكافآت جنبًا إلى جنب مع العواقب السلبية بحدود العقول النامية، وتعزيز المبادئ التوجيهية للتفاعل مع والنجاح في العالم، سواء ذلك ينطوي على مطاردة حيوان صغير غذاءه أو تعلم طفل صغير التعرُّف على الرموز. لأن التعلم بالتعزيز يعمل مثل التعلم في العالم الحقيقي، فمن المفيد لسيناريوهات مُعقدة ومفتوحة في ظل استراتيجية طويلة الأجل قد تكون أهم من نتيجة فورية.

في البيئات المليئة بالقواعد والقيود والعلاقات المتصلة أو الديناميكية، يُدخل التعلم بالتعزيز الفروق الدقيقة لنمذجة عملية صنع القرار من خلال تعزيز فهم عواقب الإجراءات. على المستوى الفني، يوفر التعلم بالتعزيز مرونة أكبر بكثير من التعلم الاستقرائي لأنه لا يعتمد على مجموعات البيانات المُسماة. بدلاً من ذلك، تتعلم النماذج من خلال التجربة، مما ينشئ قابلية للتكيف تؤدي إلى مجموعة أوسع من الحلول عبر مجموعة كاملة من النجاح. يمكن للنماذج التكيف مع الظروف.

ما هو بالتعلم بالتعزيز؟

يُعد التعلم بالتعزيز المكان الذي تحسِّن فيه النماذج عملية صنع القرار على أساس التعزيز الإيجابي والمحايد والسلبي. إنه خيار فعَّال لتدريب نماذج التعلم الآلي في العديد من الظروف. إن التعلم بالتعزيز مناسب بشكل خاص عندما يكون الهدف هو فهم الاستراتيجيات الكامنة وراء النتائج الناجحة بدلاً من إنتاج أشجار قرارات أوضوح.

على سبيل المثال، إذا نجح نموذج الذكاء الاصطناعي في إكمال مستوى في لعبة، فقد تتم مكافأته بنقاط مكافأة أو تقدم في المستوى. من ناحية أخرى، يشير التعزيز المُحايد إلى الحالات التي لا يتم فيها منح أي مكافآت أو عقوبات ويتم استخدامه عادةً عندما لا يكون لإجراءات النموذج تأثير كبير على الهدف أو الهدف العام. ينطوي التعزيز السلبي على عقوبات عندما يقوم النموذج بإجراءات غير مرغوب فيها أو يفشل في تحقيق النتيجة المرجوة. على سبيل المثال، إذا أجرى الذكاء الاصطناعي حركة غير مسموح بها أو غير ناجحة في لعبة ما، فقد يتم معاقبته بخصم في النقاط أو عن طريق نزوله في المستوى.

حالات الاستخدام المثالية للتعلم بالتعزيز تشمل ما يلي:

  • الألعاب: تم بناء أول نموذج خصم شطرنج الكمبيوتر على سلسلة من قواعد إذا / ثم. باستخدام التعلم بالتعزيز، يتلقى النموذج كمية أوسع وأكثر طبيعية من المواقف والخيارات والنتائج، مما ينشئ عملية صنع قرار مُعقدة تؤدي إلى خِصم وحدة المعالجة المركزية (CPU) أكثر تطورًا.
  • الذكاء الاصطناعي التوليدي: يمكن أن يكون التعلم بالتعزيز جزءًا من أساس التعلم الآلي لنموذج الذكاء الاصطناعي التوليدي. سواء ينشئ النموذج صورًا أو نصًا أو صوتًا، فإن التعلم بالتعزيز يتيح نهجًا التجربة والخطأ لتحديد دقة الموجهات والمخرجات وصقلها.
  • التسويق: تُعد كل مشاركة تسويقية فُرصة للتعلم بالتعزيز. سواء قام العملاء بفتح الصفحات والنقر عليها والبقاء بها—أو لا—يوفر تعزيزًا إيجابيًا وسلبًا على حد سواء، مما يغذي النموذج لإنشاء ملف تعريف عميل أدق.
  • محركات التوصية: يحصل نموذج التوصية على تعزيز إيجابي من خلال المشاركة المستلمة لكل اقتراح. يؤدي هذا إلى أنماط تتراكم إلى نموذج أدق لملفات تعريف العملاء.
  • السيارات ذاتية القيادة: من خلال التعلم في البيئات الخاضعة إلى الرقابة والمحاكاة، يمكن لنماذج السيارات ذاتية القيادة اكتساب عمق الفهم للظروف المُعقدة حسب الظروف. نظرًا إلى أن القيادة ينشئ الكثير من القرارات اللحظية مع عوامل مثل التقارب والسرعة والطقس والمخاطر، فإن التعلم بالتعزيز يسمح بمجموعة من الاستجابات لتحسين عملية صنع القرار في النماذج.

في كل هذه الحالات، تكون المراحل الأولية من التدريب أقرب إلى طفل يبدأ في فهم العالم. بحلول الوقت الذي يصل فيه النموذج إلى مرحلة الإنتاج، يمكن اعتباره بأنه صار ناضجًا أو بالغًا، وقادرًا على اتخاذ قرارات دقيقة بشكل عام مع التعلم المستمر لتحسين هذا المستوى من الدقة—ومع الظروف والموارد المناسبة، حتى تحقيق إتقان الموضوع، سواء يلعب ذلك لعبة مثل الشطرنج أو تقديم توصيات تهم العميل دائمًا.

يمكن للذكاء الاصطناعي مساعدة مديري المعلومات التنفيذيين على تحليل البيانات لتحسين الإنفاق على السحابة واقتراح تعديلات على التعليمات البرمجية لتصميمها لتقليل الخروج. وتعرف على كيفية تسخير قوة الذكاء الاصطناعي الآن لمواجهة المواهب والأمان والتحديات الأخرى.

الأسئلة الشائعة حول التعلم بالتعزيز

هل يعد التعلم بالتعزيز من تعلم آلي أو ذكاء اصطناعي؟

يمثل التعلم بالتعزيز تقنية تعلم آلي يمكن استخدامها لتدريب الأنظمة على اتخاذ القرارات على أساس تلقي ردود فعل إيجابية ومحايدة وسلبية. يمكن أن يكون نموذج التعلم الآلي الذي يستخدم التعلم بالتعزيز جزءًا من نموذج ذكاء اصطناعي أكبر مصمم لمحاكاة ردود الفعل البشرية على ظرف أو موقف معين.

ما هي الأنواع الثلاثة الرئيسة للتعلم بالتعزيز؟

فيما يلي الأنواع الرئيسة الثلاثة للتعلم بالتعزيز:

  • قائم على النموذج: يتم إنشاء بيئة للنموذج لاستكشافها بحرية أثناء تحديد معلماته من أجل صياغة أفضل مسار للنجاح.
  • قائم على السياسة: يتم فحص العلاقات بين الاستراتيجيات (السياسات) المحتملة والإجراءات (القيم) والنتائج قبل أن يحدد النموذج السياسة التي تحقق أعلى مستوى من النجاح.
  • قائم على القيمة: يتم فحص البيئة الحالية فيما يتعلق بإجراءات (قيم) مُحددة قبل أن يحدد النموذج القيمة التي تحقق أعلى مستوى من النجاح.

ما الفَرق بين التعلم الاستقرائي والتعلم بالتعزيز؟

يستخدم التعلم الاستقرائي مجموعات البيانات المُسماة لتدريب النماذج حتى تتمكن من تحقيق النتائج المتوقعة بدقة. يستخدم التعلم بالتعزيز نهج أكثر استكشافية، وتوفير بيئة مفتوحة للنموذج لاستكشاف استراتيجيات وخيارات مُختلفة حتى يتم تحقيق النتيجة المرجوة.