مايكل تشن | خبير استراتيجيات المحتوى | 3 أبريل 2024
يُعد التعلم بالتعزيز شكل من أشكال التعلم الآلي (ML) الذي يتيح لنماذج الذكاء الاصطناعي تحسين عملية صنع القرار الخاصة بها استنادًا إلى ردود فعل إيجابية ومُحايدة وسلبية تساعدهم على تحديد إذا كان يتم تكرار إجراء في ظروف مماثلة. يحدث التعلم بالتعزيز في بيئة استكشافية، إذ يسعى المطورون إلى تحقيق هدف محدد، مما يجعله مُختلفًا عن التعلم الاستقرائي والاستنتاجي.
خلال التعلم بالتعزيز، تعمل الخوارزمية مع مجموعة بيانات غير مُسماة تركز على نتيجة محددة. تنشئ كل خطوة يتم اتخاذها بواسطة الخوارزمية لاستكشاف مجموعة البيانات ملاحظات، إما إيجابية أو سلبية أو مُحايدة. تُعد تلك الملاحظات جزء "التعزيز" من عملية التعلم—كلما تتراكم، كما تدعم قرار إما المضي قدمًا مع مسار إيجابي أو تجنب مسار سلبي. في نهاية المطاف، يمكن للنموذج تحديد أفضل استراتيجية لتحقيق نتيجة. نظرًا إلى أن الخوارزمية تمثل الهدف الأساس للصورة الأكبر، فقد يتضمن هذا المسار عملية تأخر المتعة، مما يؤدي إلى تراكم عواقب سلبية أصغر من أجل تحقيق النتيجة المرجوة.
إذا كان هذا يبدو مألوفًا، فذلك لأن التعلم بالتعزيز يحاكي عملية التعلم الطبيعية. يعلم الثناء والمكافآت جنبًا إلى جنب مع العواقب السلبية بحدود العقول النامية، وتعزيز المبادئ التوجيهية للتفاعل مع والنجاح في العالم، سواء ذلك ينطوي على مطاردة حيوان صغير غذاءه أو تعلم طفل صغير التعرُّف على الرموز. لأن التعلم بالتعزيز يعمل مثل التعلم في العالم الحقيقي، فمن المفيد لسيناريوهات مُعقدة ومفتوحة في ظل استراتيجية طويلة الأجل قد تكون أهم من نتيجة فورية.
في البيئات المليئة بالقواعد والقيود والعلاقات المتصلة أو الديناميكية، يُدخل التعلم بالتعزيز الفروق الدقيقة لنمذجة عملية صنع القرار من خلال تعزيز فهم عواقب الإجراءات. على المستوى الفني، يوفر التعلم بالتعزيز مرونة أكبر بكثير من التعلم الاستقرائي لأنه لا يعتمد على مجموعات البيانات المُسماة. بدلاً من ذلك، تتعلم النماذج من خلال التجربة، مما ينشئ قابلية للتكيف تؤدي إلى مجموعة أوسع من الحلول عبر مجموعة كاملة من النجاح. يمكن للنماذج التكيف مع الظروف.
يُعد التعلم بالتعزيز المكان الذي تحسِّن فيه النماذج عملية صنع القرار على أساس التعزيز الإيجابي والمحايد والسلبي. إنه خيار فعَّال لتدريب نماذج التعلم الآلي في العديد من الظروف. إن التعلم بالتعزيز مناسب بشكل خاص عندما يكون الهدف هو فهم الاستراتيجيات الكامنة وراء النتائج الناجحة بدلاً من إنتاج أشجار قرارات أوضوح.
على سبيل المثال، إذا نجح نموذج الذكاء الاصطناعي في إكمال مستوى في لعبة، فقد تتم مكافأته بنقاط مكافأة أو تقدم في المستوى. من ناحية أخرى، يشير التعزيز المُحايد إلى الحالات التي لا يتم فيها منح أي مكافآت أو عقوبات ويتم استخدامه عادةً عندما لا يكون لإجراءات النموذج تأثير كبير على الهدف أو الهدف العام. ينطوي التعزيز السلبي على عقوبات عندما يقوم النموذج بإجراءات غير مرغوب فيها أو يفشل في تحقيق النتيجة المرجوة. على سبيل المثال، إذا أجرى الذكاء الاصطناعي حركة غير مسموح بها أو غير ناجحة في لعبة ما، فقد يتم معاقبته بخصم في النقاط أو عن طريق نزوله في المستوى.
حالات الاستخدام المثالية للتعلم بالتعزيز تشمل ما يلي:
في كل هذه الحالات، تكون المراحل الأولية من التدريب أقرب إلى طفل يبدأ في فهم العالم. بحلول الوقت الذي يصل فيه النموذج إلى مرحلة الإنتاج، يمكن اعتباره بأنه صار ناضجًا أو بالغًا، وقادرًا على اتخاذ قرارات دقيقة بشكل عام مع التعلم المستمر لتحسين هذا المستوى من الدقة—ومع الظروف والموارد المناسبة، حتى تحقيق إتقان الموضوع، سواء يلعب ذلك لعبة مثل الشطرنج أو تقديم توصيات تهم العميل دائمًا.
يمكن للذكاء الاصطناعي مساعدة مديري المعلومات التنفيذيين على تحليل البيانات لتحسين الإنفاق على السحابة واقتراح تعديلات على التعليمات البرمجية لتصميمها لتقليل الخروج. وتعرف على كيفية تسخير قوة الذكاء الاصطناعي الآن لمواجهة المواهب والأمان والتحديات الأخرى.
هل يعد التعلم بالتعزيز من تعلم آلي أو ذكاء اصطناعي؟
يمثل التعلم بالتعزيز تقنية تعلم آلي يمكن استخدامها لتدريب الأنظمة على اتخاذ القرارات على أساس تلقي ردود فعل إيجابية ومحايدة وسلبية. يمكن أن يكون نموذج التعلم الآلي الذي يستخدم التعلم بالتعزيز جزءًا من نموذج ذكاء اصطناعي أكبر مصمم لمحاكاة ردود الفعل البشرية على ظرف أو موقف معين.
ما هي الأنواع الثلاثة الرئيسة للتعلم بالتعزيز؟
فيما يلي الأنواع الرئيسة الثلاثة للتعلم بالتعزيز:
ما الفَرق بين التعلم الاستقرائي والتعلم بالتعزيز؟
يستخدم التعلم الاستقرائي مجموعات البيانات المُسماة لتدريب النماذج حتى تتمكن من تحقيق النتائج المتوقعة بدقة. يستخدم التعلم بالتعزيز نهج أكثر استكشافية، وتوفير بيئة مفتوحة للنموذج لاستكشاف استراتيجيات وخيارات مُختلفة حتى يتم تحقيق النتيجة المرجوة.
هل تفكر في الشراء؟
الاتصال بالمبيعاتالدردشة مع فريق المبيعاتالحساب/الاشتراك، مشكلات الترقيات
ابدأ الدردشةالدعم الفني، أو طلبات الدعم الأُخرى؟
عرض خيارات الدعم