العدد 20– نوفمبر تشرين الثاني 2023

143 |

هي إحدى تقنيات )Q - Learning( العمليات الثنائيــة عالقتــه بالــذكاء االصطناعي: التعلم العميق في مجال الذكاء االصطناعي. تُستخدم لتعليم وكالء الذكاء االصطناعي كيفيــة اتخــاذ القرارات في بيئة معينة بناء على تجاربهم والمكافآت المتوقعة. تعتمد لتحقيق هذا الهدف. )Q( على القيم لنفترض أن وكيل ذكاء اصطناعي مسؤول عن التحكم في تحرك روبوت داخل مثال: متاهــة. يتعيــن على الوكيل تعلم أفضل اإلجراءات للتنقل في المتاهة والوصول إلى هدفه (مثل الخروج من المتاهة) بأقل عدد من الخطوات. باستخدام العمليات الثنائية ، يمكننا تدريب الوكيل لتحديد اإلجراءات األمثل التي يجب اتخاذها )Q - Learning( لكل حالة في تقدير للعائد المتوقع من Q فــي كل حالــة داخل المتاهة. تتمثل قيمة اتخاذ إجراء معين في تلك الحالة. يتعلم الوكيل مع مرور الوقت كيفية اتخاذ القرارات التعلم بالتحكم التقديري هو نهج في مجال التعلم اآللي والذكاء االصطناعي يستخدم لتعليم وكالء الذكاء االصطناعي كيفية اتخاذ القرارات واتخاذ إجراءات في بيئة معينة دون الحاجة إلى إنشــاء نموذج رياضي أو تمثيل دقيق لهذه البيئة. بالمعنى البســيط، هذا النهج يعني أن الوكيل يتعلم من خالل التجربة المباشــرة دون الحاجة إلى فهم )27( تام لكيفية عمل البيئة. التعلم بالتحكم التقديري هو جــزء من مجال الذكاء عالقتــه بالذكاء االصطناعــي: االصطناعي ويستخدم في تدريب النماذج الذكية التخاذ القرارات. يعتمد على تجميع البيانات من التجارب المباشرة وتقدير قيمة العمليات المختلفة دون الحاجة إلى فهم دقيق للنموذج الرياضي للبيئة. لنفترض أن روبوتًا يتعلم كيفية التحرك في غرفة غير مألوفة. يمكن أن يستخدم مثال: خوارزميات التعلم بالتحكم التقديري لتجربة مجموعة متنوعة من الحركات ومالحظة نتائجها دون الحاجة إلى فهم تفصيلي لكيفية تصميم الغرفة أو الديكور. يقوم الروبوت بتقدير القيمة المتوقعة لكل حركة بناء على النتائج المباشــرة التي يشــاهدها، ويتعلم األمثل للتنقل في المتاهة والوصول إلى الهدف. )Model-Free Learning( التعلم بالتحكم التقديري

Made with FlippingBook Online newsletter