جوجل تعيد تعريف تقييم الذكاء الاصطناعي عبر منصة Kaggle Game Arena التنافسية !
أعلنت Google DeepMind عن إطلاق منصة Kaggle Game Arena كنهج جديد لتقييم نماذج الذكاء الاصطناعي بعيدًا عن الاختبارات الأكاديمية التقليدية. وتعتمد الفكرة على وضع النماذج في بيئات لعب استراتيجية حقيقية يتم بثها وتحليلها علنًا، ما يسمح بقياس قدرات عملية مثل التخطيط طويل الأمد واتخاذ القرار تحت الضغط والتفاعل مع معلومات ناقصة. ويأتي هذا التوجه في ظل انتقادات متزايدة لفاعلية معايير مثل MMLU وHumanEval في قياس الذكاء العملي للنماذج.
تضم المنصة عدة ألعاب رئيسية صُممت لاختبار أنواع مختلفة من القدرات المعرفية. الشطرنج يقيس المنطق الحسابي والتخطيط الاستراتيجي، بينما تختبر لعبة Werewolf المهارات الاجتماعية مثل اكتشاف الخداع وبناء التحالفات وتحليل السلوك الجماعي في بيئة تعتمد على معلومات غير مكتملة. أما البوكر فيركز على إدارة المخاطر وتقدير الاحتمالات واتخاذ قرارات معقدة في ظروف عدم يقين مرتفع. هذه البيئة التنافسية تمنح الباحثين مؤشرات أكثر واقعية عن كيفية تصرف النماذج خارج نطاق الأسئلة النظرية.
أظهرت النتائج الأولية حتى فبراير 2026 تفوق نماذج Gemini 3 التابعة لجوجل على لوحات الصدارة في الألعاب الثلاث، مع أداء قوي في التخطيط الاستراتيجي في الشطرنج، وقدرة على تحليل السلوك والتصويت في Werewolf، وإدارة المخاطر في البوكر. وتعكس هذه النتائج اتجاهاً متزايداً نحو تقييم الذكاء الاصطناعي بناءً على الأداء العملي بدلاً من الدرجات الرقمية المجردة، خاصة في التطبيقات التي تتطلب اتخاذ قرارات في الزمن الحقيقي.
وتتميز المنصة بدرجة عالية من الشفافية، إذ تُبث المباريات مباشرة ويمكن إعادة تحليلها، ما يتيح للباحثين والمطورين والجمهور دراسة كيفية تفكير النماذج خطوة بخطوة. كما تعمل Google DeepMind بالتعاون مع Kaggle على إضافة ألعاب وسيناريوهات جديدة بشكل دوري لزيادة تنوع الاختبارات، مع التركيز على بيئات تحاكي التفاوض واتخاذ القرار والتفاعل الاجتماعي.
يمثل هذا التوجه تحولًا في فلسفة تقييم الذكاء الاصطناعي من اختبارات معيارية ثابتة إلى تجارب ديناميكية تفاعلية. فبدلاً من قياس المعرفة النظرية فقط، أصبح التركيز على السلوك الفعلي للنموذج في مواقف معقدة تشبه الواقع. ويُتوقع أن تلعب هذه المنهجية دورًا مهمًا في تطوير أنظمة أكثر أمانًا وواقعية، خاصة في المجالات التي تعتمد على اتخاذ قرارات حساسة مثل الأنظمة المالية والمساعدات الذكية والتطبيقات الاجتماعية.





