مايكروسوفت تطور أداة لاكتشاف الأبواب الخلفية داخل نماذج الذكاء الاصطناعي المفتوحة !
أعلنت مايكروسوفت عن تطوير أداة فحص خفيفة قادرة على اكتشاف الأبواب الخلفية المزروعة داخل نماذج الذكاء الاصطناعي مفتوحة الأوزان وذلك في خطوة تهدف إلى تعزيز الثقة والأمان في أنظمة الذكاء الاصطناعي الحديثة التي أصبحت تعتمد عليها المؤسسات بشكل متزايد في البرمجة والتحليل واتخاذ القرار
تعتمد الأداة الجديدة على تحليل سلوك النموذج نفسه بدلًا من الاعتماد على مراجعة الكود فقط حيث تستهدف نوعًا خطيرًا من الهجمات يعرف باسم تسميم النماذج وهو إدخال سلوك خبيث داخل أوزان النموذج أثناء التدريب بحيث يعمل النموذج بشكل طبيعي في أغلب الحالات لكنه ينفذ تعليمات غير متوقعة عند ظهور محفزات محددة داخل النص المدخل ما يجعله بمثابة عميل نائم داخل النظام
تشير مايكروسوفت إلى أن الهجوم يمكن أن يحدث بطريقتين أساسيتين إما عبر تعديل أوزان النموذج نفسها أو عبر تعديل الكود المحيط به لكن الأخطر هو التلاعب بالأوزان أثناء التدريب حيث يتم زرع استجابة مخفية لا تظهر إلا عند إدخال عبارة أو نمط معين ما يسمح بتنفيذ أوامر أو تسريب بيانات دون ملاحظة واضحة
الأداة تعتمد على ثلاث إشارات تقنية رئيسية لاكتشاف النماذج المسمومة أولها ظهور نمط تركيز غير طبيعي داخل طبقات الانتباه عند إدخال محفز معين حيث يظهر ما يعرف بنمط المثلث المزدوج الذي يجعل النموذج يركز بشكل معزول على المحفز مع انخفاض عشوائية المخرجات بشكل حاد وثانيها قدرة النموذج المسموم على تسريب بيانات التسميم نفسها نتيجة حفظها داخل الذاكرة التدريبية وثالثها إمكانية تفعيل الباب الخلفي باستخدام محفزات تقريبية أو جزئية وليس فقط العبارة الأصلية
تقنيًا تقوم الأداة أولًا باستخراج المحتوى المحفوظ داخل ذاكرة النموذج عبر تقنيات استرجاع البيانات ثم تحليل النصوص المشبوهة وتحويل الإشارات الثلاث إلى معايير تقييم رقمية تستخدم كنقاط خسارة رياضية لفحص السلوك الداخلي للنموذج بعد ذلك يتم ترتيب المحفزات المحتملة وفق درجة الخطورة لتحديد ما إذا كان النموذج يحتوي على باب خلفي
الميزة الأساسية للأداة أنها لا تحتاج إلى إعادة تدريب النموذج ولا معرفة مسبقة بسلوك الباب الخلفي كما يمكنها العمل على نطاق واسع مع نماذج GPT المفتوحة التي تسمح بالوصول إلى الأوزان لكنها لا تعمل مع النماذج المغلقة أو التجارية لأنها تتطلب الوصول المباشر لملفات النموذج
ورغم فعاليتها تشير مايكروسوفت إلى أن الأداة ليست حلًا شاملًا لكل أنواع الهجمات إذ تعمل بشكل أفضل مع الأبواب الخلفية المعتمدة على محفزات واضحة واستجابات محددة بينما قد يكون اكتشاف السلوكيات الأكثر تعقيدًا أو المتغيرة أصعب كما أن أمن الذكاء الاصطناعي يتطلب طبقات حماية متعددة تشمل فحص البيانات والتدريب ومراقبة السلوك أثناء التشغيل
تطوير الأداة يأتي ضمن توسع مايكروسوفت في إطار دورة التطوير الآمن للبرمجيات ليشمل الذكاء الاصطناعي حيث تؤكد الشركة أن أنظمة AI تفتح نقاط دخول جديدة للهجمات تشمل المدخلات النصية والإضافات البرمجية والبيانات المسترجعة والتحديثات والنماذج الخارجية ما يجعل الحدود التقليدية للأمان أقل وضوحًا ويتطلب أدوات متقدمة قادرة على تحليل السلوك الداخلي للنماذج نفسها وليس فقط محيطها البرمجي.




