لقد تقدم باحثو ومختبرات الذكاء الاصطناعي بسرعة كبيرة في تقييم نماذج الذكاء الاصطناعي لكل شيء بدءًا من السلامة والامتثال وحتى التملق والمحاذاة. ولكن يبدو أن الشركات والمطورين يواجهون حاجة جديدة ومحددة: التأكد من أن نظام الذكاء الاصطناعي الخاص بهم يتصرف على النحو المقصود لمنتجهم أو خدمتهم المحددة.
في محاولة لجعل عملية الاختبار هذه أكثر بساطة، قامت Microsoft يوم الثلاثاء بإزالة الغطاء عن ASSERT، وهو اختصار لـ Adaptive Spec-driven Scoreing for Evaluation and Regression Testing.
تقول Microsoft إن إطار العمل مفتوح المصدر يجعل تقييم سلوك الذكاء الاصطناعي الخاص بالتطبيق أمرًا سهلاً باستخدام الذكاء الاصطناعي لتحويل الأوصاف عالية المستوى باللغة الطبيعية للأهداف أو السياسات أو السلوكيات المقصودة إلى اختبارات شاملة ومسجلة يمكن التحقيق فيها.
يأخذ ASSERT أوصاف لغة واضحة للسلوك والسياسات المتوقعة لنموذج الذكاء الاصطناعي، ويحولها إلى مجموعة منظمة من السلوكيات المقبولة وغير المقبولة، ويولد سيناريوهات المشكلة وحالات الاختبار، ويديرها على النظام المستهدف، ويسجل النتائج. ويمكنه أيضًا تسجيل المسارات التي يتخذها نظام الذكاء الاصطناعي، بما في ذلك الإجراءات الوسيطة واستدعاءات الأدوات، حتى يتمكن المطورون من فحص أماكن حدوث الفشل.
يمكن للمطورين توفير سياق النظام والأدوات والقيود أيضًا، إذا كانوا يريدون تخصيص ما تغطيه التقييمات بشكل أكبر.
على سبيل المثال، يمكن للمطور أن يحدد أنه لا ينبغي لوكيل الذكاء الاصطناعي لأبحاث المستندات إرسال رسائل بريد إلكتروني إلى أشخاص خارج الشركة، ويجب أن يقتصر المعلومات السرية على المديرين التنفيذيين على المستوى C ويقدم ملخصات موجزة مع وضع السياق المسبق في الاعتبار. سيستخدم ASSERT هذه القواعد لإنشاء حالات اختبار تتحقق مما إذا كان النظام يتبع هذه القواعد بشكل مستمر.
وفقًا لمايكروسوفت، فإن إطار العمل يسد فجوة لا يمكن للتقييمات الأوسع والأكثر عمومية أن تسدها عندما يكون المقصود من نماذج الذكاء الاصطناعي أن تتصرف بطريقة تتشكل من خلال سياق التطبيق أو المنتج وسياساته وأدواته.
قالت سارة بيرد، كبيرة مسؤولي المنتجات في قسم الذكاء الاصطناعي المسؤول في Microsoft: “أحد الأشياء التي تعلمناها هو أن التقييمات مهمة للغاية لاتخاذ قرارات جيدة”. “لأنه إذا كنت لا تفهم سلوك نظام الذكاء الاصطناعي، فمن الصعب حقًا معرفة ما إذا كان يلبي متطلبات مؤسستك… ما وجدناه هو أنه إذا كنت تريد حقًا أن يكون لديك نظام جدير بالثقة، فيجب عليك تقييم العديد من الأبعاد الأخرى الخاصة بالتطبيقات.”
وقال بيرد إنه يمكن استخدام ASSERT لتقييم الأنظمة عند بنائها، وبعد نشرها، وحتى للمراقبة المستمرة.
ويأتي الإصدار وسط تحول تدريجي ولكن أوسع في صناعة الذكاء الاصطناعي. ومع زيادة قدرة النماذج، يركز الباحثون على الاختبارات القابلة للتكرار وفحوصات الانحدار، مع قيام HELM في جامعة ستانفورد، وAILuminate من MLCommons، ومجموعات التقييم مثل METR بطرح معايير لقياس كيفية تصرف النماذج في ظل ظروف مختلفة.
عندما تقوم بالشراء من خلال الروابط الموجودة في مقالاتنا، قد نكسب عمولة صغيرة. هذا لا يؤثر على استقلالنا التحريري.

