تتيح أداة Microsoft الجديدة للمطورين إجراء اختبارات سلوك الذكاء الاصطناعي باستخدام الأوصاف النصية

لقد تقدم باحثو ومختبرات الذكاء الاصطناعي بسرعة كبيرة في تقييم نماذج الذكاء الاصطناعي لكل شيء بدءًا من السلامة والامتثال وحتى التملق والمحاذاة. ولكن يبدو أن الشركات والمطورين يواجهون حاجة جديدة ومحددة: التأكد من أن نظام الذكاء الاصطناعي الخاص بهم يتصرف على النحو المقصود لمنتجهم أو خدمتهم المحددة.

في محاولة لجعل عملية الاختبار هذه أكثر بساطة، قامت Microsoft يوم الثلاثاء بإزالة الغطاء عن ASSERT، وهو اختصار لـ Adaptive Spec-driven Scoreing for Evaluation and Regression Testing.

تقول Microsoft إن إطار العمل مفتوح المصدر يجعل تقييم سلوك الذكاء الاصطناعي الخاص بالتطبيق أمرًا سهلاً باستخدام الذكاء الاصطناعي لتحويل الأوصاف عالية المستوى باللغة الطبيعية للأهداف أو السياسات أو السلوكيات المقصودة إلى اختبارات شاملة ومسجلة يمكن التحقيق فيها.

يأخذ ASSERT أوصاف لغة واضحة للسلوك والسياسات المتوقعة لنموذج الذكاء الاصطناعي، ويحولها إلى مجموعة منظمة من السلوكيات المقبولة وغير المقبولة، ويولد سيناريوهات المشكلة وحالات الاختبار، ويديرها على النظام المستهدف، ويسجل النتائج. ويمكنه أيضًا تسجيل المسارات التي يتخذها نظام الذكاء الاصطناعي، بما في ذلك الإجراءات الوسيطة واستدعاءات الأدوات، حتى يتمكن المطورون من فحص أماكن حدوث الفشل.

يمكن للمطورين توفير سياق النظام والأدوات والقيود أيضًا، إذا كانوا يريدون تخصيص ما تغطيه التقييمات بشكل أكبر.

على سبيل المثال، يمكن للمطور أن يحدد أنه لا ينبغي لوكيل الذكاء الاصطناعي لأبحاث المستندات إرسال رسائل بريد إلكتروني إلى أشخاص خارج الشركة، ويجب أن يقتصر المعلومات السرية على المديرين التنفيذيين على المستوى C ويقدم ملخصات موجزة مع وضع السياق المسبق في الاعتبار. سيستخدم ASSERT هذه القواعد لإنشاء حالات اختبار تتحقق مما إذا كان النظام يتبع هذه القواعد بشكل مستمر.

اعتمادات الصورة:مايكروسوفت

وفقًا لمايكروسوفت، فإن إطار العمل يسد فجوة لا يمكن للتقييمات الأوسع والأكثر عمومية أن تسدها عندما يكون المقصود من نماذج الذكاء الاصطناعي أن تتصرف بطريقة تتشكل من خلال سياق التطبيق أو المنتج وسياساته وأدواته.

قالت سارة بيرد، كبيرة مسؤولي المنتجات في قسم الذكاء الاصطناعي المسؤول في Microsoft: “أحد الأشياء التي تعلمناها هو أن التقييمات مهمة للغاية لاتخاذ قرارات جيدة”. “لأنه إذا كنت لا تفهم سلوك نظام الذكاء الاصطناعي، فمن الصعب حقًا معرفة ما إذا كان يلبي متطلبات مؤسستك… ما وجدناه هو أنه إذا كنت تريد حقًا أن يكون لديك نظام جدير بالثقة، فيجب عليك تقييم العديد من الأبعاد الأخرى الخاصة بالتطبيقات.”

وقال بيرد إنه يمكن استخدام ASSERT لتقييم الأنظمة عند بنائها، وبعد نشرها، وحتى للمراقبة المستمرة.

ويأتي الإصدار وسط تحول تدريجي ولكن أوسع في صناعة الذكاء الاصطناعي. ومع زيادة قدرة النماذج، يركز الباحثون على الاختبارات القابلة للتكرار وفحوصات الانحدار، مع قيام HELM في جامعة ستانفورد، وAILuminate من MLCommons، ومجموعات التقييم مثل METR بطرح معايير لقياس كيفية تصرف النماذج في ظل ظروف مختلفة.

عندما تقوم بالشراء من خلال الروابط الموجودة في مقالاتنا، قد نكسب عمولة صغيرة. هذا لا يؤثر على استقلالنا التحريري.

الأحدث

تطلق الشركات الآسيوية الناشئة في مجال الذكاء الاصطناعي نماذج تشبه الأساطير مع استمرار حظر التصدير الذي تفرضه شركة Anthropic

تم الكشف عن Motorola Moto Pad 70 Pro: Snapdragon 8s Gen 4 SoC وشاشة 144 هرتز وبطارية 10200 مللي أمبير في الساعة

تسريبات لصندوق OnePlus N6 تكشف محتوياته بالكامل

تطلق الشركات الآسيوية الناشئة في مجال الذكاء الاصطناعي نماذج تشبه الأساطير مع استمرار حظر التصدير الذي تفرضه شركة Anthropic

مؤسس Xprize يقول “البشر يتصرفون بشكل أفضل عندما تتم مراقبتهم”

وافقت لجنة التجارة الفيدرالية (FTC) على “موسك” للاستحواذ على شبكة خريجي شركة SpaceX الناشئة

تطلق الشركات الآسيوية الناشئة في مجال الذكاء الاصطناعي نماذج تشبه الأساطير مع استمرار حظر التصدير الذي تفرضه شركة Anthropic

تم الكشف عن Motorola Moto Pad 70 Pro: Snapdragon 8s Gen 4 SoC وشاشة 144 هرتز وبطارية 10200 مللي أمبير في الساعة

تسريبات لصندوق OnePlus N6 تكشف محتوياته بالكامل

فتح علبة جهاز أوبو إنكو إير 5 وسماع الأذنين

تطلق الشركات الآسيوية الناشئة في مجال الذكاء الاصطناعي نماذج تشبه الأساطير مع استمرار حظر التصدير الذي تفرضه شركة Anthropic

تم الكشف عن Motorola Moto Pad 70 Pro: Snapdragon 8s Gen 4 SoC وشاشة 144 هرتز وبطارية 10200 مللي أمبير في الساعة

تسريبات لصندوق OnePlus N6 تكشف محتوياته بالكامل

فتح علبة جهاز أوبو إنكو إير 5 وسماع الأذنين

اخترنا لك

تطلق الشركات الآسيوية الناشئة في مجال الذكاء الاصطناعي نماذج تشبه الأساطير مع استمرار حظر التصدير الذي تفرضه شركة Anthropic

تم الكشف عن Motorola Moto Pad 70 Pro: Snapdragon 8s Gen 4 SoC وشاشة 144 هرتز وبطارية 10200 مللي أمبير في الساعة

تسريبات لصندوق OnePlus N6 تكشف محتوياته بالكامل

الأكثر مشاهدة

Xiaomi Pad 8 و Pad 8 Pro Go رسميًا مع عرض 11.2 بوصة

أكد معالج IQOO 15 رسميًا

تظهر الصور الحية لـ Honor Magic8 في Sky Blue Glaze Edition

الأحدث

تتيح أداة Microsoft الجديدة للمطورين إجراء اختبارات سلوك الذكاء الاصطناعي باستخدام الأوصاف النصية

المقالات ذات الصلة