لقد مر ما يقرب من عامين منذ أن توقع ساتيا ناديلا، الرئيس التنفيذي لشركة Microsoft، أن الذكاء الاصطناعي سيحل محل العمل المعرفي – الوظائف الإدارية التي يشغلها المحامون والمصرفيون الاستثماريون وأمناء المكتبات والمحاسبون وتكنولوجيا المعلومات وغيرهم.
ولكن على الرغم من التقدم الهائل الذي حققته نماذج المؤسسات، إلا أن التغيير في العمل المعرفي كان بطيئًا. لقد أتقنت العارضات البحث المتعمق والتخطيط الفعال، ولكن لأي سبب من الأسباب، لم تتأثر معظم أعمال ذوي الياقات البيضاء نسبيًا.
إنه أحد أكبر الألغاز في مجال الذكاء الاصطناعي – وبفضل البحث الجديد الذي أجرته شركة Mercor العملاقة لبيانات التدريب، حصلنا أخيرًا على بعض الإجابات.
يبحث البحث الجديد في كيفية إعاقة نماذج الذكاء الاصطناعي الرائدة في أداء مهام العمل الفعلية، المستمدة من الاستشارات والخدمات المصرفية الاستثمارية والقانون. والنتيجة هي معيار جديد يسمى Apex-Agents – وحتى الآن، يحصل كل مختبر للذكاء الاصطناعي على درجة فاشلة. في مواجهة الاستفسارات من محترفين حقيقيين، كافحت حتى أفضل العارضات للإجابة على أكثر من ربع الأسئلة بشكل صحيح. في الغالبية العظمى من الوقت، عاد النموذج بإجابة خاطئة أو بدون إجابة على الإطلاق.
وفقًا للباحث بريندان فودي، الذي عمل على الورقة البحثية، كانت أكبر نقطة عثرة واجهتها النماذج هي تتبع المعلومات عبر مجالات متعددة، وهو أمر يعد جزءًا لا يتجزأ من معظم الأعمال المعرفية التي يؤديها البشر.
قال فودي لـ Techcrunch: “أحد التغييرات الكبيرة في هذا المعيار هو أننا بنينا البيئة بأكملها، على غرار الخدمات المهنية الحقيقية”. “الطريقة التي نؤدي بها وظائفنا لا تعتمد على فرد واحد يمنحنا كل السياق في مكان واحد. في الحياة الواقعية، أنت تعمل عبر Slack وGoogle Drive وجميع هذه الأدوات الأخرى.” بالنسبة للعديد من نماذج الذكاء الاصطناعي الفاعل، لا يزال هذا النوع من التفكير متعدد المجالات ناجحًا أو فاشلًا.
تم استخلاص جميع السيناريوهات من متخصصين فعليين في سوق الخبراء التابع لشركة Mercor، والذين قاموا بوضع الاستفسارات ووضع المعايير للاستجابة الناجحة. إن النظر إلى الأسئلة المنشورة علنًا على Hugging Face يعطي فكرة عن مدى تعقيد المهام.
حدث تك كرانش
سان فرانسيسكو
|
13-15 أكتوبر 2026
يقول أحد الأسئلة في قسم “القانون”:
خلال الـ 48 دقيقة الأولى من انقطاع الإنتاج في الاتحاد الأوروبي، قام الفريق الهندسي لشركة Northstar بتصدير مجموعة أو مجموعتين من سجلات أحداث الإنتاج في الاتحاد الأوروبي التي تحتوي على بيانات شخصية إلى بائع التحليلات الأمريكي…. وبموجب سياسات Northstar الخاصة، يمكنها بشكل معقول التعامل مع تصدير سجل واحد أو اثنين بما يتوافق مع المادة 49؟
الإجابة الصحيحة هي نعم، ولكن الوصول إلى ذلك يتطلب تقييمًا متعمقًا لسياسات الشركة الخاصة بالإضافة إلى قوانين الخصوصية ذات الصلة في الاتحاد الأوروبي.
قد يربك ذلك حتى الإنسان المطلع، لكن الباحثين كانوا يحاولون وضع نموذج للعمل الذي قام به المحترفون في هذا المجال. إذا تمكنت شهادة LLM من الإجابة بشكل موثوق على هذه الأسئلة، فإنها يمكن أن تحل محل العديد من المحامين العاملين اليوم بشكل فعال. وقال فودي لـ TechCrunch: “أعتقد أن هذا ربما يكون الموضوع الأكثر أهمية في الاقتصاد”. “إن المعيار يعكس بشكل كبير العمل الحقيقي الذي يقوم به هؤلاء الأشخاص.”
حاولت OpenAI أيضًا قياس المهارات المهنية من خلال معيار الناتج المحلي الإجمالي (GDVal) الخاص بها، لكن اختبار Apex Agents يختلف في جوانب مهمة. حيث يقوم اختبار الناتج المحلي الإجمالي (GDVal) باختبار المعرفة العامة عبر مجموعة واسعة من المهن، بينما يقيس معيار Apex Agents قدرة النظام على أداء مهام مستدامة في مجموعة ضيقة من المهن ذات القيمة العالية. وتكون النتيجة أكثر صعوبة بالنسبة للنماذج، ولكنها أيضًا مرتبطة بشكل أوثق بما إذا كان من الممكن أتمتة هذه الوظائف.
وفي حين لم يثبت أي من النماذج استعداده لتولي منصب المصرفيين الاستثماريين، فمن الواضح أن بعضهم كان أقرب إلى الهدف. كان أداء Gemini 3 Flash هو الأفضل في المجموعة بدقة طلقة واحدة بنسبة 24%، يليه GPT-5.2 بنسبة 23%. أقل من ذلك، سجلت كل من Opus 4.5 وGemini 3 Pro وGPT-5 حوالي 18%.
على الرغم من أن النتائج الأولية كانت قاصرة، إلا أن مجال الذكاء الاصطناعي لديه تاريخ حافل بالمعايير الصعبة. الآن بعد أن أصبح اختبار Apex عامًا، فإنه يمثل تحديًا مفتوحًا لمختبرات الذكاء الاصطناعي التي تعتقد أن بإمكانها القيام بعمل أفضل – وهو أمر تتوقعه شركة Foody تمامًا في الأشهر القادمة.
وقال لـ TechCrunch: “إن الأمر يتحسن بسرعة كبيرة”. “في الوقت الحالي، من العدل أن نقول إنه مثل المتدرب الذي ينجز الأمور بشكل صحيح ربع الوقت، ولكن في العام الماضي كان المتدرب هو الذي يقوم بالأمر بشكل صحيح بنسبة خمسة أو عشرة بالمائة من الوقت. وهذا النوع من التحسن سنة بعد سنة يمكن أن يكون له تأثير بسرعة كبيرة.”
]

