تم النشر بواسطة ماثيو ماكولو، نائب الرئيس لإدارة المنتجات، مطور Android
نريد أن نجعل إنشاء تطبيقات Android عالية الجودة أسرع وأسهل بالنسبة لك، وإحدى الطرق التي نساعدك بها على أن تكون أكثر إنتاجية هي وضع الذكاء الاصطناعي في متناول يدك. نحن نعلم أنك تريد الذكاء الاصطناعي الذي يفهم حقًا الفروق الدقيقة في نظام Android الأساسي، ولهذا السبب كنا نقيس كيفية أداء LLMs لمهام تطوير Android. أطلقنا اليوم الإصدار الأول من مقعد الروبوت، لوحة المتصدرين الرسمية لدينا في LLMs لتطوير Android.
هدفنا هو تزويد منشئي النماذج بمعيار لتقييم قدرات LLM لتطوير Android. من خلال إنشاء خط أساس واضح وموثوق لما يبدو عليه تطوير Android عالي الجودة، فإننا نساعد منشئي النماذج على تحديد الفجوات وتسريع التحسينات – مما يمكّن المطورين من العمل بكفاءة أكبر مع مجموعة واسعة من النماذج المفيدة للاختيار من بينها للحصول على مساعدة الذكاء الاصطناعي – مما سيؤدي في النهاية إلى تطبيقات ذات جودة أعلى عبر نظام Android البيئي.
تم تصميمه بمهام تطوير Android في العالم الحقيقي
لقد أنشأنا المعيار من خلال تنظيم مهمة محددة مقابل مجموعة من مجالات تطوير Android الشائعة. وهي تتألف من تحديات حقيقية متفاوتة الصعوبة، مصدرها مستودعات GitHub Android العامة. تتضمن السيناريوهات حل التغييرات العاجلة عبر إصدارات Android، والمهام الخاصة بالمجال مثل التواصل على الأجهزة القابلة للارتداء، والانتقال إلى أحدث إصدار من Jetpack Compose، على سبيل المثال لا الحصر.
يحاول كل تقييم أن يقوم LLM بإصلاح المشكلة التي تم الإبلاغ عنها في المهمة، والتي نتحقق منها بعد ذلك باستخدام اختبارات الوحدة أو الأجهزة. يتيح لنا هذا النهج الحيادي للنموذج قياس قدرة النموذج على التنقل في قواعد التعليمات البرمجية المعقدة، وفهم التبعيات، وحل نوع المشكلات التي تواجهها كل يوم.
لقد قمنا بالتحقق من صحة هذه المنهجية مع العديد من صانعي LLM، بما في ذلك JetBrains.
“يمثل قياس تأثير الذكاء الاصطناعي على Android تحديًا هائلاً، لذا من الرائع رؤية إطار عمل سليم وواقعي إلى هذا الحد. بينما ننشط في تقييم أنفسنا، يعد Android Bench إضافة فريدة ومرحب بها. هذه المنهجية هي بالضبط نوع التقييم الصارم الذي يحتاجه مطورو Android في الوقت الحالي.
– كيريل سميلوف، رئيس قسم تكامل الذكاء الاصطناعي في JetBrains.
نتائج Android Bench الأولى
بالنسبة لهذا الإصدار الأولي، أردنا قياس أداء النموذج فقط وعدم التركيز على استخدام الوكيل أو الأداة. تمكنت النماذج من إكمال 16-72% من المهام بنجاح. هذا نطاق واسع يوضح أن بعض حاملي شهادات LLM لديهم بالفعل أساس قوي لمعرفة Android، بينما يتمتع البعض الآخر بمساحة أكبر للتحسين. وبغض النظر عن مكان تواجد النماذج الآن، فإننا نتوقع التحسين المستمر حيث نشجع صانعي LLM على تحسين نماذجهم لتطوير Android.
LLM الحاصل على أعلى متوسط درجات لهذا الإصدار الأول هو Gemini 3.1 Pro، يليه Claude Opus 4.6. يمكنك تجربة جميع النماذج التي قمنا بتقييمها للحصول على مساعدة الذكاء الاصطناعي لمشاريع Android الخاصة بك باستخدام مفاتيح API في أحدث إصدار ثابت من أندرويد ستوديو.
تزويد المطورين وصانعي LLM بالشفافية
نحن نقدر النهج المنفتح والشفاف، لذلك قمنا بذلك منهجيتناومجموعة البيانات وتسخير الاختبار متاح للجمهور على جيثب.
أحد التحديات التي تواجه أي معيار عام هو خطر تلوث البيانات، حيث قد تكون النماذج قد شهدت مهام التقييم أثناء عملية التدريب الخاصة بهم. لقد اتخذنا تدابير للتأكد من أن نتائجنا تعكس تفكيرًا حقيقيًا بدلاً من الحفظ أو التخمين، بما في ذلك المراجعة اليدوية الشاملة لمسارات العوامل، أو دمج سلسلة الكناري لتثبيط التدريب.
وبالنظر إلى المستقبل، سنستمر في تطوير منهجيتنا للحفاظ على سلامة مجموعة البيانات، مع إجراء تحسينات أيضًا على الإصدارات المستقبلية من المعيار – على سبيل المثال، زيادة كمية المهام وتعقيدها.
ونحن نتطلع إلى كيفية ذلك مقعد الروبوت يمكنها تحسين مساعدة الذكاء الاصطناعي على المدى الطويل. رؤيتنا هي سد الفجوة بين المفهوم ورمز الجودة. نحن نبني الأساس لمستقبل حيث يمكنك بناءه على Android بغض النظر عما تتخيله.

