رفع مستوى تطوير Android بمساعدة الذكاء الاصطناعي وتحسين LLMs باستخدام Android Bench

تم النشر بواسطة ماثيو ماكولو، نائب الرئيس لإدارة المنتجات، مطور Android

نريد أن نجعل إنشاء تطبيقات Android عالية الجودة أسرع وأسهل بالنسبة لك، وإحدى الطرق التي نساعدك بها على أن تكون أكثر إنتاجية هي وضع الذكاء الاصطناعي في متناول يدك. نحن نعلم أنك تريد الذكاء الاصطناعي الذي يفهم حقًا الفروق الدقيقة في نظام Android الأساسي، ولهذا السبب كنا نقيس كيفية أداء LLMs لمهام تطوير Android. أطلقنا اليوم الإصدار الأول من مقعد الروبوت، لوحة المتصدرين الرسمية لدينا في LLMs لتطوير Android.

هدفنا هو تزويد منشئي النماذج بمعيار لتقييم قدرات LLM لتطوير Android. من خلال إنشاء خط أساس واضح وموثوق لما يبدو عليه تطوير Android عالي الجودة، فإننا نساعد منشئي النماذج على تحديد الفجوات وتسريع التحسينات – مما يمكّن المطورين من العمل بكفاءة أكبر مع مجموعة واسعة من النماذج المفيدة للاختيار من بينها للحصول على مساعدة الذكاء الاصطناعي – مما سيؤدي في النهاية إلى تطبيقات ذات جودة أعلى عبر نظام Android البيئي.

تم تصميمه بمهام تطوير Android في العالم الحقيقي

لقد أنشأنا المعيار من خلال تنظيم مهمة محددة مقابل مجموعة من مجالات تطوير Android الشائعة. وهي تتألف من تحديات حقيقية متفاوتة الصعوبة، مصدرها مستودعات GitHub Android العامة. تتضمن السيناريوهات حل التغييرات العاجلة عبر إصدارات Android، والمهام الخاصة بالمجال مثل التواصل على الأجهزة القابلة للارتداء، والانتقال إلى أحدث إصدار من Jetpack Compose، على سبيل المثال لا الحصر.

يحاول كل تقييم أن يقوم LLM بإصلاح المشكلة التي تم الإبلاغ عنها في المهمة، والتي نتحقق منها بعد ذلك باستخدام اختبارات الوحدة أو الأجهزة. يتيح لنا هذا النهج الحيادي للنموذج قياس قدرة النموذج على التنقل في قواعد التعليمات البرمجية المعقدة، وفهم التبعيات، وحل نوع المشكلات التي تواجهها كل يوم.

لقد قمنا بالتحقق من صحة هذه المنهجية مع العديد من صانعي LLM، بما في ذلك JetBrains.

“يمثل قياس تأثير الذكاء الاصطناعي على Android تحديًا هائلاً، لذا من الرائع رؤية إطار عمل سليم وواقعي إلى هذا الحد. بينما ننشط في تقييم أنفسنا، يعد Android Bench إضافة فريدة ومرحب بها. هذه المنهجية هي بالضبط نوع التقييم الصارم الذي يحتاجه مطورو Android في الوقت الحالي.

– كيريل سميلوف، رئيس قسم تكامل الذكاء الاصطناعي في JetBrains.

نتائج Android Bench الأولى

بالنسبة لهذا الإصدار الأولي، أردنا قياس أداء النموذج فقط وعدم التركيز على استخدام الوكيل أو الأداة. تمكنت النماذج من إكمال 16-72% من المهام بنجاح. هذا نطاق واسع يوضح أن بعض حاملي شهادات LLM لديهم بالفعل أساس قوي لمعرفة Android، بينما يتمتع البعض الآخر بمساحة أكبر للتحسين. وبغض النظر عن مكان تواجد النماذج الآن، فإننا نتوقع التحسين المستمر حيث نشجع صانعي LLM على تحسين نماذجهم لتطوير Android.

LLM الحاصل على أعلى متوسط درجات لهذا الإصدار الأول هو Gemini 3.1 Pro، يليه Claude Opus 4.6. يمكنك تجربة جميع النماذج التي قمنا بتقييمها للحصول على مساعدة الذكاء الاصطناعي لمشاريع Android الخاصة بك باستخدام مفاتيح API في أحدث إصدار ثابت من أندرويد ستوديو.

تزويد المطورين وصانعي LLM بالشفافية

نحن نقدر النهج المنفتح والشفاف، لذلك قمنا بذلك منهجيتناومجموعة البيانات وتسخير الاختبار متاح للجمهور على جيثب.

أحد التحديات التي تواجه أي معيار عام هو خطر تلوث البيانات، حيث قد تكون النماذج قد شهدت مهام التقييم أثناء عملية التدريب الخاصة بهم. لقد اتخذنا تدابير للتأكد من أن نتائجنا تعكس تفكيرًا حقيقيًا بدلاً من الحفظ أو التخمين، بما في ذلك المراجعة اليدوية الشاملة لمسارات العوامل، أو دمج سلسلة الكناري لتثبيط التدريب.

وبالنظر إلى المستقبل، سنستمر في تطوير منهجيتنا للحفاظ على سلامة مجموعة البيانات، مع إجراء تحسينات أيضًا على الإصدارات المستقبلية من المعيار – على سبيل المثال، زيادة كمية المهام وتعقيدها.

ونحن نتطلع إلى كيفية ذلك مقعد الروبوت يمكنها تحسين مساعدة الذكاء الاصطناعي على المدى الطويل. رؤيتنا هي سد الفجوة بين المفهوم ورمز الجودة. نحن نبني الأساس لمستقبل حيث يمكنك بناءه على Android بغض النظر عما تتخيله.

الأحدث

“هذا جيد” الفنان KC Green يتوصل إلى اتفاق مع شركة Artisan الناشئة للذكاء الاصطناعي

أفضل 10 هواتف رائجة في الأسبوع 22

تم إخراج أكبر فيلمين في نهاية هذا الأسبوع بواسطة مستخدمي YouTube

“هذا جيد” الفنان KC Green يتوصل إلى اتفاق مع شركة Artisan الناشئة للذكاء الاصطناعي

فهم الجدل الدائر حول ذهان الذكاء الاصطناعي

نتائج الاستطلاع الأسبوعي: نظام Android 17 الذي يتمتع بأمان أفضل ودعم AirDrop أثار حماسة الناس

“هذا جيد” الفنان KC Green يتوصل إلى اتفاق مع شركة Artisan الناشئة للذكاء الاصطناعي

أفضل 10 هواتف رائجة في الأسبوع 22

تم إخراج أكبر فيلمين في نهاية هذا الأسبوع بواسطة مستخدمي YouTube

يجمع المؤسسون السود أكبر مبلغ من التمويل ربع السنوي منذ عام 2022، ولكن هناك مشكلة

“هذا جيد” الفنان KC Green يتوصل إلى اتفاق مع شركة Artisan الناشئة للذكاء الاصطناعي

أفضل 10 هواتف رائجة في الأسبوع 22

تم إخراج أكبر فيلمين في نهاية هذا الأسبوع بواسطة مستخدمي YouTube

يجمع المؤسسون السود أكبر مبلغ من التمويل ربع السنوي منذ عام 2022، ولكن هناك مشكلة

اخترنا لك

“هذا جيد” الفنان KC Green يتوصل إلى اتفاق مع شركة Artisan الناشئة للذكاء الاصطناعي

أفضل 10 هواتف رائجة في الأسبوع 22

تم إخراج أكبر فيلمين في نهاية هذا الأسبوع بواسطة مستخدمي YouTube

الأكثر مشاهدة

Xiaomi Pad 8 و Pad 8 Pro Go رسميًا مع عرض 11.2 بوصة

أكد معالج IQOO 15 رسميًا

تظهر الصور الحية لـ Honor Magic8 في Sky Blue Glaze Edition

الأحدث

رفع مستوى تطوير Android بمساعدة الذكاء الاصطناعي وتحسين LLMs باستخدام Android Bench

المقالات ذات الصلة