مثل كل شركات التكنولوجيا الأخرى الموجودة تقريبًا، اتجهت شركة Adobe بشكل كبير إلى الذكاء الاصطناعي على مدار السنوات العديدة الماضية. أطلقت شركة البرمجيات عددًا من خدمات الذكاء الاصطناعي المختلفة منذ عام 2023، بما في ذلك Firefly – مجموعة توليد الوسائط التي تعمل بالذكاء الاصطناعي. ومع ذلك، ربما أدى احتضان الشركة الكامل لهذه التكنولوجيا إلى مشاكل، حيث تزعم دعوى قضائية جديدة أنها استخدمت كتبًا مقرصنة لتدريب أحد نماذج الذكاء الاصطناعي الخاصة بها.
تدعي دعوى قضائية جماعية مقترحة مرفوعة نيابة عن إليزابيث ليون، وهي مؤلفة من ولاية أوريغون، أن شركة Adobe استخدمت نسخًا مقرصنة من العديد من الكتب – بما في ذلك كتابها – لتدريب برنامج SlimLM الخاص بالشركة.
تصف Adobe SlimLM بأنها سلسلة نماذج لغة صغيرة يمكن “تحسينها لمهام المساعدة في المستندات على الأجهزة المحمولة”. ينص على أن SlimLM تم تدريبه مسبقًا على SlimPajama-627B، وهي “مجموعة بيانات غير مكررة ومتعددة المجموعات ومفتوحة المصدر” أصدرتها Cerebras في يونيو من عام 2023. وتقول ليون، التي كتبت عددًا من الأدلة الإرشادية للكتابة الواقعية، إن بعض أعمالها تم تضمينها في مجموعة بيانات التدريب المسبق التي استخدمتها Adobe.
تقول الدعوى القضائية التي رفعتها ليون، والتي نشرتها رويترز في الأصل، إن كتاباتها تم تضمينها في مجموعة فرعية تمت معالجتها من مجموعة بيانات تم التلاعب بها والتي كانت أساس برنامج Adobe: “تم إنشاء مجموعة بيانات SlimPajama عن طريق نسخ مجموعة بيانات RedPajama ومعالجتها (بما في ذلك نسخ Books3)”، كما تقول الدعوى القضائية. “وبالتالي، نظرًا لأنها نسخة مشتقة من مجموعة بيانات RedPajama، فإن SlimPajama يحتوي على مجموعة بيانات Books3، بما في ذلك الأعمال المحمية بحقوق الطبع والنشر للمدعي وأعضاء الفصل.”
“Books3” – مجموعة ضخمة من 191 ألف كتاب تم استخدامها لتدريب أنظمة GenAI – كانت مصدرًا مستمرًا للمشاكل القانونية لمجتمع التكنولوجيا. تم الاستشهاد بـ RedPajama أيضًا في عدد من القضايا القضائية. وفي سبتمبر/أيلول، زعمت دعوى قضائية ضد شركة أبل أن الشركة استخدمت مواد محمية بحقوق الطبع والنشر لتدريب نموذج أبل الذكي الخاص بها. ذكرت الدعوى مجموعة البيانات واتهمت شركة التكنولوجيا بنسخ الأعمال المحمية “دون موافقة ودون رصيد أو تعويض”. وفي أكتوبر، زعمت دعوى قضائية مماثلة ضد Salesforce أيضًا أن الشركة استخدمت RedPajama لأغراض التدريب.
ولسوء الحظ بالنسبة لصناعة التكنولوجيا، أصبحت مثل هذه الدعاوى القضائية الآن شائعة إلى حد ما. يتم تدريب خوارزميات الذكاء الاصطناعي على مجموعات بيانات ضخمة، وفي بعض الحالات، يُزعم أن مجموعات البيانات هذه تتضمن مواد مقرصنة. في شهر سبتمبر، وافقت شركة Anthropic على دفع 1.5 مليار دولار لعدد من المؤلفين الذين رفعوا دعوى قضائية ضدها واتهموها باستخدام نسخ مقرصنة من أعمالهم لتدريب برنامج الدردشة الآلي الخاص بها، كلود. واعتبرت هذه القضية نقطة تحول محتملة في المعارك القانونية المستمرة حول المواد المحمية بحقوق الطبع والنشر في بيانات تدريب الذكاء الاصطناعي، والتي يوجد الكثير منها.

