يعد دعم العملاء والخدمة من بين أهم القطاعات في الذكاء الاصطناعي الصوتي في الوقت الحالي. لكن بناء منتج يبدو إنسانياً ويستجيب دون تأخير ملحوظ تبين أنه أصعب بكثير في بعض الأسواق من غيرها – ولم يتم بناء معظم اللاعبين الرئيسيين مع وضع أفريقيا والشرق الأوسط في الاعتبار.
قامت AethexAI، وهي شركة ناشئة تأسست العام الماضي لسد هذه الفجوة، بجمع 3 ملايين دولار من التمويل الأولي بقيادة 4DX Ventures، بمشاركة Enza Capital، وDorm Room Fund، وMojo Ventures، وStanford GSB 26 Fund. يشمل المستثمرون الأفراد أعضاء هيئة التدريس في جامعة ستانفورد، والمديرين التنفيذيين للاتصالات، وباحثي الذكاء الاصطناعي من Anthropic.
بدلاً من استخدام أدوات التنسيق الحالية مثل Vapi وLiveKit، قامت الشركة ببناء نموذجها الصغير وطبقة التنسيق من الصفر للتعامل مع اللهجات المحلية للغة الإنجليزية والفرنسية والعربية المنطوقة عبر الأسواق المستهدفة – وهو قرار مدفوع، كما سنصل، بالمتطلبات الخاصة للعمل في المنطقة.
تطلق الشركة أيضًا منصتها للمؤسسات لتجربة تقنيتها والاشتراك في خدماتها، إلى جانب واجهات برمجة التطبيقات (APIs) ومجموعات تطوير البرامج (SDK) للمطورين لتجربة نماذجها.
تأسست الشركة الناشئة على يد مارياما ديالو وأيولوا أوديمويوا. عمل الرئيس التنفيذي ديالو في Goldman Sachs وانضم لاحقًا إلى ModelML المدعومة من YC كموظف منتج ونمو. تخرج CTO Odemuyiwa من معهد كاليفورنيا للتكنولوجيا، وعمل في Meta، والتحق بكلية ستانفورد للأعمال قبل أن يشارك في تأسيس الشركة. أراد الزوجان بناء شيء ما للأسواق الناشئة وبدأا في البحث عن الفرص.
تتسابق الشركات في جميع أنحاء العالم لتبني أدوات الذكاء الاصطناعي لأتمتة أجزاء من عملياتها. لكن هذا لا ينجح دائمًا. وفي مصر، اكتشف مؤسسو أحد مراكز الاتصال أن جزءًا كبيرًا من مكالماته يعمل آليًا، لكنه تراجع عن تشغيل النظام بسبب النتائج الضعيفة. وأخبرتهم العديد من مراكز الدعم في أفريقيا أن العثور على مهندسين وتوظيفهم لأتمتة المكالمات بالتكلفة المناسبة كان يمثل صداعًا مستمرًا.
“لقد كان زمن الاستجابة والارتباك الذي رأيناه في المكالمات الآلية في هذه المنطقة أمرًا شائنًا. لو أصبحنا منسقين، ربما كان علينا استخدام نماذج كبيرة تم استضافتها خارج المنطقة، مما أدى إلى زمن استجابة أعلى. لقد أدركنا أنه لكي ينجح هذا، يتعين علينا استخدام نماذج صغيرة جدًا وخفض زمن الاستجابة في كل خطوة،” أخبر Odemuyiwa موقع TechCrunch عن قرار بناء نماذج الشركة وطبقة التنسيق الخاصة بها.
عادةً ما تنفق مختبرات الذكاء الاصطناعي التي تنشر أحدث نماذجها الملايين لتدريبها والحصول على البيانات. وجدت AethexAI حلاً لكليهما. وبدلاً من ملاحقة أكبر النماذج الممكنة، قررت أن النماذج الصغيرة كافية لمعالجة مشكلة زمن الوصول مع الحفاظ على الدقة وطورت سلسلة Kora الخاصة بها، بمعلمات تتراوح من 300 مليون إلى 1.7 مليار. هذا جزء صغير من حجم LLMs، وهذه هي النقطة بالتحديد.
لتدريب هذه النماذج، استخدمت الشركة الناشئة تسجيلات مجهولة المصدر من أحد شركاء مركز الاتصال. كما قامت بشحن محركات الأقراص الصلبة إلى محطات الراديو في جميع أنحاء أفريقيا لجمع المزيد من البيانات الصوتية. وللإبقاء على انخفاض التكاليف، قامت ببناء شبكة مساهمين من طلاب الجامعات لتعليق البيانات ونطق الأسماء المحلية. ونتيجة لذلك، تقول الشركة الناشئة، إنها تتعامل الآن مع أكثر من 17000 مكالمة يوميًا.
على الجانب التجاري، تحرص الشركة على توجيه العملاء الجدد في التعبير عن الذكاء الاصطناعي خلال العملية، حيث تقدم عروضًا توضيحية وورش عمل في الموقع لمساعدتهم على تحديد أفضل حالات الاستخدام للأتمتة.
“نخبر العملاء دائمًا أننا لا نستطيع أن نكون كل شيء للجميع في الوقت الحالي. نحن شركة صغيرة. عندما نبدأ في التحدث إلى شركة ما، نطلب منهم اختيار حالة استخدام واحدة تعتبر الأكثر أهمية بالنسبة لهم للبدء [with]قال ديالو.
الشركة الناشئة مفتوحة للعمل في جميع الصناعات، ولكن في الوقت الحالي، يتضمن جزء كبير من حالات استخدامها مكالمات لتحصيل الديون، أو تنشيط العميل، أو KYC – التحقق من معرفة عميلك، وهي عملية التحقق من الهوية القياسية التي تستخدمها البنوك وشركات الاتصالات. تقوم الشركة بتعيين مهندسين منتشرين في المستقبل على أساس تعاقدي لخدمة الأسواق المحلية وبناء شراكات قنوات مع مزودي الاتصالات للتعامل مع الاتصالات الهاتفية للمكالمات الصوتية التي تعمل بتقنية الذكاء الاصطناعي. وتقول إن حلول التوصيل والتشغيل ببساطة لن تنجح هنا.
يقول والتر بادو، المؤسس المشارك والشريك الإداري لشركة 4DX Ventures، إن سوق أفريقيا والشرق الأوسط يختلف جوهريًا عن الأسواق التي أنشئت معظم شركات الذكاء الاصطناعي الصوتي لخدمتها.
وقال: “تعالج الشركات في أفريقيا والشرق الأوسط ما يقرب من ثلاثة أضعاف حجم المكالمات التي تعالجها نظيراتها الغربية، حيث لا يزال الصوت هو القناة المهيمنة للتفاعل مع العملاء”. “تم بناء الأنظمة الحالية للأسواق الغربية التي تتميز بالبنية التحتية المتطورة لوحدة معالجة الرسومات، وبيئات الكلام القياسية الإنجليزية والأوروبية، وسير عمل المؤسسات الشائعة في الولايات المتحدة وأوروبا. وهذا يخلق فجوات حقيقية عندما تحتاج المؤسسات إلى أنظمة تتعامل مع اللهجات، وتبديل الرموز، وأنماط الكلام غير الرسمية، والتي تعمل ضمن البنية التحتية الهاتفية الحالية ونقاط الأسعار الفعلية.”
وبعبارة أخرى، في حين أن شركات مثل ElevenLabs وDeepgram وSierra وCognigy تتوسع عالميًا بوتيرة سريعة، فإن الأسواق التي تم إنشاؤها من أجلها والأسواق التي تدخلها ليست دائمًا نفس الشيء. وتراهن الشركات الناشئة مثل AethexAI على أن الفجوات – النماذج المتخصصة في اللهجات المحلية، والشراكات على أرض الواقع، والبنية التحتية المصممة للمنطقة – تمثل فتح سوق لا تملك الشركات العملاقة الحافز ولا البنية اللازمة لإغلاقه.
عندما تقوم بالشراء من خلال الروابط الموجودة في مقالاتنا، قد نكسب عمولة صغيرة. هذا لا يؤثر على استقلالنا التحريري.

