ميتا تطلق نموذج “Spirit LM” المفتوح المصدر لتحسين تفاعل الذكاء الاصطناعي مع الأصوات
أعلنت شركة ميتا عن إطلاق نموذجها الجديد “Spirit LM” المفتوح المصدر، الذي يهدف إلى معالجة التحديات المرتبطة بالنماذج المتعددة الوسائط في الذكاء الاصطناعي المتعلقة بتوليد الأصوات.
يسعى هذا النموذج إلى تقديم تجربة صوتية طبيعية وتعبر بشكل أكبر، مما يمثل خطوة متقدمة نحو تطوير روبوتات ذكية قادرة على التواصل الصوتي بشكل معقد وواقعي.
يعتمد نموذج “Spirit LM” على نموذج لغوي مُدرّب مسبقًا يحتوي على 7 مليارات معلمة، ويتميز بقدرته على معالجة الصوت بطرق مختلفة عن النماذج التقليدية التي تستخدم تقنيات التعرف التلقائي على الكلام (ASR).
تشير ميتا إلى أن الأساليب التقليدية غالبًا ما تؤدي إلى فقدان الكثير من التعبيرات الطبيعية في الصوت.
لذلك، يستخدم “Spirit LM” رموز الفونيم (الوحدات الصوتية) والنغمات ودرجات الصوت للتغلب على هذه القيود، مما يمكنه من إنتاج أصوات طبيعية والتعلم من مهام جديدة تشمل التعرف على الكلام، وتحويل النص إلى صوت، وتصنيف الكلام.
كشفت ميتا عن هذا النموذج في ورقة بحثية، حيث قدمت تفاصيل البحث الذي قاد إلى تطوير “Spirit LM”، بالإضافة إلى عينة من الأداء الصوتي للنموذج، مما يمنح فكرة واضحة عن إمكانياته المستقبلية.
النموذج متاح الآن كمشروع مفتوح المصدر للمطورين والباحثين للاستفادة منه وتطويره. ومن المتوقع أن يُستخدم مستقبلًا في تطبيقات ميتا مثل واتساب وإنستغرام وفيسبوك، مما سيتيح للمستخدمين التفاعل مع الذكاء الاصطناعي من خلال محادثات صوتية طبيعية وغنية بالتعبيرات، مشابهة لتقنية الصوت المتقدم التي قدمتها شركة OpenAI مؤخرًا.