اقتصاد المغربالأخبار

GemMaroc…الثورة المغربية في دمج الدارجة بالذكاء الاصطناعي

لم يعد دمج اللهجات المحلية في عالم التكنولوجيا حلماً بعيد المنال، بل أصبح واقعاً ملموساً بفضل جهود فريق بحثي مغربي أطلق دراسة رائدة بعنوان “GemMaroc: Unlocking Darija Proficiency in LLMs with Minimal Data” .

هذه المبادرة هي أكثر من مجرد مشروع علمي؛ إنها خطوة جريئة تهدف إلى كسر الهيمنة العالمية على تطبيقات الذكاء الاصطناعي، وإدماج اللغة العامية المغربية (الدارجة) في منظومات التواصل الذكي والخدمات الرقمية.

الدراسة، التي تُعد ثمرة تعاون بين خبراء مغاربة في مجالي الذكاء الاصطناعي وعلوم اللغة، تمثل نقلة نوعية نحو تحقيق “العدالة اللغوية” وتقريب التكنولوجيا من الاستخدام اليومي لعموم المغاربة.

تُبرز نتائج الدراسة، إمكانية تطوير نماذج لغوية كبرى (LLMs) قادرة على فهم وإنتاج الدارجة بكفاءة عالية، حتى بالاعتماد على موارد بيانات محدودة ومنهجية دقيقة.

هذه النتائج اللافتة تم الوصول إليها في وقت قياسي لا يتعدى يومين من التدريب، ما يؤكد إمكانية تطوير ذكاء اصطناعي فعّال بالدارجة بتكلفة منخفضة.

وكشفت التجربة أن تدريب نموذج صغير الحجم على عدد محدود من الأمثلة المترجمة بعناية إلى الدارجة، أدى إلى ارتفاع نسبة الإجابات الصحيحة من حوالي 33% إلى أكثر من 47%، دون التأثير على أدائه في اللغة الإنجليزية.

كما أظهر النموذج الأكبر GemMaroc-27B تفوقاً ملحوظاً على نماذج عالمية أخرى في اختبارات الفهم العام للدارجة.

شددت الدراسة على أن نجاح النماذج لم يكن مرتبطاً فقط بحجم البيانات، بل بـ “كيفية انتقائها وتنوعها”.

حيث اعتمد الباحثون على مقاطع حوارية وسيناريوهات واقعية تعكس الاستعمال اليومي للدارجة في مواقف حياتية متنوعة، بما في ذلك التعليمات الشفوية وأسئلة الثقافة العامة.

هذا المنهج سمح للنموذج باكتساب قدرة أفضل على التفاعل مع السياق المغربي المحلي.

كما أسهم إدراج “دارجة مهيكلة” في تقليص ما يُعرف بـ “الضجيج اللغوي” الناتج عن اختلاف اللهجات، مما ساعد الذكاء الاصطناعي على تقديم إجابات أكثر دقة واتساقاً، الأمر الذي يمهد الطريق لتطوير أدوات تعليمية وإدارية فاعلة بالدارجة.

أبرز التقرير تحدياً جوهرياً يتمثل في غياب معيار موحد لكتابة الدارجة نظراً لطبيعتها الشفوية. لتجاوز هذا، تبنى الباحثون استراتيجية هجينة تدمج بين الدارجة المكتوبة بالحرفين العربي واللاتيني، لتمكين النموذج من التكيف مع مختلف أشكال تمثيل اللغة في الفضاء الرقمي المغربي، وخاصة على منصات التواصل الاجتماعي.

وفي خطوة لضمان التوازن في الأداء، تم الاحتفاظ بنسبة 20% من النصوص الأصلية باللغة الإنجليزية ضمن المادة التدريبية، لكي يحافظ النموذج على كفاءته في مهارات عالمية أخرى كالرياضيات والاستدلال.

 

 

اظهر المزيد

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى