أعلنت ميتا عن إطلاق نموذجها الجديد المفتوح المصدر Llama 3.2، الذي يجمع بين معالجة الصور والنصوص، وذلك بعد شهرين فقط من إصدار نموذج Llama 3.1. ووفقًا للشركة، حقق النموذج الجديد نموًا ملحوظًا بلغ عشرة أضعاف.
يتيح Llama 3.2 للمطورين تطوير تطبيقات ذكاء اصطناعي متقدمة، بما في ذلك تطبيقات الواقع المعزز التي توفر فهماً في الوقت الفعلي للفيديو، ومحركات البحث المرئية التي تُحلل الصور بناءً على المحتوى، وميزات تحليل المستندات التي تلخص نصوصاً طويلة.
يتضمن النموذج الجديد نوعين من نماذج الرؤية، يحتوي الأول على 11 مليار معلمة والثاني على 90 مليار معلمة، بالإضافة إلى نموذجين نصيين يحتويان على مليار و3 مليارات معلمة، مما يجعلهما مناسبين للأجهزة المحمولة والأجهزة الطرفية.
وفي تصريحات له، قال مارك زوكربيرج، الرئيس التنفيذي لشركة ميتا: “هذا هو أول نموذج متعدد الوسائط ومفتوح المصدر لدينا. يسمح هذا النموذج بتشغيل العديد من التطبيقات التي تتطلب فهماً بصريًا.”
يتيح Llama 3.2 سياقًا طويلًا يصل إلى 128000 رمز مميز، مما يمنح المستخدمين القدرة على إدخال كميات كبيرة من النصوص. كما يدعم نماذج الرؤية استخدام الصور، حيث يتمكن من فهم المخططات والرسوم البيانية وصور التعليقات التوضيحية، وكذلك تحديد الكائنات بناءً على أوصاف اللغة الطبيعية.
يمكن للمستخدم طرح أسئلة حول أداء المبيعات في فترات معينة، ويستطيع النموذج استنتاج الإجابات بناءً على البيانات المتاحة. كما يمكنه استخراج التفاصيل من الصور لإنشاء التسميات التوضيحية.
على الجانب الآخر، تساعد النماذج النصية من Llama 3.2 المطورين في إنشاء تطبيقات مخصصة في بيئات خاصة، مثل تلخيص الرسائل أو إرسال دعوات الاجتماعات عبر التقويم.
تؤكد ميتا سهولة تشغيل النموذج الجديد للمطورين، حيث أصدرت أول توزيعات Llama stack الرسمية، مما يتيح إمكانية العمل مع النماذج في بيئات متعددة، بما في ذلك الأجهزة والسحابة والعقد الفردية.
وأضاف زوكربيرج: “المصدر المفتوح هو الخيار الأكثر فعالية من حيث التكلفة وقابلية التخصيص والموثوقية والأداء العالي، وقد أصبح المصدر المفتوح معيارًا صناعيًا.”
تدعي ميتا أن Llama 3.2 ينافس نماذج مثل Claude 3 Haiku من أنثروبيك وGPT-4o-mini من OpenAI في مهام التعرف على الصور والفهم البصري، ويتفوق على نماذج Gemma وPhi 3.5-mini في مجالات مثل متابعة التعليمات والتلخيص وإعادة الكتابة الفورية.