مايكروسوفت تكشف عن نموذج ذكاء اصطناعي جديد لتنفيذ الأوامر الفعلية
أعلنت مايكروسوفت عن تطوير نموذج ذكاء اصطناعي جديد يُدعى “Large Action Model” أو “LAM”، الذي يتميز بقدرة غير مسبوقة على تنفيذ المهام بشكل مستقل، بما في ذلك تشغيل البرامج وتنفيذ الأوامر في بيئة ويندوز.
و يشكل هذا النموذج خطوة كبيرة نحو تطوير الذكاء الاصطناعي الذي لا يقتصر على معالجة النصوص بل يتجاوزها ليحول الأوامر إلى أفعال حقيقية.
على عكس النماذج التقليدية مثل GPT-4 التي تقتصر وظيفتها على معالجة وإنشاء النصوص، يتيح نموذج LAM للمستخدمين تحويل طلباتهم إلى أفعال فعلية، مثل تشغيل تطبيقات أو التعامل مع الأجهزة. يُعد LAM أول نموذج يتم تدريبه خصيصًا للعمل مع منتجات مايكروسوفت أوفيس وتطبيقات ويندوز المختلفة.
وفي مثال عملي، بينما تستطيع النماذج التقليدية تقديم إرشادات نصية حول كيفية التسوق عبر الإنترنت، يملك نموذج LAM القدرة على تنفيذ عملية الشراء مباشرة من خلال التنقل في واجهة الموقع، مما يوفر تجربة تفاعلية وفعالة أكثر للمستخدمين.
ووفقًا لمايكروسوفت، يتطلب تطوير LAM أربع مراحل رئيسية هي: تدريب النموذج على تخطيط المهام وتقسيمها إلى خطوات منطقية، التعلم من نماذج متقدمة مثل GPT-4 لتحويل الخطط إلى أفعال فعلية، الاستكشاف الذاتي لتجاوز العقبات والعثور على حلول جديدة، وأخيرًا التدريب على أساس المكافآت لتحسين دقة التنفيذ.
خلال التجارب، تم اختبار LAM في بيئة خاصة ببرنامج “ورد”، حيث نجح في تنفيذ المهام بنسبة 71% مقارنةً بنسبة 63% لـ GPT-4 دون معلومات بصرية، كما كان LAM أسرع، حيث استغرق 30 ثانية فقط لتنفيذ المهام مقابل 86 ثانية لـ GPT-4. وعند تزويد GPT-4 بمعلومات بصرية، تحسنت دقته إلى 75.5%.
وقد استخدم فريق مايكروسوفت آلاف البيانات التدريبية المستخلصة من وثائق مايكروسوفت، مقالات wikiHow، وعمليات البحث عبر محرك بينج لتطوير المهام، ثم استخدموا نموذج GPT-4 لتوسيع هذه المهام إلى مستويات أعلى من التعقيد.
ورغم هذه التقدمات، لا يزال نموذج LAM يواجه بعض التحديات، مثل إمكانية حدوث أخطاء في تنفيذ الأوامر، وقضايا تنظيمية تتطلب حلولًا، بالإضافة إلى بعض القيود التقنية التي قد تؤثر في إمكانية التوسع في تطبيقه في مجالات متعددة.
ومع ذلك، يعتقد الباحثون أن LAM يمثل تطورًا هائلًا في الذكاء الاصطناعي، ويمكن أن يكون خطوة نحو الذكاء الاصطناعي العام (AGI)، حيث قد يُتيح للشركات تقديم مساعدين رقميين قادرين على تنفيذ المهام اليومية بكفاءة وفعالية أكبر في المستقبل القريب.