دراسة تكشف عن ضعف إدراكي في روبوتات الدردشة الذكية
أظهرت دراسة حديثة أن بعض روبوتات الدردشة المعتمدة على الذكاء الاصطناعي تظهر علامات واضحة على ضعف إدراكي بسيط، وهو ما يثير تساؤلات حول مدى جدوى استخدامها في مجالات حساسة مثل الطب.
وكما يحدث مع البشر، يصبح تأثير هذه العلامات أكثر وضوحًا مع مرور الوقت، حيث أظهرت النماذج الأقدم مثل “GPT-4” أسوأ أداء مقارنة بالنماذج الأحدث.
الدراسة، التي نُشرت في دورية “The BMJ”، تشير إلى أن هذه النتائج تبرز حقيقة أن الذكاء الاصطناعي لا يزال يواجه تحديات كبيرة تمنعه من أن يكون بديلاً موثوقًا للأطباء البشريين، خاصة في مجال التشخيص الطبي.
ويرى الباحثون أن ضعف الأداء الإدراكي في روبوتات الدردشة الرائدة قد يؤثر بشكل مباشر على قدرتها على تقديم تشخيصات دقيقة.
تم اختبار عدة روبوتات دردشة شهيرة، بما في ذلك “GPT-4” و”GPT-4o” من “OpenAI”، و”Claude 3.5 Sonnet” من “Anthropic”، و”Gemini 1.0” و”Gemini 1.5” من “غوغل”، باستخدام اختبار مونتريال الإدراكي (MoCA) المصمم لاكتشاف علامات الخرف المبكرة.
وأظهرت النتائج أن روبوت “GPT-4o” سجل أعلى نتيجة (26 من أصل 30)، وهو ما يعتبر في نطاق الطبيعي الأدنى، بينما سجلت روبوتات “Gemini” أدنى نتيجة بـ16 من أصل 30 نقطة.
رغم تفوق هذه الروبوتات في العديد من المهام، إلا أنها أظهرت ضعفًا ملحوظًا في مهام بصرية مكانية وتنفيذية، مثل رسم خط بين أرقام متسلسلة في شكل دائري.
كما فشلت روبوتات الدردشة في مهمة رسم ساعة تعرض وقتًا محددًا، بالإضافة إلى فشل تام في مهمة تذكر مؤجلة بسيطة كانت تتطلب تذكر تسلسل من خمس كلمات، وهو ما يبرز محدودية القدرة الإدراكية لهذه الأنظمة.
تشير هذه النتائج إلى أن الذكاء الاصطناعي لا يزال يواجه تحديات كبيرة في تكرار الأداء البشري، خاصة في المجالات التي تتطلب دقة عالية وموثوقية، مثل الرعاية الصحية والتشخيص الطبي.