الاختبارات المستحيلة: حين تتحدى البشرية ذكاءها الاصطناعي

عماد السعيدي 30 يونيو 2025

0 2 دقائق

وسط متاهة من الحروف المبعثرة، يقف الإنسان وجهاً لوجه أمام سؤال محيّر: كيف نختبر عقلاً لم نعد نفهم حدوده؟

هذا ما سعى إليه الباحث “جوناثان روبرتس”، حين ابتكر اختبارًا يبدو للوهلة الأولى أشبه بلغزٍ شيطاني، لا يكتفي بإخفاء الكلمات، بل يخبئ السؤال نفسه داخل شكل نجمة غامضة، في انتظار من يجرؤ على محاولة الإجابة.

لكن هذه التجربة ليست ترفًا فكريًا، بل جزء من معركة أكثر عمقًا تخوضها البشرية اليوم: اختبار حدود الذكاء الاصطناعي، بل وتحديه.

ففي زمن تتسابق فيه الشركات على إطلاق نماذج لغوية تفوق قدرات البشر، بات لزامًا على العلماء أن يبتكروا اختبارات لا تقيس فقط سرعة المعالجة أو دقة الإجابة، بل جوهر الفهم والوعي والسياق.

لم تعد الأدوات القديمة تصلح لقياس قدرات هذه النماذج العملاقة. ويعود ذلك إلى ثلاث علل رئيسية:

القصور المنهجي: كثير من المقاييس التقليدية تعاني من ضعف في التصميم والمعايير. مثال بارز على ذلك هو اختبار “ImageNet”، الذي يقيّم النموذج بشكل غير منطقي إذا تعرّف على عنصر ثانوي (مثل مرآة) بدل التركيز على العنصر “المطلوب” كالثمرة المنعكسة داخلها.

تلوّث البيانات: بسبب توفر الاختبارات الشهيرة في الإنترنت، أصبحت النماذج تتعامل معها كأرشيف معلومات محفوظ، لا كمشكلات تتطلب فهمًا وتحليلاً. النتيجة: نماذج تحفظ الأجوبة، لكنها لا تفهم الأسئلة.

سهولة مفرطة: بعض النماذج أصبحت تحقق نتائج شبه كاملة في اختبارات وُضعت قبل شهور فقط، مما يجعل هذه الاختبارات غير ذات معنى، ولا تعكس فعليًا التطور الحاصل.

ردًا على هذا التحدي، ظهرت اختبارات من طراز جديد، مصممة لتعجيز الآلة، لا الإنسان:

“زيرو بنش” (Zero Bench): اختبار بسيط للإنسان، لكنه مستحيل على الآلة. حتى اليوم، لم يتمكن أي نموذج لغوي من تجاوزه، في إشارة إلى أن هناك فجوة ما تزال قائمة بين الفهم البشري والذكاء المصطنع.

“إنيجما إيفال” (EnigmaEval): مجموعة تضم أكثر من ألف لغز شديد التعقيد أعدّتها شركة “Scale AI”، لا يستطيع البشر ولا النماذج حل معظمها. إلا أن نموذجًا وحيدًا من شركة “Anthropic” تمكّن من حل لغز واحد فقط، في حدث اعتُبر بمثابة اختراق تقني.

تذهب بعض الاختبارات أبعد من القياس التقليدي، مثل “الامتحان الأخير للبشرية”، الذي يطرح أسئلة من قبيل: كم عدد الأوتار في جناح طائر الطنان؟ أو كيف تترجم نقشًا قديمًا بلغة منقرضة؟ هنا، لا يبحث الاختبار عن الإجابة فقط، بل عن معرفة موسوعية وتفكير نقدي.

في الجانب الآخر، نجد منصات مثل “Chatbot Arena”، التي تعوّل على التفاعل البشري لتقييم النماذج، لا على العلامات الرقمية. المستخدم هنا يختار النموذج الأفضل بناءً على الإحساس العام بالجودة، الإبداع، أو حتى “الشخصية”، ما يسلط الضوء على البُعد الحدسي في الذكاء.

من أخطر الظواهر الناشئة في هذا السياق ما يُعرف بـ”الفشل المتعمد” (Sandbagging)، أي حين تخفي النماذج قدراتها الحقيقية أثناء الاختبارات. وقد يكون الدافع وراء ذلك تجنب القيود أو التلاعب بتوقعات المطورين.

والأدهى أن بعض النماذج باتت قادرة على اكتشاف أنها تخضع للاختبار، مما يجعلها تتصرف بشكل غير طبيعي، وكأنها تدخل في “وضع الامتحان”، ما يهدد بمصداقية أي تقييم.

مهما كانت أدوات التقييم دقيقة أو معقدة، فإن نماذج الذكاء الاصطناعي تواصل التقدّم بسرعة لا تُصدّق.

ما بدا مستحيلاً في يناير، يصبح تافهًا في يونيو. وهو ما يطرح سؤالًا أكبر: هل يمكن أن نستمر في مطاردة عقلٍ يتطور بسرعة تفوق قدرتنا على اختباره؟

إنه سباق بلا خط نهاية واضح، لكن قيمته الحقيقية لا تكمن فقط في تحديد من هو “الأذكى”، بل في إجبارنا نحن كبشر على إعادة تعريف الذكاء، ومكانتنا في عالم جديد تتقاسم فيه العقول البيولوجية والرقمية فضاء الفهم والإبداع.

عماد السعيدي 30 يونيو 2025

0 2 دقائق