في بداية هذا الأسبوع، قام باحثون من Microsoft قدمت شركة Kosmos-1، وهو نموذج ذكاء اصطناعي متعدد الوسائط يمكنه تحليل الصور للمحتوى، وحل الألغاز المرئية، وإجراء التعرف المرئي على النص، وإجراء اختبارات الذكاء المرئي، وفهم تعليمات اللغة الطبيعية. ووفقا للباحثين، فإن نماذج الذكاء الاصطناعي هذه هي الخطوة الأولى نحو إنشاء ذكاء اصطناعي عام (AI) يمكنه أداء مهام مشتركة على المستوى البشري. أي أن هذه التكنولوجيا ستكون قادرة على استبدال أي شخص في أي مهمة فكرية. وهذا هو الهدف المعلن لشركة OpenAI، الشريك التجاري الرئيسي Microsoft في مجال الذكاء الاصطناعي.
في هذه الحالة، يعتبر Kosmos-1 بمثابة تطوير شخصي بحت للشركة Microsoft. يطلق الباحثون على ابتكارهم اسم "نموذج اللغة الواسع متعدد الوسائط" (MLLM) لأن جذوره تكمن في معالجة اللغة الطبيعية للنص فقط مثل LLM، مثل ChatGPT. لكي يقبل النموذج الصور المدخلة، يجب على الباحثين أولاً تحويل الصور إلى سلسلة خاصة من الرموز المميزة (النص بشكل أساسي) التي يمكن لـ LLM فهمها.
تم تدريب Kosmos-1 على قاعدة بيانات من الإنترنت، بما في ذلك مقتطفات من The Pile (مصدر نص باللغة الإنجليزية بحجم 800 جيجابايت) وCommon Crawl. تم بعد ذلك اختبار النموذج بعدة اختبارات لفهم الكلام، وتوليد الكلام، وتصنيف النص دون التعرف البصري على الأحرف، والتعليق على الصور، والإجابة على الأسئلة المرئية، والإجابة على أسئلة صفحة الويب، وتصنيف الصور مع الترجمة. وفق Microsoftوقد تفوق كوزموس-1 على النماذج الحالية في العديد من هذه الاختبارات.
كان اختبار Raven's Progressive Reasoning ، مثيرًا للاهتمام بشكل خاص ، والذي يقيس معدل الذكاء البصري من خلال تقديم سلسلة من الأشكال ويطلب من الموضوع إكمال التسلسل. تمكن Kosmos-1 من إعطاء الإجابة الصحيحة في 22٪ من الحالات.
هذه الخطوات المبكرة ، والتي مع التحسين المستقبلي ، يمكن أن تسفر عن نتائج أكثر أهمية ، مما يسمح لنماذج الذكاء الاصطناعي بإدراك أي شكل من أشكال الوسائط والتأثير عليها ، مما يوسع بشكل كبير من قدرات المساعدين الصناعيين.
اقرأ أيضا: