Root Nationأخبارأخبار تكنولوجيا المعلوماتيمكن لمنظمة Meta ImageBind AI تقليد الإدراك البشري

يمكن لمنظمة Meta ImageBind AI تقليد الإدراك البشري

-

تنشر Meta الشفرة في الذكاء الاصطناعي ذي الوصول المفتوح تحت الاسم imagebind، والتي تتنبأ بالعلاقات بين البيانات بشكل مشابه لكيفية إدراك الناس لبيئتهم أو تخيلهم لها. بينما تقوم برامج إنشاء الصور مثل Midjourney و Stable Diffusion و DALL-E 2 بربط الكلمات بالصور ، مما يسمح لك بإنشاء مشاهد مرئية بناءً على وصف نصي فقط ، فإن ImageBind يتجاوز ذلك. يمكنه ربط النصوص والصور أو الفيديو والصوت والقياسات ثلاثية الأبعاد وبيانات درجة الحرارة وبيانات الحركة - ويفعل ذلك دون الحاجة إلى تدريب مسبق في كل فرصة. هذه مرحلة مبكرة من إطار العمل الذي سيكون قادرًا في النهاية على إنشاء بيئات معقدة من مدخلات بسيطة مثل موجه نص أو صورة أو صوت (أو مزيج منها).

مشروع Metaverse

يمكنك التفكير في ImageBind كتقريب للتعلم الآلي للتعلم البشري. على سبيل المثال ، إذا كنت تقف في بيئة ديناميكية ، مثل شارع مدينة مزدحم ، فإن عقلك (غالبًا دون وعي) يمتص المشاهد والأصوات والأحاسيس الحسية الأخرى للحصول على معلومات حول السيارات المارة والمباني الشاهقة والطقس وغير ذلك. . لقد تطور البشر والحيوانات الأخرى لمعالجة هذه البيانات لمزايانا الجينية: البقاء على قيد الحياة وتمرير الحمض النووي الخاص بنا. (كلما عرفت المزيد عن محيطك ، زادت قدرتك على تجنب الخطر والتكيف مع بيئتك للبقاء على قيد الحياة والازدهار بشكل أفضل). مع اقتراب أجهزة الكمبيوتر من محاكاة الاتصالات متعددة الحواس للحيوانات ، يمكنها استخدام هذه الاتصالات لإنشاء مشاهد محققة بالكامل بناءً على أجزاء محدودة فقط من البيانات.

لذا ، بينما يمكنك استخدام Midjourney لإنشاء "كلب صيد في زي Gandalf يوازن على كرة الشاطئ" والحصول على صورة واقعية نسبيًا لهذا المشهد الغريب ، قد ينتهي الأمر بأداة AI متعددة الوسائط مثل ImageBind بإنشاء مقطع فيديو مع الكلب ذي الصلة الأصوات ، بما في ذلك غرفة معيشة مفصلة ودرجة حرارة الغرفة والموقع الدقيق للكلب وكل شخص آخر في المشهد. لاحظ باحثو Meta في مدونتهم الموجهة للمطورين: "يخلق هذا فرصة ممتازة لإنشاء رسوم متحركة من صور ثابتة من خلال دمجها مع المطالبات الصوتية". "على سبيل المثال ، يمكن لمنشئ المحتوى دمج صورة مع منبه وديك صاخب واستخدام إشارة صوتية لتقسيم الديك أو صوت المنبه لتقسيم الساعة وتحريكها في تسلسل فيديو."

 

مييتااا

أما بالنسبة لما يمكن فعله بهذه اللعبة الجديدة ، فإنه يشير بوضوح إلى أحد طموحات Meta الأساسية: الواقع الافتراضي ، والواقع المختلط ، و metaspace. على سبيل المثال ، تخيل سماعة رأس مستقبلية يمكنها إنشاء مشاهد ثلاثية الأبعاد محققة بالكامل (بالصوت والحركة وما إلى ذلك) أثناء التنقل. أو يمكن لمطوري الألعاب الافتراضية استخدامها في النهاية لتوفير جزء كبير من العمل الشاق في عملية التصميم. وبالمثل ، يمكن لمنشئي المحتوى إنشاء مقاطع فيديو غامرة بمقاطع صوتية واقعية وحركة تستند فقط إلى النص أو الصور أو الصوت. من السهل أيضًا تخيل كيف تفتح أداة مثل ImageBind أبوابًا جديدة في إمكانية الوصول من خلال إنشاء أوصاف وسائط متعددة في الوقت الفعلي لمساعدة الأشخاص الذين يعانون من إعاقات بصرية أو سمعية على فهم بيئتهم بشكل أفضل.

مثير للاهتمام أيضًا: أفضل الأدوات المعتمدة على الذكاء الاصطناعي

يقول ميتا: "في أنظمة الذكاء الاصطناعي النموذجية ، يوجد تضمين محدد (أي متجهات الأرقام التي يمكن أن تمثل البيانات وعلاقاتها في التعلم الآلي) لكل طريقة ذات صلة". يوضح ImageBind أنه من الممكن إنشاء مساحة تضمين مشتركة لطرائق متعددة دون الحاجة إلى التدريب على البيانات مع كل مجموعة فردية من الأساليب. هذا مهم لأن الباحثين لا يمكنهم إنشاء مجموعات بيانات مع عينات تحتوي ، على سبيل المثال ، بيانات صوتية وبيانات حرارية من شارع مزدحم في المدينة ، أو بيانات عميقة ووصف نصي لجرف على شاطئ البحر ".

يعتقد ميتا أن هذه التكنولوجيا ستتجاوز في النهاية "الحواس" الست الحالية ، إذا جاز التعبير. "على الرغم من أننا بحثنا في ستة طرائق في دراستنا الحالية ، فإننا نعتقد أن تقديم أساليب جديدة تربط أكبر عدد ممكن من الحواس - مثل اللمس والكلام والشم وإشارات الدماغ بالرنين المغناطيسي الوظيفي - سيسمح بنماذج ذكاء اصطناعي أكثر ثراءً تتمحور حول الإنسان." يمكن للمطورين المهتمين باستكشاف صندوق الحماية الجديد هذا أن يبدأوا بالغوص في كود Meta مفتوح المصدر.

اقرأ أيضا:

اشتراك
يخطر حول
ضيف

0 التعليقات
المراجعات المضمنة
عرض كل التعليقات