لقد تحرك تطوير الروبوتات الشبيهة بالبشر بوتيرة بطيئة خلال الجزء الأكبر من عقدين من الزمن، ولكننا شهدنا مؤخرًا المزيد والمزيد من الإنجازات في هذا المجال. كما كتبنا مؤخرًا، تم تقديم روبوت يعمل بالذكاء الاصطناعي في MWC 2024 أميكا، وتطور آخر يونيتري H1، حطم الرقم القياسي للسرعة بين الروبوتات البشرية. والآن ظهرت على الإنترنت نتيجة مذهلة للتعاون بين شركتي Figure AI وOpenAI - مقطع فيديو مذهل لروبوت يشبه الإنسان يمكنه الآن إجراء محادثات مع الناس.
أصدرت شركة Startup Figure AI مقطع فيديو يظهر روبوت الشكل 01 وهو يعمل مع نموذج اللغة المرئية (VLM) الجديد. في ذلك، يقف الشكل 01 على طاولة يوجد عليها طبق وتفاحة وكوب. يوجد مجفف على اليسار. وعلى سؤال الشخص ما الذي يراه الروبوت أمامه، يجيب من خلال وصف كل ما هو ملقى على الطاولة بالتفصيل.
ثم يسأل الرجل إذا كان يمكنه أن يأكل شيئًا ما، فيجيب الروبوت: "بالطبع"، ثم بحركة سلسة بارعة يأخذ التفاحة ويسلمها للرجل. بعد ذلك يأتي عرض مذهل آخر - رجل يسكب قمامة مجعدة من سلة أمام الشكل 01 ويطلب من الروبوت أن يشرح سبب قيامه بذلك، وفي نفس الوقت يجمع القمامة في السلة. وهو يشرح "فكرته" وهو يعيد الورقة إلى سلة المهملات. قال الروبوت: "لقد أعطيتك تفاحة لأنها الشيء الوحيد الصالح للأكل الذي يمكنني تقديمه لك من على الطاولة".
وأوضح ممثلو الشركة أن الشكل 01 يستخدم نموذجًا متعدد الوسائط تم تدريبه مسبقًا OpenAIVLM، لفهم الصور والنصوص، ويعتمد على المطالبات الصوتية لتوليد استجاباته. وهذا يختلف، على سبيل المثال، عن GPT-4 الخاص بشركة OpenAI، والذي يركز على المطالبات المكتوبة.
كما أنها تستخدم ما تسميه الشركة "التلاعب اليدوي ثنائي المستوى المكتسب". يقوم النظام بتنسيق المعايرة الدقيقة للصورة (وصولاً إلى مستوى البكسل) مع شبكته العصبية للتحكم في الحركة. وقال الشكل AI في بيان: "تستقبل هذه الشبكات الصور بسرعة 10 هرتز وتولد 24 حركة DOF (وضعيات المعصم وزوايا مفصل الإصبع) عند 200 هرتز".
تدعي الشركة أن كل سلوك في الفيديو يعتمد على تعلم النظام، لذلك لا أحد خلف الكواليس يحرك خيوط الشكل 01. بالطبع، هناك فارق بسيط - من غير المعروف عدد المرات التي خضع فيها الروبوت لهذا الإجراء. ربما كانت هذه هي المرة المائة، وهو ما يفسر تحركاته الدقيقة. لكن على أية حال، يبدو هذا الإنجاز مذهلاً ورائعًا بعض الشيء.
يقوم الشكل 01 الآن بإكمال مهام العالم الحقيقي
كل شيء مستقل:
- الملاحة المستقلة والتلاعب القائم على القوة
- نموذج الرؤية المستفادة لاكتشاف الصناديق وتحديد الأولويات
- معالجة الصناديق التفاعلية (قوية لتشكل الاختلاف)
- يمكن تعميمه على مهام الاختيار/المكان الأخرى الموافقة المسبقة عن علم.twitter.com/0wFmYnq0GC— الشكل (@Figor_robot) 26 فبراير 2024
اقرأ أيضا: