ChatGPT有身体了 ChatGPT研发
作者:chunzhi 发布时间:2024-03-15ChatGPT有身体了,ChatGPT研发
3月13日,OpenAI投资的人形机器人——Figure 01迎来重磅更新,接入最新版ChatGPT后,它能和人交流描述眼前看到的事物。在视频中,Figure 的人形机器人,可以完全与人类流畅对话,还能理解人的自然语言指令进行抓取和放置,并解释自己为什么这么做。而其背后,就是 OpenAI 为其配置的智能大脑。
Figure 01,最懂你的人形机器人?
得益于 OpenAI 多模态大模型的强大支持,Figure 01 现在可是个桌上物品识别的小能手。苹果、沥水架、水杯和盘子,对它来说都是小菜一碟。饿了,想让它整口吃的,它能秒懂你的心思,麻溜地递上一个苹果。它甚至能一边拣起你丢弃的垃圾,一边跟你解释为啥刚才给了你苹果。在人类的一声令下,Figure 01 还能做家务,收拾餐具,这机器人,简直是家庭生活的最佳伙伴。
综合来看,Figure 01拥有的能力包括:
一、视觉识别和理解。当人类问Figure 01看到了什么,Figure 01回答道:“我看到了桌子中央的盘子上有一个红苹果、一个装满杯子和盘子的晾碗架,以及你站在附近,手放在桌子上。”
二、语言识别和理解。当人类问Figure 01能够吃点什么东西时,Figure 01将桌上的苹果递给了人类,并表示这是“唯一我可以从桌上为你提供的食物”。
三、流畅的任务执行。Figure 01清理桌面垃圾、整理晾碗架的场景。
机器人的速度已经接近人类速度
Figure 的创始人 Brett Adcock 和 AI 团队的负责人 Corey Lynch 在 X 上解释了机器人互动背后的原理。此次的突破,由 OpenAI 与 Figure 共同做出。OpenAI 提供负责提供视觉推理和语言理解,而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作。机器人所做出的所有行为都是出于已经学习过,内化了的能力,而不是来自远程操作。
研究人员将机器人摄像头中的图像输入,和机载麦克风捕获的语音中的文本转录到由 OpenAI 训练的,可以理解图像和文本的多模态模型(VLM)中,由该模型处理对话的整个历史记录,得出语言响应,然后通过文本到语音的方式将其回复给人类。同样的模型,也负责决定在机器人上运行哪些学习的闭环行为来完成给定的命令,将特定的神经网络权重加载到 GPU 上并执行策略。
这也是为什么这个机器人,属于“端到端”的机器人控制。从语言输入开始,模型接管了一切处理,直接输出语言和行为结果,而不是中间输出一些结果,再加载其他程序处理这些结果。Figure 的机载摄像头以 10hz 的频率拍摄图像,然后神经网络以 200hz 输出 24 个自由度动作。Figure 的创始人提到,这代表机器人的速度已经有显著提高,开始接近人类的速度。
人形机器人加快“进厂打工”
值得注意的是,Figure AI近期还与汽车制造商宝马公司签署了一项商业协议,将在汽车制造中部署通用机器人。
在人工智能技术的加持下,人形机器人的智能化水平大幅提升,并加速进入工厂等真实的工作场景当中。梳理发现,已有多家海内外公司将在工厂中引入人形机器人,或已经演示了机器人“进厂打工”的视频。
去年底,美国机器人公司AgilityRobotics宣布,将在俄勒冈州塞勒姆市开设世界上第一座“人形机器人制造工厂”,并且承诺每年将生产1万台智能人形机器人“Digit”,作为“机器人同事”在仓库和工厂内运输和搬运货物。亚马逊在其西雅图郊区的一个配送中心也引入了Digit人形机器人,用于协助员工完成仓库中的搬运工作。