大模型“上身”OpenAI能赋予机器人灵魂吗B体育软件

咖啡常识分类>>

您所在的位置是： Bsport体育『中国』官方网站-APP下载 > 咖啡常识 咖啡常识

大模型“上身”OpenAI能赋予机器人灵魂吗B体育软件

2024-03-27 08:35:47

浏览次数：次

返回列表

　　3月18日，人工智能芯片龙头英伟达推出多模态人形机器人通用基础模型“Project GR00T”，可以作为机器人的“大脑”，同时还发布了专为人形机器人打造配套SoC（系统级芯片）“Jetson Thor”，可以支持Project GR00T在内的同类生成式AI模型。

　　据英伟达创始人黄仁勋介绍，GR00T模型驱动的机器人将能够理解自然语言，并通过观察人类行为来模仿动作、快速学习，以便适应现实世界并与之互动；Jetson Thor芯片的作用则是能够支持机器人执行复杂的任务，并安全、自然地让人和机器交互。

　　就在英伟达发布上述新产品的五天前，备受关注的初创AI企业Figure刚刚发布一款能与人类流畅对话的人形机器人“Figure 01”，展示出了远超现有人形机器人水平的人机互动能力。可以说在Figure 01面前，特斯拉的“擎天柱（Optimus）”能自主完成叠衣服的动作已经不是什么值得炫耀的事。

　　在Figure发布的演示视频中，Figure 01能够详细描述眼前的事物，包括站在附近、手扶桌面的工作人员，桌面上盛着红色苹果的盘子以及摆放着餐具的沥水架；听到工作人员说想吃东西但并没有其他指示信息的前提下，它抓起苹果并递出。在测试人员要求其一边捡垃圾一边解释为什么要这么做后，Figure 01能在收拾垃圾的同时回应工作人员的问题：“因为这是桌面上唯一的食物”。

　　将装着垃圾的框子递给工作人员后，工作人员再次提问剩余餐具应该放到哪，Figure 01称应放入沥水架；最后面对“你能把它们放进去吗”的问题时，Figure 01准确地将杯子、盘子依次放入沥水架，而工作人员并没有提及餐具，也没有提要放至何处，证明了Figure 01具备基于记忆的连续对话能力。

　　整个演示过程中，Figure 01 除了有一点点推理的延迟外，整个过程几乎一气呵成，而且动作娴熟又精准，就像是把Chat GPT套了一个身体——事实也的确差不多。

　　成立于2022年的Figure是此轮人形机器人热潮中，最为外界所关注的美国初创企业之一，至今的两轮融资涉及资金超7亿美元，投资方更是豪华阵容，包括OpenAB体育软件I、微软、英伟达、三星等。

　　实际上OpenAI原本是想收购Figure，且在此之前，OpenAI已投资挪威人形机器人初创企业1X，足见其对通用人形机器人的乐观预期。

　　再回到Figure 01身上，它现如今的互动水平具体是如何实现的？Figure创始人Brett Adcock在X上简单提到过，Figure 01取得的惊人进展是“基于OpenAI提供的视觉推理与语言理解能力，以及Figure自身神经网络支撑的快速、灵巧的底层运动能力”。

　　换句话说，OpenAI提供的GPT引擎可以让机器人听懂人的语言、识别图片也就是看明白眼前的画面，这是Figure 01的“大脑”。谷歌之前发布的机器人系统RT-1、PaLM-E、RT-2都展示了类似的功能进展，这些机器人模型允许机器人在日常环境中行走，并根据语言和图像模型的输入和输出来计划和执行复杂的动作，但谷歌的演示机器人并没有Figure 01这么健谈。

　　另一部分是机器人的动作，它能知道如何轻轻拿起苹果，放到对方手里，也知道如何拿起盘子竖着放到沥水盘中，以及在整个过程中保持自己的平衡……这都是Figure自己的研发成果，包括包括电机、中间件操作系统、传感器、机械结构等硬件工程，相当于Figure 01控制运动的“小脑”。

　　为了让GPT和机械运动更好的结合，Figure 01使用了特别训练的“视觉语言策略（visuomotor）”。

　　这个策略很好理解：先让机器人的AI大脑看大量的视频，再把视频中的“知识点”内化，然后把学习到的内容映射成一个低级别的动作——也就是发出控制信号，通过各种算法控制身体的每个关节。

　　Figure 01之前曾通过观看人类的示范视频，并在10个小时内学会了怎么用胶囊咖啡机泡咖啡。这些用于学习的视频很有可能是第一人称视角拍摄，也可能是3D视频；Figure通过观看视频得到胶囊咖啡机的操作具体步骤，再转化为有时间戳、关节角度序列等内容的动作轨迹（trajectory），最后拆解成低级别动作。

　　这就是我们常说的“端到端”的学习过程：自己看自己学，中间没有人工干预。这种基于神经网络的训练与人工编程机器人的效果截然不同。基于神经网络自学的机器人脑子更灵活，能举一反三，比如在咖啡胶囊卡住时，可以纠正自己的错误；如果是编程机器人可能就不知道该怎么解决，毕竟不可能每次卡得角度都一样。

　　国内某家工业机器人企业的工程师告诉记者，现在的机器人重点在于大量的视觉训练，和以前靠走逻辑的编程不一样，“逻辑比不上大量的数据资料和强大的运算能力，神经网络训练是把以前的逻辑变成常识，成功率简直倍杀”。

　　通过这种视觉语言策略，Figure 01可以在200Hz的频率下输出24自由度的动作。“200Hz”意味着它每秒可以处理10张图像并完成200次动作，而“自由度”则是指Figure手腕和手指关节角度可以在多大程度上进行运动或移动的能力——人类手的自由度通常被描述为有27个自由度，涵盖了手腕、手掌和手指的多方向运动能力。

　　可以看到，Figure01在神经网络的加持下，与世界的交互性更强，而最可贵的是，Figure的商业目标B体育软件却要现实的多。

　　Figure 01高1.7米、重60kg、可负重20kg，与一个成年人类似，其真正的目标是在仓储制造领域应用，以解决劳动力短缺问题。现在Figure已经跟宝马签单，在今年年底前开启商业化应用。无论是商业化进程还是机器人表现，OpenAI这次押注都走到了特斯拉前面。

　　壹零社：用图文、视频记录科技互联网新鲜事、电商生活、云计算、ICT领域、消费电子，商业故事。《中国知网》每周全文收录；中国科技报刊100强；2021年微博百万粉丝俱乐部成员；2022年抖音优质科技内容创作者

上一篇：在殡葬主题咖啡馆和陌生人探讨生命与死亡

下一篇：B体育sports生活小常识四种水放心喝两种水不要碰。收藏起来看看！

Bsport体育『中国』官方网站-APP下载

首页

关于b体育sports

b体育新闻中心

产品展示

留言板

咖啡常识

联系我们

咖啡常识分类>>

大模型“上身”OpenAI能赋予机器人灵魂吗B体育软件

关于b体育sports

b体育新闻中心

产品展示

服务热线：

0898-0898089

咖啡常识 分类>>

大模型“上身”OpenAI能赋予机器人灵魂吗B体育软件

服务热线：

0898-0898089

咖啡常识分类>>