Bsport体育『中国』官方网站-APP下载

咖啡常识 分类>>

大模型“上身”OpenAI能赋予机器人灵魂吗B体育软件

2024-03-27 08:35:47
浏览次数:
返回列表

  3月18日,人工智能芯片龙头英伟达推出多模态人形机器人通用基础模型“Project GR00T”,可以作为机器人的“大脑”,同时还发布了专为人形机器人打造配套SoC(系统级芯片)“Jetson Thor”,可以支持Project GR00T在内的同类生成式AI模型。

  据英伟达创始人黄仁勋介绍,GR00T模型驱动的机器人将能够理解自然语言,并通过观察人类行为来模仿动作、快速学习,以便适应现实世界并与之互动;Jetson Thor芯片的作用则是能够支持机器人执行复杂的任务,并安全、自然地让人和机器交互。

  就在英伟达发布上述新产品的五天前,备受关注的初创AI企业Figure刚刚发布一款能与人类流畅对话的人形机器人“Figure 01”,展示出了远超现有人形机器人水平的人机互动能力。可以说在Figure 01面前,特斯拉的“擎天柱(Optimus)”能自主完成叠衣服的动作已经不是什么值得炫耀的事。

  在Figure发布的演示视频中,Figure 01能够详细描述眼前的事物,包括站在附近、手扶桌面的工作人员,桌面上盛着红色苹果的盘子以及摆放着餐具的沥水架;听到工作人员说想吃东西但并没有其他指示信息的前提下,它抓起苹果并递出。在测试人员要求其一边捡垃圾一边解释为什么要这么做后,Figure 01能在收拾垃圾的同时回应工作人员的问题:“因为这是桌面上唯一的食物”。

  将装着垃圾的框子递给工作人员后,工作人员再次提问剩余餐具应该放到哪,Figure 01称应放入沥水架;最后面对“你能把它们放进去吗”的问题时,Figure 01准确地将杯子、盘子依次放入沥水架,而工作人员并没有提及餐具,也没有提要放至何处,证明了Figure 01具备基于记忆的连续对话能力。

  整个演示过程中,Figure 01 除了有一点点推理的延迟外,整个过程几乎一气呵成,而且动作娴熟又精准,就像是把Chat GPT套了一个身体——事实也的确差不多。

  成立于2022年的Figure是此轮人形机器人热潮中,最为外界所关注的美国初创企业之一,至今的两轮融资涉及资金超7亿美元,投资方更是豪华阵容,包括OpenAB体育软件I、微软、英伟达、三星等。

  实际上OpenAI原本是想收购Figure,且在此之前,OpenAI已投资挪威人形机器人初创企业1X,足见其对通用人形机器人的乐观预期。

  再回到Figure 01身上,它现如今的互动水平具体是如何实现的?Figure创始人Brett Adcock在X上简单提到过,Figure 01取得的惊人进展是“基于OpenAI提供的视觉推理与语言理解能力,以及Figure自身神经网络支撑的快速、灵巧的底层运动能力”。

  换句话说,OpenAI提供的GPT引擎可以让机器人听懂人的语言、识别图片也就是看明白眼前的画面,这是Figure 01的“大脑”。谷歌之前发布的机器人系统RT-1、PaLM-E、RT-2都展示了类似的功能进展,这些机器人模型允许机器人在日常环境中行走,并根据语言和图像模型的输入和输出来计划和执行复杂的动作,但谷歌的演示机器人并没有Figure 01这么健谈。

  另一部分是机器人的动作,它能知道如何轻轻拿起苹果,放到对方手里,也知道如何拿起盘子竖着放到沥水盘中,以及在整个过程中保持自己的平衡……这都是Figure自己的研发成果,包括包括电机、中间件操作系统、传感器、机械结构等硬件工程,相当于Figure 01控制运动的“小脑”。

  为了让GPT和机械运动更好的结合,Figure 01使用了特别训练的“视觉语言策略(visuomotor)”。

  这个策略很好理解:先让机器人的AI大脑看大量的视频,再把视频中的“知识点”内化,然后把学习到的内容映射成一个低级别的动作——也就是发出控制信号,通过各种算法控制身体的每个关节。

  Figure 01之前曾通过观看人类的示范视频,并在10个小时内学会了怎么用胶囊咖啡机泡咖啡。这些用于学习的视频很有可能是第一人称视角拍摄,也可能是3D视频;Figure通过观看视频得到胶囊咖啡机的操作具体步骤,再转化为有时间戳、关节角度序列等内容的动作轨迹(trajectory),最后拆解成低级别动作。

  这就是我们常说的“端到端”的学习过程:自己看自己学,中间没有人工干预。这种基于神经网络的训练与人工编程机器人的效果截然不同。基于神经网络自学的机器人脑子更灵活,能举一反三,比如在咖啡胶囊卡住时,可以纠正自己的错误;如果是编程机器人可能就不知道该怎么解决,毕竟不可能每次卡得角度都一样。

  国内某家工业机器人企业的工程师告诉记者,现在的机器人重点在于大量的视觉训练,和以前靠走逻辑的编程不一样,“逻辑比不上大量的数据资料和强大的运算能力,神经网络训练是把以前的逻辑变成常识,成功率简直倍杀”。

  通过这种视觉语言策略,Figure 01可以在200Hz的频率下输出24自由度的动作。“200Hz”意味着它每秒可以处理10张图像并完成200次动作,而“自由度”则是指Figure手腕和手指关节角度可以在多大程度上进行运动或移动的能力——人类手的自由度通常被描述为有27个自由度,涵盖了手腕、手掌和手指的多方向运动能力。

  可以看到,Figure01在神经网络的加持下,与世界的交互性更强,而最可贵的是,Figure的商业目标B体育软件却要现实的多。

  Figure 01高1.7米、重60kg、可负重20kg,与一个成年人类似,其真正的目标是在仓储制造领域应用,以解决劳动力短缺问题。现在Figure已经跟宝马签单,在今年年底前开启商业化应用。无论是商业化进程还是机器人表现,OpenAI这次押注都走到了特斯拉前面。

  壹零社:用图文、视频记录科技互联网新鲜事、电商生活、云计算、ICT领域、消费电子,商业故事。《中国知网》每周全文收录;中国科技报刊100强;2021年微博百万粉丝俱乐部成员;2022年抖音优质科技内容创作者

搜索

网站地图