用GPT-4训练机器人,英伟达最新Agent开源:任务越复杂越拿手

白交 发自 凹非寺
量子位 | 公众号 QbitAI

训练机器人,AI比人类更拿手!

英伟达最新AI AgentEureka ,用GPT-4生成奖励函数,结果教会机器人完成了三十多个复杂任务。

比如,快速转个笔,打开抽屉和柜子、抛球和接球。

尤其是转笔这个技能,要知道靠人类逐帧制作动画,也是非常困难的。

最终,Eureka在超过80%的任务中都超越人类专家,让机器人平均性能提升到50%以上。

这一研究吸引了数十万网友关注,有人表示:直接快进到它弹钢琴那天,直接为大众所用。


英伟达科学家,也是此次共同作者之一Jim Fan评价到,它是超级人类奖励工程师。它可以辅助机器人工程师设计复杂任务。

目前该项目完全开源。

GPT-4生成奖励策略

在机器人学习中,大模型擅长生成高级语义规划和中级操作,比如拾取和放置(VIMA、RT-1等),但在复杂任务控制方面有所欠缺。

而Eureka的关键所在,就是通过上下文来实现了人类水平的奖励算法设计

简单来说,就是用GPT-4的零样本生成、代码编写以及上下文改进功能,对奖励执行策略进行优化,由此通过强化学习来进行复杂的技能。

研究人员提出了一种混合梯度架构,外循环运行 GPT-4 来细化奖励函数(无梯度),而内循环运行强化学习来训练机器人控制器(基于梯度)。

主要有三个关键组成部分:

  • 模拟器环境代码作为上下文启动初始“种子”奖励函数。

  • GPU上的大规模并行强化学习,可以快速评估大量候选奖励。

  • 奖励反射reward reflection,得益于GPT-4评估和修改能力,一步步迭代。

首先,无需任何特定提示工程和奖励模版。使用原始Isaac Gym (一种GPU加速的物理模拟器)环境代码作为上下文,生成初始奖励函数。

这种无梯度的情境学习方式,可以根据各种形式的人类输入,生成性能更强、符合开发人员愿景的奖励函数。

其次,Eureka在每个进化步骤中都会生成很多候选函数,然后利用强化学习训练来进行快速评估。

以往这种过程需要几天甚至几周来完成,但由Isaac Gym可将模拟时间提高1000倍,强化学习内循环能在几分钟完成。

最后,依赖于奖励反射,Eureka还支持一种新形式的上下文 RLHF。它能够将人类操作员的反馈融入自然语言中,以引导和调整奖励功能。

最终,在29种不同的开源RL环境中,83%基准测试中Eureka都优于人类,并实现了52%改进。

这些环境包括10种不同的机器人形态,比如四足机器人、四旋翼机器人、双足机器人、机械手等。

让研究人员惊讶的是,尤其在处理复杂、高维电机控制的任务上,Eureka表现更好,且与人类奖励的相关性越低。

甚至在少数情况下,AI的策略与人类的策略呈现负相关。

这就有点像当年 AlphaGo的下棋策略,人类看不懂学不会,但十分有效。

英伟达出品

这项研究由英伟达、宾夕法尼亚大学、加州理工学院、德州大学奥斯汀分校的研究人员来完成。

可以看到的是,近半数研究人员都是华人。

一作是Yecheng Jason Ma,目前是宾大GRASP 实验室的四年级博士生,研究方向是强化学习和机器人学习。

英伟达科学家Jim Fan此次也是通讯作者之一。

咳咳,不过至于网友提到的弹钢琴,Jim Fan自己曾分享过:只需几个简单按钮,AI就能实时即兴生成演奏音乐。

不知道,未来会不会这样的呢?(不过,这研究已经是2018年的了)

论文链接:
https://arxiv.org/abs/2310.12931

GitHub链接:
https://github.com/eureka-research/Eureka

参考链接:
https://venturebeat.com/ai/new-nvidia-ai-agent-powered-by-gpt-4-can-train-robots/

https://twitter.com/DrJimFan/status/1715397393842401440

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 



相关推荐

  • 马斯克xAI首个研究成果发布!创始成员杨格&姚班校友共同一作
  • NeurIPS 2023 | 跨模态提示:微调大型预训练模型适应音视频下游任务
  • 数学逻辑和计算机程序代码之间的深层联系:互为镜像
  • ​参数少近一半,性能逼近谷歌Minerva,又一个数学大模型开源了
  • 评论能力强于GPT-4,上交开源13B评估大模型Auto-J
  • 聚焦计算赋能创新,第三届智能计算创新论坛成功举行
  • 有了GPT-4之后,机器人把转笔、盘核桃都学会了
  • 人工智能的第一性原理是什么?
  • Java 21 虚拟线程详解
  • 有哪些值得计算机专业学生加入的国企?
  • 聊一聊我眼中的阿里P8、P9及以上人的水平
  • Github Copilot Chat 公测:已可在 Visual Studio 和 VS Code 中使用
  • 极客时间六周年 • 致用户信 | 极客时间
  • 一夜之间,有价无货!英伟达消费级 RTX 4090显卡遭全面下架,最高售价接近4万
  • B 站广州研发工作室解散;外媒曝光苹果中国区丑闻;OpenAI 被曝已叫停新大模型项目 | Q资讯
  • 开源云开发,有时是个苦差事
  • 无敌到寂寞!Redis进军磁盘存储!
  • 性能定位神器:Arthas
  • 浅谈前端出现率高的设计模式
  • private final、@Autowired、@Resource你更喜欢哪个?