新智元报道
编辑:weweROBOTIS OP3机器人平台
研究人员采用ROBOTIS OP3机器人平台,这款微型仿人机器人经济实惠,拥有20个可控关节,其灵活性足以应对复杂的足球动作。在训练中,机器人仅依靠板载传感器如关节位置加速计和陀螺仪来感知环境,并通过板载计算机计算目标关节角度,实现精准的动作执行。为了确保机器人能够实时掌握球场动态,研究团队还使用了实时运动捕捉系统,实时监测两个机器人和球的位置。简化足球比赛验证技能与策略
为了测试这些技能的实战效果,研究人员精心设计了一场简化的单对单足球比赛。在这个竞技场上,两位「选手」——两台仿人足球机器人,展开了激烈的较量。球赛的规则为:进球者获得奖励,过于靠近对手则会受到惩罚。这种巧妙的游戏设定,使得机器人能够在不断试错中,逐步学会如何在激烈的对抗中保持优势。Teacher策略提炼与Student策略集成
在训练过程中,研究人员采用了分布式MPO这一非策略强化学习算法,对机器人进行了多阶段的仿真训练。他们首先训练了两个teacher策略,分别负责站立和射门,随后通过KL正则化方法将这两个策略融合,形成一个student策略。随着训练的深入,正则化逐渐减弱,最终行为得以自由优化任务奖励。实战表现展现高层次战略意识
经过这一系列训练,机器人展现出了令人惊叹的足球技能。它们不仅能够快速起身和行走,还能在比赛中灵活应对各种情况,如拒绝干扰、从跌倒中恢复、快速转身射门和拦截移动中的球。更令人惊讶的是,它们还表现出了高水平的战略行为。比如,机器人会巧妙地利用位置优势,防御性地阻挡对手的射门,展现出与真实球员不相上下的竞技水平。参考资料:https://www.science.org/doi/10.1126/scirobotics.adi8022https://sites.google.com/view/op3-soccerhttps://twitter.com/SciRobotics/status/1778124563001336155