首个人体动捕基模型面世!SMPLer-X:横扫七大榜单|NeurIPS 2023


  新智元报道  

编辑:LRS 好困
【新智元导读】想要快速制作角色动画,但是没有动捕设备?快来试试SMPLer-X!

人体全身姿态与体型估计(EHPS, Expressive Human Pose and Shape estimation)虽然目前已经取得了非常大研究进展,但当下最先进的方法仍然受限于有限的训练数据集。

最近,来自南洋理工大学S-Lab、商汤科技、上海人工智能实验室、东京大学和IDEA研究院的研究人员首次提出针对人体全身姿态与体型估计任务的动捕大模型SMPLer-X。该工作使用来自不同数据源的多达450万个实例对模型进行训练,在7个关键榜单上均刷新了最佳性能

SMPLer-X除了常见的身体动作捕捉,还能输出面部和手部动作,甚至对体型做出估计。

论文链接:https://arxiv.org/abs/2309.17448

项目主页:https://caizhongang.github.io/projects/SMPLer-X/

凭借大量数据和大型模型,SMPLer-X在各种测试和榜单中表现出强大的性能,即使在没有见过的环境中也具有出色的通用性:

1. 在数据扩展方面,研究人员对32个3D人体数据集进行了系统的评估与分析,为模型训练提供参考;

2. 在模型缩放方面,利用视觉大模型来研究该任务中增大模型参数量带来的性能提升;

3. 通过微调策略可以将SMPLer-X通用大模型转变为专用大模型,使其能够实现进一步的性能提升。

总而言之,SMPLer-X探索了数据缩放与模型缩放(图1),对32个学术数据集进行排名,并在其450万个实例上完成了训练,在7个关键榜单(如AGORA、UBody、EgoBody和EHF)上均刷新了最佳性能。

Figure 1 增大数据量和模型参数量在降低关键榜单(AGORA、UBody、EgoBody、3DPW 和 EHF)的平均主要误差(MPE)方面都是有效的

现有3D人体数据集的泛化性研究


研究人员对32个学术数据集进行了排名:为了衡量每个数据集的性能,需要使用该数据集训练一个模型,并在五个评估数据集上评估模型:AGORA、UBody、EgoBody、3DPW和EHF。

表中还计算了平均主要误差(Mean Primary Error, MPE),以便于在各个数据集之间进行简单比较。

从数据集泛化性研究中得到的启示


从大量数据集的分析(图3)中,可以得出以下四点结论:

1. 关于单一数据集的数据量,10万个实例数量级的数据集用于模型训练可以得到较高的性价比;

2. 关于数据集的采集场景,In-the-wild数据集效果最好,如果只能室内采集,需要避免单一场景以提升训练效果;

3. 关于数据集的采集,数据集排名前三中有两个是生成数据集,生成数据近年来展现出了强大的性能。

4. 关于数据集的标注,伪标签的数据集在训练中也发挥了至关重要的作用。


动捕大模型的训练与微调


当前最先进的方法通常只使用少数几个数据集(例如,MSCOCO、MPII和Human3.6M)进行训练,而这篇文章中探讨使用了更多数据集。

在始终优先考虑排名较高的数据集的前提下使用了四种数据量:作为训练集的5、10、20和32个数据集,总大小为75万、150万、300万和450万实例。

除此之外,研究人员也展示了低成本的微调策略来将通用大模型适应到特定场景。

上表中展示了部分主要测试,如AGORA测试集(表3)、AGORA验证集(表4)、EHF(表5)、UBody(表6)、EgoBody-EgoSet(表7)。此外,研究人员还在ARCTIC和DNA-Rendering两个测试集上评估了动捕大模型的泛化性。研究人员希望SMPLer-X能带来超出算法设计的启发,并为学术社区提供强大的全身人体动捕大模型。代码和预训练模型都已开源,更多详情请访问项目主页:https://caizhongang.github.io/projects/SMPLer-X/

结果展示









参考资料:https://arxiv.org/abs/2309.17448




相关推荐

  • Nature | 全世界1/3博士后每天使用ChatGPT,不用AI工具影响找工作
  • AI智能超越人类终破解!李飞飞高徒新作破圈,5万个合成数据碾压人类示例,备咖啡动作超丝滑
  • 更高清写实的人体生成模型HyperHuman来了,基于隐式结构扩散,刷新多项SOTA
  • 用50多年时间,探索最令人困惑的复杂性理论知识极限
  • 比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了
  • 元乘象Chatimg3.0来了,赶超GPT-4V,还给出产业升级新打法
  • 比亚迪新招30000多名应届生!
  • 北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招
  • 多模态LLM幻觉问题降低30%!业内首个“啄木鸟”免重训方法诞生|中科大
  • 颠覆《时间简史》,霍金的终极理论面世
  • 起底PC新机皇:高通4nm芯片,Arm架构Windows系统,内置Transformer加速,还配了5G和WiFi7
  • 中国AI平台最新格局出炉!百度综合得分第一,第二梯队竞争激烈,大模型加速云厂商进化
  • 不愧是神级Java项目!
  • 老友记扮演者钱德勒去世,心脏骤停
  • 字节员工:房子跌的把我N+1赔偿给亏进去了
  • Contentsquare 使用微服务和 Apache Kafka 来发送通知
  • 2023 年 AI 与开源行业:今年第一篇盘点文章出炉了
  • 头脑正常的人绝不会创业!英伟达 CEO 黄仁勋:如果能够重来,宁愿放弃创办公司
  • 程序员篡改 ETC 余额,一年私吞 260 余万元;语雀公布故障原因及赔偿方案;各家财报发布,创始人们:就很难受|Q资讯
  • 知乎热帖:日常工作娱乐,感觉普通键盘就够用了,有没必要买个几百元的机械键盘,有点仪式感?