大模型带动算力需求激增,AI基础设施如何应对新挑战?

大模型时代,企业对算力的需求激增,然而模型的训练不仅仅是堆算力就可以解决所有问题,如何保障大模型训练的稳定性和效率,对AI基础设施提出了挑战。

百度智能云《智能云知道》&CSDN系列对话栏目上线,首期邀请面壁智能副总裁缪钧玮、百度智能云泛科技行业解决方案总经理康盛,分享对于大模型核心技术与底层基础设施算力的经验与实践。


AI 从单体智能到群体智能

对底层基础设施提出挑战

大模型正掀起新一轮智能化热潮,面壁智能副总裁缪钧玮看来,大模型代表着迈向通用人工智能的重要进展。具体来说,大模型可以像人类个人助理那样,理解任务、制定计划、最终完成工作。未来人类能够做到的事情,大模型都有可能实现。不过,人工智能要真正服务于社会,就必须融入各行各业,而不是局限于实验室的研究。当前大模型技术虽然还不成熟,但已经展现出在实际场景中快速取得进展的可能。

具体来说,目前大模型已达到的能力大致可分为助手型与专家型两类。例如大模型在文档编写、客户服务、产品设计等领域可以担任虚拟助手,辅助人类完成重复性强、劳动密集型的工作,提升办公效率。另外,通过训练,大模型已经可以在特定领域扮演专家角色,提供智能咨询和决策支持。更远的未来,大模型还将从单体智能走向群体智能的演变。不过要实现大模型从单体到群体、从理性到感性的飞跃,仍需要解决许多技术难题。其中最关键的就是计算资源和基础设施对大模型的支撑。

目前主流的大模型都是建立在巨大的参数量和运算量之上,对算力提出了极高要求。随着模型规模指数级增长,训练一个模型不仅需要大量 GPU 服务器,也依赖高速网络进行交换通信。仅靠增加算力投入是不可持续的,必须从模型压缩、知识蒸馏、多任务学习等方面入手,以提高计算效率。此外,构建健壮的模型服务系统也是一个巨大的系统工程。需要从芯片、框架、模型到应用的全链路来进行优化,保证大规模模型稳定高效地运行。计算资源管理、异构环境调度、故障容错等方面的能力都极为关键。


百度智能云

全栈自研与调优的 AI 基础设施

百度智能云泛科技行业解决方案总经理康盛介绍,百度投入人工智能已经超过 10 年,在芯片、框架、模型、应用四层有全栈布局,在关键核心技术攻坚上,四层架构都有自主研发的领先产品和技术,因此可以进行端到端的优化,迅速提升大模型训练和推理的效率。

对于 AI 基础设施的挑战,从底层到上层看,构建和应用大模型面临基础设施、框架、模型、应用等多方面挑战。要从零做起,难度和成本都非常大。针对这一现状,百度智能云推出了一站式企业级大模型平台——百度智能云千帆,提供先进的生成式AI生产及应用全流程开发工具链。平台上不仅涵盖文心大模型,还聚合了业界众多主流的预训练模型,同时也在吸纳更多领先机构的模型,比如已进行了与面壁智能的模型对接。通过平台化赋能,百度智能云希望可以帮助企业和开发者高效利用大模型技术,快速进行产品研发和创新应用。

具体来说,在模型训练过程中,通过任务并行、数据并行、模型并行、流水线并行等策略,实现资源利用效率最大化,另外通过自研的异构集合通信库 ECCL,支持多种芯片协同工作,进行故障感知和容错处理,确保训练效率。

可以说,百度智能云在大模型训练的资源调度、并行策略、基础通信等方面进行了深入的系统优化,构建了一整套行之有效的解决方案,为大模型提供了坚实基础支撑,确保大模型运行的稳定与高效。


百度智能云+面壁智能

加速千行百业 AI 开发

AI 从单体智能走向群体智能,从科研走向千行百业,还需要深化大模型与实际业务场景的结合。从实际应用情况看,康盛提到企业用户主要有几类:

一是有算法实力的企业如面壁智能,可以自主训练大模型,但面临工程化挑战,需要高性能的 GPU 集群、高速互联网络,还需解决训练和推理优化等问题。二是希望以最优的人力和成本、直接使用现有大模型的企业。三是拥有行业和企业内部数据,基于现有大模型进行二次开发构建行业定制化模型。四是需要基于大模型服务完成AI原生应用快速开发。最后,是希望能直接、方便地选购成熟的AI原生应用产品,来赋能企业业务发展。而以上提及的企业落地大模型的五类需求,在百度智能云基于千帆大模型平台打造的“大模型超级工厂”中都分别给出了最佳服务方案。

作为国内技术领先的人工智能大模型公司,面壁智能会将模型托管在百度智能云千帆大模型平台,以降低运维和研发成本,从而将精力集中在基座模型科研,以及模型安全性、行业模型、API 开发等大模型重要的技术方向上。百度智能云为面壁智能提供 GPU 集群、高速存储、网络等底层支撑,并通过各种并行策略进行资源调度优化,确保模型高效稳定训练。同时,也会在模型推理服务方面进行协作,实现推理性能的优化。

节目完整视频,欢迎点击观看:

AI 的发展瞬息万变,我们能看到,百度智能云与面壁智能这种开放合作的模式,将加速大模型在千行百业的应用与普及。百度智能云《智能云知道》&CSDN 系列对话栏目也将继续走进大模型在各行业的落地与最佳实践,敬请持续关注。

大模型时代,如何利用“算力”和“智力”构建超强AI基础设施也成为企业重点关注的议题,2023年10月26日,生态共创与技术交流沙龙将在北京举办,诚邀您现场参会加入到“智力”与“算力”的共创浪潮中。扫描下方二维码立即报名↓

戳【阅读原文】,观看更多大模型最佳实践

相关推荐

  • 1024 程序员节全体大会官宣:院士、技术英雄齐聚,看开源如何启动 AI 新纪元!
  • 你创业的层级决定利润的天花板
  • 【美团】异步加载 JS 脚本时,async 与 defer 有何区别
  • 也看引入自我反思的大模型RAG检索增强生成框架:SELF-RAG的数据构造及基本实现思路
  • Character AI:如何把LLM变成人类想象力引擎?
  • 清华版「AutoGPT」开源,通用智能体XAgent,各种任务都能做
  • 1020.AI日报:DALL·E 3正式上线ChatGPT Plus和企业版
  • 刷到这个“没有译制片腔调的翻译”视频了么?AI可以解决!
  • 突发!美国升级对华芯片出口禁令
  • 前阿里员工坦言:32岁,我的职业生涯要结束了
  • DALL·E 3正式上线ChatGPT;智谱AI今年已融资25亿元;科大讯飞回应美国AI芯片出口管制丨AIGC大事日报
  • 千亿视讯市场:智慧物联巨头大华股份增长新引擎?
  • AI服务器缺货真相调查:两天涨价30万,连“味精大王”都入场了
  • 研发日常踩坑-Mysql分页数据重复
  • 开发者的“贴身伴侣”
  • MySQL到TiDB:Hive Metastore横向扩展之路
  • ZGC关键技术分析
  • AlmaLinux不使用 “红帽代码”,如何保持兼容RHEL
  • 头哥对谈厉启鹏:开源技术的应用和商业价值分析
  • Mojo登陆Mac,比Python快90,000倍