GTC 2024 回顾：揭示大模型领域的国内外前沿研究与应用

AI 模型在大模型的推动下，架构在一定程度上得到了统一，解除了任务与算法的强绑定。通用模型可以在相对统一范式下，最大化应用效果。相对统一范式的体现，一般是对模型本身的假设越来越少，换言之，知识密度低，计算密度高。计算密度高很自然地会带来计算效率的挑战。当然，统一范式的趋势不可避免。在知识密度更高的领域，比如科学计算、图机器学习，反而经常遇到范式不统一，导致模型泛化性很难提升的问题。若能在一个端到端的大模型技术栈更好解决计算效率的问题，大模型在后续的落地中将一往无前。

不同层次的效率挑战蒸馏、剪枝、量化，是模型压缩的经典方法，在大模型中应用已经非常广泛，如今需要探索更深层次的优化空间。人们还注意到，大模型的推理机制是自回归模型，这是一种序列推理模式，因此要并行化是比较困难的，在大规模的长序列推理中，需要重点解决算力空闲问题。大模型推理时， token 之间可以基于概率的关联关系，因此模型只是更可能采纳最准确的答案，却有一定的概率跑偏，生成现实中完全不存在的表达，这就是大模型的幻觉来源。大模型的幻觉对于搜索、问答等应用会产生较强的负面影响，而且大模型训练周期长，吸收的知识有较长的停滞时间。
和统一模型一样，通用芯片也面临计算效率的挑战。

所以，解决大模型的计算效率挑战，涉及应用层、模型层、算法层、框架层、编译层、基础设施层等，是一个多层次的工程问题，不同层次之间还会互相影响。

多层次提效在应用层，针对准确性、时效性要求很高的任务，大模型配合 RAG 就能很好地提升表现。在模型层，为了缓解计算密度高的压力，稀疏化策略很好适应了这种需要，它变得越来越受欢迎，如 MoE LLM，将传统稠密模型结构切分为多个称为“专家”的子结构，而满足多种专家能力的需要并维护多个专家模型，相比将所有专家模型融合到一起更加高效。每个专家，负责处理特定的任务或数据子集。因此，稀疏 MoE 技术路线能够大幅降低训练和推理计算量。
稀疏化模型简单有效，不仅是架构，稀疏化范式还可以推广到算子、参数等层面，比如结构化稀疏对卷积等操作进行剪枝，可以生成更小的模型，从而有效加速。此外，为了给大模型推理加速，量化技术也不断演进，比如对权重和激活值采用不同的精度策略，可以保持精确度的同时降低存储空间。在框架层和编译层，统一架构使得底层的图层与算子层更加容易协同和优化。图层与算子层的优化极大提升算子复用与内存占用的压缩，从而加速模型训练与推理。
以大模型为基础，针对不同的任务，将会演化出大量不同的小模型或者计算模式，在基础设施层，也会有越来越多软硬结合的需求，让定制的基础设施匹配最适合的任务，才能最大化提高效率。大模型演化速度如此之快，芯片研发长久以来又是特别耗时和艰难的，要让定制芯片达到提效的目的，其自身演化也必须跟上模型生态演化的速度。为此，采用 AI 来加速其研发，将是很自然的选择。当然目前更加繁荣的，是计算软件层的演化，在算力紧缺的当下，对软件优劣的快速评估将变得十分重要。大模型推理的一大瓶颈是性能与时效的平衡，这在基础设施层面的根本体现，其实不是延时，而是吞吐量。为此，要有效地评估不同计算软件之间的性能差距，吞吐量是更重要的指标。从模型、软件、基础设施上解决了效率难题，企业才能全心投入大模型原生应用层的建设，因为创作型应用特别消耗算力。为何是创作型应用？不仅仅是模型层面，在 token 层面，统一范式下的知识密度也是较低的。在当下的 AI Native 应用中，数据的关系需要大量概率计算，带来了极大不确定性。但反过来看，这其实为创作提供了无限潜能。Sora 模型的演示视频中经常出现的物体融合、分离、渐变与错配，虽然脱离物理现实，但其实就是一种创作机制的体现。企业业务和 UGC 平台对多样性的极致探索，将带来不可估量的算力和能耗需求。可以说，在精确性计算稳定落地之前，多样性计算将率先成就更多新的杀手级应用。

新范式知识密度低和幻觉，其实只是意味着大模型降低了知识的门槛，让高度结构化的知识在弱结构的自然语言序列展开，让创意在 token 生成的分支中无限发散，让更多人能以类似搜索引擎的体验，触及过去难以触及的专业知识。

可以说，大模型塑造了知识表示的新形态，以及知识获取的新范式。

落地案例以上效率优化方向并非空谈，目前都已经有了相关的落地案例和最新技术迭代。3 月 18 日至 21 日 NVIDIA 在圣何塞会议中心举办 GTC 2024 大会，本次大会超过 900 场会议，300 多家参展商展示企业如何部署 NVIDIA 平台，以在航空航天、农业、汽车和运输、云服务、金融服务、医疗和生命科学、制造、零售和电信等各行各业实现重大突破，GTC 为不同技术水平和兴趣领域的参会者提供了丰富的内容。本次 GTC 2024 大会还设置了「China AI Day——LLM 最佳实践和应用会议」线上专场，这是 NVIDIA 为国内 AI 开发者、技术领袖和决策人举办的中文演讲专场，专场共计 13 场系列演讲，包含 RAG、MoE 模型、结构化稀疏、量化、图层优化、AI 定制芯片、吞吐量测评、AI Native 应用等方向的相关技术，都在该会议中呈现！更有观众专属福利放送（详见文末介绍）！本次 China AI Day 线上专场分为四个专题：LLM AI Infra、LLM 云上工具链、LLM 推理及性能优化与 LLM 应用。微信扫描嘉宾海报下方的二维码，即可进入对应议题的观看界面！（ps：如遇页面加载过慢，等待5-10s即可）

LLM AI Infra专题演讲首先带来了全栈的LLM工程技术与实践分享，来自蚂蚁集团和 NVIDIA 的专家们为我们揭秘 NVIDIA 基于 NVIDIA LLM 训练框架、Transformer Engine 上的 FP8 训练以及多精度训练 (MPT) 的能力，针对 LLM 的全栈软件和硬件整体流水线，并展示AI工程在离线训练推理引擎、在线服务、GPU 集群调度与虚拟化、工程智能等多个领域的效率提升之后，如何在大模型时代迎接更加严苛的效率挑战！

在 LLM 云上工具链专题中，针对模型训练中的速度、算力利用率、计算密度等问题，来自阿里云和腾讯云的演讲者们介绍了使用图表示学习进行编译优化的训练加速模式、对大模型关键算子即 attention 计算做更深度的并行优化的成果，以及实现稀疏计算与存储的基于 MoE 的大模型训练工具。在逼近极致性能的同时，最大化资源利用率，并最小化资源需求！

在 LLM 推理及性能分析专题中，来自腾讯科技、美团、微软亚洲研究院和 NVIDIA 的多位技术专家针对模型推理中的速度、成本、易用性和核心指标等挑战，介绍多种新型技术，如：新型的结构化稀疏新算法，这一算法仅需要少量的校准样本便可实现；即插即用的 PyTorch 量化工具 MTPQ，能够实现模型在 GPU 上极致的推理性能；吞吐优先的测试方法，其显著提升了各类 CUDA 应用在 GPU 上的吞吐表现；针对动态稀疏计算的深度学习编译器 PIT，利用置换不变变换，实现高 GPU 利用率和低覆盖浪费。除了性能和效率，企业在工具易用性和评测基准统一上做出了更多努力！

最后，在 LLM 应用专题演讲中，来自百度和 NVIDIA 的演讲嘉宾针对模型应用中的准确率、新场景探索与技术链路等挑战，为我们介绍大模型与企业私有知识与数据相结合的 LLM RAG 范式，其可将准确率从 50% 提升至 81%；大模型深度定制与芯片设计中的领域自适应连续预训练等技术，表明最佳模型的表现明显优于通用基础模型；以及基于生成式 AI 技术实现从营销洞察到创意制作、广告投放到营销经营的全链路闭环。在用户体验、市场挖掘和产品研发上，大模型企业已探索出强大的方法论！

别错过 China AI Day 观众专属福利
3 月 24 日前注册并上线观看 China AI Day 的任一演讲，NVIDIA 会给您发送会后邮件，邮件中附赠 NVIDIA 深度学习培训中心（DLI）公开课 75 折优惠码一张，该优惠码可用于兑换以下任意一门课程。NVIDIA DLI 大语言模型 (LLM)、生成式 AI 系列近期公开课：

4 月 11 日：深度学习基础——理论与实践入门
4 月 25 日：构建基于大语言模型 (LLM) 的应用
5 月 16 日：高效定制大语言模型 (LLM)
5 月 23 日：构建基于扩散模型的生成式 AI 应用
6 月 13 日：构建基于 Transformer 的自然语言处理应用
6 月 27 日：模型并行构建和部署大型神经网络

如何报名与观看 China AI Day？步骤一：点击链接，点击“Add to Schedule”绿色按钮登录/注册账号

https://www.nvidia.cn/gtc-global/sessions/china-ai-day/?ncid=ref-inpa-939997

*微信手机端可点击文末“阅读原文”进入活动页面

步骤二：登录后，跳转到所选演讲的页面即可观看视频

长按识别二维码免费报名立即观看 China AI Day 线上直播

⬇️点击「阅读原文」亦可报名

GTC 2024 回顾：揭示大模型领域的国内外前沿研究与应用

相关推荐