01
不同层次的效率挑战蒸馏、剪枝、量化,是模型压缩的经典方法,在大模型中应用已经非常广泛,如今需要探索更深层次的优化空间。人们还注意到,大模型的推理机制是自回归模型,这是一种序列推理模式,因此要并行化是比较困难的,在大规模的长序列推理中,需要重点解决算力空闲问题。大模型推理时, token 之间可以基于概率的关联关系,因此模型只是更可能采纳最准确的答案,却有一定的概率跑偏,生成现实中完全不存在的表达,这就是大模型的幻觉来源。大模型的幻觉对于搜索、问答等应用会产生较强的负面影响,而且大模型训练周期长,吸收的知识有较长的停滞时间。所以,解决大模型的计算效率挑战,涉及应用层、模型层、算法层、框架层、编译层、基础设施层等,是一个多层次的工程问题,不同层次之间还会互相影响。
02
多层次提效在应用层,针对准确性、时效性要求很高的任务,大模型配合 RAG 就能很好地提升表现。在模型层,为了缓解计算密度高的压力,稀疏化策略很好适应了这种需要,它变得越来越受欢迎,如 MoE LLM,将传统稠密模型结构切分为多个称为“专家”的子结构,而满足多种专家能力的需要并维护多个专家模型,相比将所有专家模型融合到一起更加高效。每个专家,负责处理特定的任务或数据子集 。因此,稀疏 MoE 技术路线能够大幅降低训练和推理计算量。03
新范式知识密度低和幻觉,其实只是意味着大模型降低了知识的门槛,让高度结构化的知识在弱结构的自然语言序列展开,让创意在 token 生成的分支中无限发散,让更多人能以类似搜索引擎的体验,触及过去难以触及的专业知识。可以说,大模型塑造了知识表示的新形态,以及知识获取的新范式。
04
落地案例以上效率优化方向并非空谈,目前都已经有了相关的落地案例和最新技术迭代。3 月 18 日至 21 日 NVIDIA 在圣何塞会议中心举办 GTC 2024 大会,本次大会超过 900 场会议,300 多家参展商展示企业如何部署 NVIDIA 平台,以在航空航天、农业、汽车和运输、云服务、金融服务、医疗和生命科学、制造、零售和电信等各行各业实现重大突破,GTC 为不同技术水平和兴趣领域的参会者提供了丰富的内容。本次 GTC 2024 大会还设置了「China AI Day——LLM 最佳实践和应用会议」线上专场,这是 NVIDIA 为国内 AI 开发者、技术领袖和决策人举办的中文演讲专场,专场共计 13 场系列演讲,包含 RAG、MoE 模型、结构化稀疏、量化、图层优化、AI 定制芯片、吞吐量测评、AI Native 应用等方向的相关技术,都在该会议中呈现!更有观众专属福利放送(详见文末介绍)!本次 China AI Day 线上专场分为四个专题:LLM AI Infra、LLM 云上工具链、LLM 推理及性能优化与 LLM 应用。微信扫描嘉宾海报下方的二维码,即可进入对应议题的观看界面!(ps:如遇页面加载过慢,等待5-10s即可)
在 LLM 推理及性能分析专题中,来自腾讯科技、美团、微软亚洲研究院和 NVIDIA 的多位技术专家针对模型推理中的速度、成本、易用性和核心指标等挑战,介绍多种新型技术,如:新型的结构化稀疏新算法,这一算法仅需要少量的校准样本便可实现;即插即用的 PyTorch 量化工具 MTPQ,能够实现模型在 GPU 上极致的推理性能;吞吐优先的测试方法,其显著提升了各类 CUDA 应用在 GPU 上的吞吐表现;针对动态稀疏计算的深度学习编译器 PIT,利用置换不变变换,实现高 GPU 利用率和低覆盖浪费。除了性能和效率,企业在工具易用性和评测基准统一上做出了更多努力!
05
别错过 China AI Day 观众专属福利4 月 11 日:深度学习基础——理论与实践入门
4 月 25 日:构建基于大语言模型 (LLM) 的应用
5 月 16 日:高效定制大语言模型 (LLM)
5 月 23 日:构建基于扩散模型的生成式 AI 应用
6 月 13 日:构建基于 Transformer 的自然语言处理应用
6 月 27 日:模型并行构建和部署大型神经网络
06
如何报名与观看 China AI Day?步骤一:点击链接,点击“Add to Schedule”绿色按钮登录/注册账号https://www.nvidia.cn/gtc-global/sessions/china-ai-day/?ncid=ref-inpa-939997
*微信手机端可点击文末“阅读原文”进入活动页面
步骤二:登录后,跳转到所选演讲的页面即可观看视频 长按识别二维码免费报名立即观看 China AI Day 线上直播⬇️点击「阅读原文」亦可报名