【文末赠书】清华汪玉教授团队:首部高效模型压缩与设计专著重磅上市

🌟今日福利


汪玉 宁雪妃 著

电子工业出版社-博文视点 2024-07-019787121480591 定价: 119.00 元


新书推荐




关于本书



本书系统地介绍了高效模型压缩和模型设计的方法,在编写上兼顾理论和实践。本书主体部分详细介绍了模型压缩的方法论,包括高效模块设计、模型剪枝、模型量化、模型二值化、神经网络架构搜索、知识蒸馏几大部分。另外,简要介绍了定制化硬件加速器的设计及大语言模型的加速和压缩。



关于作者



汪玉,清华大学电子工程系长聘教授、系主任,IEEE Fellow,国家自然科学基金杰出青年基金获得者,清华大学信息科学技术学院副院长,清华大学天津电子信息研究院院长。长期从事智能芯片、高能效电路与系统的研究,曾获得4次国际学术会议最佳论文奖及12次最佳论文提名。曾获CCF科学技术奖技术发明一等奖、国际设计自动化会议40岁以下创新者奖、CCF青竹奖等荣誉。2016年,知识成果转化入股深鉴科技,打造了世界一流的深度学习计算平台;2018年,深鉴科技被业内龙头企业赛灵思(现AMD)收购。2023年,推动成立无问芯穹,形成面向大模型的软硬件联合优化平台,在国内外10余种芯片上实现了业界领先的大模型推理性能。 


宁雪妃,清华大学电子工程系助理研究员。主要研究方向为高效深度学习。支撑深鉴科技、无问芯穹的早期模型压缩和部署工具链工作;参与10余项高效深度学习相关项目;在机器学习、计算机视觉、设计自动化领域发表学术论文40余篇,其中包含在NeurIPS、ICLR、ICML、CVPR、ICCV、ECCV、AAAI、TPAMI上发表的学术论文共20篇;带领团队在NeurIPS18和CVPR20会议上获得国际比赛奖项。



 限时折扣,点击购书  


在大语言模型问世之前,尤其是在ChatGPT出现之前,人们几乎没有认真讨论过“人工智能是否具备自我意识”这个话题。

2024年,由AI驱动的GPT-4o等应用产品爆红。

这些热门产品的广阔应用前景令人振奋,吸引了大量资源投入AI的算法研究、数据清洗、算力等方面的基础建设中。

这些爆款应用是由大数据训练的大模型支撑的。

举例来说,近年来,大语言模型的训练数据和模型的体量迅速增长,从2017年发布的有1.65 亿参数量的Transformer,到2020年发布的有1750亿参数量的GPT-3,再到2022年发布的ChatGPT应用背后的模型也至少有数百亿参数量。

这样的训练数据和模型体量的增长带来了模型能力的提升,让大模型“涌现”出指令跟随、上下文学习等能力,展示出“通用”的生成能力。

有目共睹的是,生成式任务的智能算法模型扩大,对算力的需求急剧增加。

在这个背景下,高效深度学习领域显得尤为关键,得到了广泛关注。

如何将“大”模型(参数量大、计算量大)部署到“小”设备上(资源受限,计算和存储能 力低),同时尽量保持算法性能是各应用领域都非常关心的话题。

实际应用场景关心的硬件性能指标主要包括延时(Latency)、吞吐率(Throughput)、功率(Power)、能耗(Energy)和存储(Storage)。

对这些指标的要求反映出用户体验、场景限制、成本控制多方面的需求。例如:

  • 延时和吞吐率影响了可用性和实时性;

  • 热设计功耗(ThermalDesign Power,TDP,即最大负荷的能量释放)决定硬件冷却系统所需具备的散热能力水平;

  • 能耗和存储均直接影响系统成本,等等。 

为优化这些指标,研究者和工程师探索了多条路径,纵跨不同设计层次,包括算法设计、软件设计、硬件设计。

在硬件层次,根据算法特性定制化地设计硬件架构,其中可能涉及采用新型器件,代表性工作包括基于FPGA和ASIC的专用硬件架构设计、基于存算器件的专用硬件架构设计。

具体来说,这些工作根据神经网络的算法特性(例如,算子类型、数据的复用模式等)或新器件特性(例如,模拟域计算或存储的能力、器件的非理想特性等)设计专门的计算单元、数据流、指令等,从而用更低的能耗完成同样的计算,即达到更高能效(Energy Efficiency)。

在软件层次,开发者需要针对神经网络模型和硬件平台的特性实现计算算子或系统软件,并开发编译优化工具等,例如,编译优化工具可将神经网络计算流图进行优化、切分、映射,从而将其部署到硬件平台,典型工作包括机器学习编译框架TVM等。

在算法层次,轻量化算法设计针对软硬件系统特性调整算法,通过调整神经网络的模型结构、数据表示等降低其计算开销(Computation Cost)、访存开销(Memory Access Cost)和存储开销(Memory Overhead)。计算开销、访存开销和存储开销的降低最终会体现在延时、吞吐率、功率、能耗、存储容量等指标上。

《高效深度学习:模型压缩与设计(全彩)》一书主体部分围绕“轻量化算法设计”这一思路展开,即通过从头设计或通过压缩已有模型得到更高效的轻量化模型。


限时优惠,感兴趣的读者可以点击购买 



福利时间

活动时间:截至7月18日早上10点。

活动方式:添加下方微信好友,备注『LLM』,拉群抽奖在参与的小伙伴中选取3名幸运鹅!


相关推荐

  • 我是真的后悔从国家电网离职了。。
  • MySQL运行在Docker容器中会损失多少性能
  • 语义熵识破LLM幻觉!牛津大学新研究登Nature
  • 全模态杀疯了!一夜刷新37项SOTA
  • 如何将JS对象的所有键名转换为小写?
  • 6700万参数比肩万亿巨兽GPT-4!微软MIT等联手破解Transformer推理密码
  • 中年财务男失业的第154天,被这件事彻底整破防了……
  • 万字图文:促销系统架构设计
  • “Vue 之父”最新采访:我是第一个吃螃蟹的人
  • 基于wujie的解决方案来简单聊聊微前端
  • 前端需要知道的缓存知识总结
  • 饿了么面试官:实现一下 Element-UI 官网的主题切换动画!
  • 即插即用的开源WINDOWS优化工具
  • 快速搭建Linux系统、一键清理Windows系统,两个实用开源项目
  • 基于Neo4j与LangChain实现GraphRAG:具象化理解其关键模块
  • 传统RAG及GraphRAG最佳实践探索及落地中的知识库建设、现实坑点:老刘说NLP技术社区第24、25讲精彩回放
  • 解密字符串的底层结构,它是怎么实现的?
  • 我的 3 个项目
  • 3分钟带你秒懂线程池设计机制
  • Kaggle竞赛Top5分享融合绝学。