DeepMind 发布 JEST 算法,AI 模型训练耗能降低十倍

作者 | 赵明华

近日,谷歌的人工智能研究实验室 DeepMind 发表了关于训练 AI 模型的新研究——多模态对比学习与联合示例选择 (JEST)。

JEST 算法可以将训练速度和能源效率提高一个数量级。DeepMind 声称,“我们的方法超越了最先进的模型,迭代次数减少了 13 倍,计算量减少了 10 倍。”

论文链接:
https://arxiv.org/pdf/2406.17711

有网友激动地表示:“我没想到它来得这么快。对于模型来说,选择训练数据的能力是很强大的,因为这可以使得训练变得十分容易。你不需要再去猜测什么是高质量的训练数据,因为你有一个专门学习它的模型。”

JEST 算法以一种简单的方式打破了传统的 AI 模型训练技术。典型的训练方法侧重于对单个数据点的学习和训练,而 JEST 则是对整个批次进行训练,优化了数据的整体学习效果。

多模态对比学习能够直接揭示数据之间的交互,通过选择高质量的子批次显著提高训练效率。

  • 多模态数据交互:利用不同模态(图像、文本等)间的相互作用增强数据的表征力。例如,将图像中的对象与其描述文本相匹配,增强模型的理解。

  • 对比目标:最大化相同概念的不同模态表示(如图像和对应文本)之间的相似度,同时最小化不相关模态之间的相似度。通过 sigmoid-contrastive loss 等对比损失函数实现。

  • 学习效率的提升:多模态学习方法使 JEST 算法从数据交互中学习到更复杂的数据表示,提高了学习效率和模型性能。

联合示例选择通过评估数据子批次的整体可学习性,从大批次中选择出最有学习价值的子批次。

  • 可学习性评分:结合当前模型的损失和预训练模型的损失,优先选择当前模型尚未学会但预训练模型已学会的数据。

  • 评分函数:结合预训练模型的易学性评分和当前学习模型的难学性评分,得到综合的可学习性评分。

但是,这个系统完全依赖于其训练数据的质量,如果没有高质量的数据集,引导技术就会分崩离析。对于业余爱好者或者业余 AI 开发者来说,JEST 比其他方法要更难以掌控。

近年来,人工智能技术迅猛发展,大规模语言模型(LLM)如 ChatGPT 的应用日益广泛。然而,这些模型的训练和运行消耗了大量能源。研究称,微软用水量从 2021 年到 22 年飙升了 34%,ChatGPT 每处理 5-50 个提示就会消耗接近半升水。在这样的背景下,JEST 技术的出现显得尤为重要。

参考链接:

https://www.tomshardware.com/tech-industry/artificial-intelligence/google-claims-new-ai-training-tech-is-13-times-faster-and-10-times-more-power-efficient-deepminds-new-jest-optimizes-training-data-for-massive-gains

https://the-decoder.com/google-deepminds-jest-speeds-up-ai-training-by-13x-while-slashing-computing-needs/

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

德国再次拥抱Linux:数万系统从windows迁出,能否避开二十年前的“坑”?

69 岁的 Java 之父退休了!近亿人因他受益

从 AI 高管到犀利 CEO,贾扬清创业这一年:我们的目标是做AI时代的“第一朵云”

下一代 RAG 技术来了!微软正式开源 GraphRAG:大模型行业将迎来新的升级?

相关推荐

  • 1个芯片顶英伟达3个?这个偏爱印度的创始人爆肝8年,终于等来抢英伟达泼天富贵的一天!
  • 都说 RAG “烂大街”了,但为何深度应用寥寥无几?| 直播预告
  • 《中国开发者画像洞察研究报告 2024》报告发布:鸿蒙生态存在百万级人才缺口,潜在新就业岗位超过300万个
  • “我的代码被微软和 OpenAI 抄了,维权后被他们耗了两年”
  • LeCun新作:神经网络在实践中的灵活性到底有多大?
  • 语义熵识破LLM幻觉!牛津大学新研究登Nature
  • 全球首个芯片设计开源大模型诞生!5年重塑5000亿美元半导体行业
  • 全球247亿美元豪赌GenAI,疯狂入局AI成高风险博弈?
  • OpenAI「突拔网线」,国内大厂笑疯!泼天流量来了,微软急伸橄榄枝
  • ACL 2024 | OceanGPT(沧渊):面向海洋科学任务的大型语言模型初探
  • 什么是大模型所需要的知识?人大提出DPA-RAG高效对齐检索器与大模型偏好
  • 快速“水”论文必备:82个即插即用涨点模块!
  • 海外LLM高质量数据集免费送
  • AI时代:企业如何抓住人工智能的黄金机遇?
  • Apache SeaTunnel——OLAP 引擎的数据动脉
  • 数据中心疯狂扩张!谷歌的温室气体排放量在五年内激增48%
  • WOT全球技术创新大会2024优秀出品人&优秀讲师评选揭晓
  • 史上最大规模的被盗密码库流入黑市!近100亿凭证信息让撞库攻击风险飙升
  • 深度解析RAG大模型知识冲突,清华西湖大学港中文联合发布
  • 人人可做提示工程师!Claude上新:一键生成、测试和评估prompt