前沿开源技术领域解读——开源AI

近日,OSCHINA 和 Gitee 联合发布了《2022 中国开源开发者报告》

其中 “前沿开源技术领域解读” 部分,多位在其领域有所建树的一线开发者和开源商业化公司创始人,对目前国内外流行的前沿开源技术领域过去的发展和未来的趋势进行了深入的洞察,覆盖开源云原生、开源 AI、开源大前端、开源大数据、开源 DevOps、RISC-V、开源操作系统、开源数据库、编程语言九大领域。

本篇为开源 AI 领域的解读。


开源支撑着 AI 的创新与发展,使得 AI 标准化和规模化趋势开始成型。2022 年,AI 产业化进程持续推进,“AI 标准化”“可信 AI”“多样性算力”等话题备受业界关注。此外,Stable DIffusion、ChatGPT 先后掀起的热潮,不禁令人思考,随着 AI 内容生成技术的成熟,AI 技术的普惠化要来了吗?



PyTorch 有望成为 AI 工业界默认标准


这对全球 AI 工业界和学术界而言是一件好事。

首先,PyTorch 的长期投入不再依赖 Meta 一家公司。之前,PyTorch 虽然颇为流行,但对于是否要采纳它,工业界还存在一定的顾虑。因为在开源历史上,Meta 的弃坑行为比较多,比如弃掉 PHP 而投资 Hack 等,Meta 不再持续投入 PyTorch 的可能性始终存在。现在 Meta 把 PyTorch 捐献给了 Linux 基金会,几个大公司都纷纷投资,PyTorch 的长期投入有了一定的保证。

其次,PyTorch 的社区中立性得到了保证。成立中立的开源基金会来发展 PyTorch,从根本上避免了厂商锁定。PyTorch 的知识产权已经脱离了 Meta,属于 PyTorch 基金会,如此一来,各厂商都可以在比较公平的基础上进行竞争和合作。

最后,Linux 基金会具备成熟的社区治理和社区运营经验,这将帮助 PyTorch 得到更广泛的应用和更好的发展。

PyTorch 基金会的成立,将给 PyTorch 带来更广泛的影响力和更广阔的想象空间,甚至有望成为类似 K8S 一样的工业界默认标准。随之而来的是,国内的几大机器学习框架的生存空间受到更大的挤压,迎来了更大的挑战。是不是可以采取一些类似的竞和手段来避免重复投入?这也是我作为国内 AI 从事者希望看到的。

谭中意

第四范式架构师,LF AI & Data TAC 成员,PaddlePaddle 首部官方中文书作者,星策社区发起人。



开源推动 AI 标准化和规模化应用


开源吞噬软件 1.0,“开源 AI ”运动也正在席卷以数据驱动编程为特点的软件 2.0 时代。

从框架开源,数据集、算法开源,再到模型开源,开源极大推动了 AI 在技术、应用等方面的发展。比如,基于开源社区的孵化,2022 年最火热的 Stable Diffusion 模型在不到两个月的时间便流行开来,国内企业和研究机构也迅速跟进,比如 OneFlow 将 Stable Diffusion 的图片生成速度加速到 1 秒以内,IDEA 和智源研究院分别发布了中文版的 Stable Diffusion 和支持多种不同语言的 AltDiffusion。

更重要的是,开源模式使得 AI 标准化和规模化趋势开始成型,从算法的标准化开始,带来了软件标准化的机会,而硬件、技术平台、最佳实践也在标准化。

在 AI 算法模型方面,数据驱动人工智能的算法统一为神经网络,完成了算法的标准化。其中,Transformer 的发展呈现了统一深度学习算法的苗头,而依靠 Transformers 库起家的 HuggingFace 平台已发布超 10 万个开源预训练模型,大大降低了用户使用门槛,而当 AI 模型足够多时会进一步标准化,进而推动 AI 产业化进程。

在开源深度学习框架层面,API 接口正在标准化。其他框架的 API 设计都在学习 PyTorch。而在分布式编程方面,PyTorch 等其他框架的分布式编程接口也参考了 OneFlow 的 Global Tensor、SBP 的设计思路,这也彰显了国产框架的创新性和影响力。

硬件层面,虽然芯片市场打得如火如荼,但 API 设计层面也越来越类似。多数硬件厂商 API 的设计会参考英伟达的软件接口。图编译器层面也有一些通用组件出现,比如 MLIR,越来越多项目开始基于 MLIR 来构建深度学习编译器。

随着深度学习框架和硬件在内的基础设施的标准化,基础平台方面已经出现了 K8S、Docker 这些越来越标准化的解法,有的企业需要弹性扩容,有的需要私有云部署,有的需要扩容到公有云等,这需要多云的支持。通过提炼最佳实践提炼,形成了 MLOps 产品,而这正是工作流程标准化和平台标准化的体现,这也是今年 AI 领域最热门的趋势之一。

开源打破了很多技术壁垒,从框架开源到模型开源,必将进一步推动软件 2.0 时代 AI 技术的普惠化。未来,任何一家传统企业即使没有专业的 AI 科学家,借助这些开源工具和模型也能获得 AI 的能力。

袁进辉

一流科技 CEO & 创始人,兼任之江实验室天枢开源开放人工智能平台架构师、北京智源研究院大模型技术委员会委员。


2022 AI 领域发展关键词


2022 年,回顾 AI 技术发展,有几个关键词值得我们关注。

Stable Diffusion:

在 AI 图片生成领域,没有其他技术比得上今年 8 月份横空出世的 Stable Diffusion 带来的影响力更大了。对比 DALL-E 2、Imagen 等目前主流技术,Stable DIffusion 最大的意义在于其可以运行于消费级显卡上,运行速度可以达到秒级(在 OneFlow 框架优化下,使用 A100 GPU,运行速度可以达到50it/s 以上),并完全开源,这意味着普通公众用户或内容创作者可以接触并频繁使用该技术,感受 AI 内容生成技术带来的巨大便利性。高质量出图效果,加上友好的开源协议,以及广泛的用户,让 Stable Diffusion 成为火出圈的代表性 AI 技术。

可信 AI :

随着 AI 技术广泛应用,其安全风险已经逐渐出现,主要问题集中在以下几个方面:

1)算法脆弱,导致易受攻击;

2)倾向性数据造成不公平性,难以满足道德伦理需求;

3)黑盒算法,缺乏可解释性;

4)数据隐私要求,导致数据孤岛,阻碍 AI 发展。

各国家和组织都非常重视 AI 应用的安全性,人们在享受 AI 技术带来的效率提升红利的同时,也要避免技术自身缺陷带来负面影响。因此,可信 AI 概念也被突出,其价值在于打破数据孤岛,构建安全、透明和合乎伦理道德的 AI 技术。今年我国首个隐私计算开源社区 OpenIslands 成功创建,吸引 40 多家单位参与,推动了高效算力网络、数据隐私计算、联邦学习等技术快速发展。

AI 芯片:

随着美国对我国最新一轮制裁政策,AI 芯片在年底也成为关注对象。高性能芯片如 H100 已经直接断供。不过这也意味着我国国产 AI 芯片产业有了新的发展机遇。近年来,国外众多 AI 芯片 startup 公司将芯片架构放在了空间计算上。其理论依据在于,AI 芯片运行的功耗已经有很大的比例是消耗在数据执行计算期间的搬运过程,而空间计算架构可以有效降低每次操作数据在芯片内的移动距离,从而大幅降低芯片功耗,以实现 AI 产业绿色可持续发展。

目前业界如 TensTorrent、GraphCore 等多家采用空间计算架构的公司吸引了众多投资人,其产品成熟度也在不断提高,我国芯片业目前在空间计算领域还缺少落地产品。另外,根据 AI 计算的稀疏性特点来设计加速计算的特定硬件电路,也是未来 AI 芯片的一个趋势,今年墨芯 Antonum 芯片在稀疏化模型加速领域取得进展,出色地平衡各类模型精度与算力的关系,软硬件协同优化,在 MLPerf 榜单上取得惊人的 benchmark 成绩。空间计算和稀疏化加速可以快速提升芯片能效比,在当前芯片制程受限情况下,可能成为国产芯片发展的重要潜力技术。

刘涛

中兴通讯股份有限公司资深算法专家,曾任无线研究院技术教练,当前主要研究领域为 AI 模型并行训练,模型推理优化,高性能计算,异构硬件模型部署等技术,取得多项专利,也是 Adlik 开源项目首席架构师,目前担任 AI 预研项目经理。

更多内容请查看《2022 中国开源开发者报告》https://gitee.com/report/china-open-source-2022/


查看《2022 中国开源开发者报告》

相关推荐

  • 全球开源技术峰会,优质议题征集
  • 第一位计算机科学博士诞生 | 历史上的今天
  • 工程师“魔改” AirPods Pro 接口,苹果“妥协”将成大势所趋?
  • 尴尬!谷歌版 ChatGPT 全球首秀“大翻车”,市值狂跌 7000 亿
  • 全球爆红的 ChatGPT 是如何诞生的?| 《架构师》二月刊开放下载
  • Tech Lead如何成为团队协作间的“润滑剂”?| ArchSummit
  • 男子刚领证7天被妻子打进医院;韩国申报的文化遗产来自日本;男子花35万找人跟妻子结婚;抖音即将上线外卖服务......|酷玩日爆
  • CTO 说了,用错 @Autowired 和 @Resource 的人可以领盒饭了
  • Hinton努力推翻自己积累了30年的学术成果,我才知道什么叫生命力!
  • 广西人怎么背着我们建了「疯狂动物城」
  • 2023,音视频技术将如何发展?| Q推荐
  • Node.js应用全链路追踪技术——全链路信息存储
  • 他好像以为他很坏 | 每日一冷
  • ChatGPT 冲击下,特斯拉曾留不住的 AI 大牛,再次回归 OpenAI !
  • 今日公开课|金三银四,面试必问的数据库索引及优化技巧
  • 首篇ChatGPT辅助写作的论文,已在arXiv发表!
  • 揭秘ChatGPT之父:16岁出柜、斯坦福辍学,却造就人工智能里程碑
  • 比跑鞋软,比凉鞋凉,雨天“淋不湿”的空调鞋,舒服到起飞,一口气买了三双。
  • 2023年,技术圈还需要个人英雄主义吗?
  • Observable设计模式简介