无须英伟达,AMD本地可跑CUDA?惊现极客团队开发三方编程工具包,网友群议指责AMD无作为:已经晚了,CUDA已经是事实标准了



编辑 | 言征
为了缓解“英伟达”焦虑,市场上浮现出了不可思议的事情。 就在今天,一个“可以让AMD GPUs上跑CUDA的编程工具包”不胫而走,引起业界的注意。


AMD GPU 可以本地跑英伟达的CUDA?
不需要修改 CUDA 程序,也不需要构建系统,通过一个编程工具包,就可以把CUDA应用程序进行AMD GPU的本地编译。这个工具包就是Spectral Compute推出的SCALE。
关键是,SCALE的制作方还是个“AI芯片大一统的野心家”,表示:“当然,AMD 只是开始,对更多 GPU 供应商和 CUDA API 的支持正在开发中。”
据介绍,SACALE有以下几个部分组成:一个nvcc兼容编译器,能够为 AMD GPU 编译 nvcc-dialect CUDA,包括 PTX asm;针对 AMD GPU 的 CUDA 运行时和驱动程序 API 的实现;开源包装器库通过委托给相应的 ROCm 库来提供“CUDA-X”API。这就是和等库的cuBLAS处理cuSOLVER方式。
测试了哪些项目?
SCALE 团队通过编译开源 CUDA 项目并运行其测试来验证 SCALE。并且完全通过的开原项目包括:NVIDIA Thrust、Blender Cycles、AMGX、llama-cpp、stdgpu等。


目前支持哪些 GPU?据介绍,AMD gfx1030(Navi 21、RDNA 2.0)、AMD gfx1100(Navi 31、RDNA 3.0)已经通过测试,AMDgfx1010、AMDgfx1101临时测试后似乎有效。





那么SCALE是如何做到的?
市面上有不少跨平台的GPGPU解决方案,比如受到英伟达官方支持的HIP方案,可以避免使用CUDA的模糊功能(如内联PTX)的代码,而AMD自己,本身就有一种转换工具:hipfy,可以将CUDA代码转换为hip。
那么与其他跨平台 GPGPU 解决方案相比,SCALE 有几个关键创新:
  • SCALE 接受原样的 CUDA 程序。无需将它们移植到其他语言。即使您的程序使用内联 PTX 也是如此asm。
  • SCALE 编译器接受与 相同的命令行选项和 CUDA 方言nvcc,可作为替代品。
  • “模拟” NVIDIA CUDA 工具包的安装,因此现有的构建工具和脚本就可以cmake正常工作。

当然在某些领域,SCALE对NVIDIA CUDA中某些功能的实现也有不同的行为。比如,SCALE尚不支持每个线程的默认流行为,虽然这不会破坏程序,但可能会降低性能。而在NVIDIA GPU上运行时,则有一种也会略微提高程序性能的解决方法:即显式使用非阻塞CUDA流,而不是依赖于隐式CUDA流。
整体上看,与其他方案有这些不同:
(1)SCALE并不提供编写 GPGPU 软件的新方法,而是允许使用广受欢迎的 CUDA 语言编写的程序直接为 AMD GPU 进行编译。
(2)SCALE 旨在与 NVIDIA CUDA 完全兼容。我们认为用户不必维护多个代码库或牺牲性能来支持多个 GPU 供应商。
(3)SCALE 的语言是NVIDIA CUDA 的超集,它提供了一些可选的 语言扩展 ,可以让那些希望摆脱的用户更轻松、更高效地编写 GPU 代码nvcc。
当然,SCALE 尚在开发中。可能会缺少部分 API 而导致无法使用 ,不过团队会根据用户提的需求加速开发。
教程文档很详细:https://docs.scale-lang.com/




神奇的极客团队
Specrtral Compute 是一个致力于加速GPGPU和HPC工作负载的全球团队,这个团队很神奇。小编翻了一下他们官网,可谓是一群AI极客的玩法。
官网显示,他们推出了一种1秒内向全球传送视频的直播解决方案,还针对高吞吐量的GPU加速应用程序后台和低延迟CPU执行进行优化,推出了最快的正则表达式引擎,而且性能不受影响;此外,这个团队队员还擅长优化你在用AI软件,使其要么跑得更快,要么服务免费。




万能的网友:为什么不是AMD?但代替不了英伟达
首先,一部分人争议的焦点是“怒AMD不争”——“如果AMD采取任何行动就好了,支持这个,任何一项都会话费几百万美元,但对AMD股东来说却价值一万亿美元。”
然而也有人认为AMD正在努力,正如上文提到的HIP解决方案。
然而,也有部分网友认为如果AMD支持这样的编程工具或者转换层,会是一个坏主意。
据悉,CUDA 的设计并不与供应商无关,而 Nvidia 可以在技术和法律上任意制造困难。“我认为在此上运行 cuDNN 或 cuBLAS 违反了许可协议。因此,这些和其他 Nvidia 库将成为 AMD 需要重新实现和支持的 API 边界的一部分。”
“追求 bug-for-bug 兼容性是愚蠢的行为。CUDA 的重要用户是开源。AMD 可以直接在上游项目(如 pytorch 或 llama.cpp)中实现支持。一旦获得支持,社区就可以对其进行维护。”




指责 AMD 而不是 Nvidia,这很奇怪吗?
事实并非如此。
一位网友已经被CUDA征服了,“即便AMD有一些努力,我也不相信 HIP 或 RocM 是 Cuda 的可行替代品。”
George Hotz 做了很多工作,试图将各种 ML 架构移植到 AMD,并遇到了无数的驱动程序错误。问题不在于英伟达不会构建开放平台——问题在于 AMD 不会投资竞争平台。
即使 CUDA 是开放的, 你是否希望 nvidia 也为 AMD 编写驱动程序?我不相信第三方会编写“兼容层”,因为 AMD 自己的 GPU 并未针对类似 CUDA 的工作负载进行优化或测试。
99%的ML工程师不会写CUDA
99% 的 ML 工程师不会编写 CUDA。一位业内人士表示,对于绝大多数工作负载,Meta 可能有 20 名工程师为 Pytorch 编写 Cuda 后端,其他每个工程师都会使用。Meta 可以再雇佣 20 名工程师来支持 AMD 拥有的一切(他们确实这样做了,但它不如 CUDA 那么强大)。
真正擅长CUDA的工程师是金子一样的贵,所以他们能做的项目远远超出了自己的精力和时间。甚至又网友爆料称:自己认识一位CUDA工程师配有一个滑雪屋,价值超过180镑黄金(约532万美元)。
也有人延伸出了对现有芯片编程的建议,希望赶紧加入互操作性,开发人员太需要互操作性技术了。互操作性技术可以帮助目前仅支持NVIDIA GPU的软件在未来快速添加对Intel和AMD GPU的支持。
写在最后:英伟达的CUDA已经成为事实上的标准
作为 NVIDIA 发明的一种并行计算平台和编程模型,CUDA已经凭借大模型时代成功完成了蝶变,目前基于 CUDA 的 GPU 销量已经达到无法完全统计,软件开发商、科学家以及研究人员正在各个领域中运用 CUDA。


Nvidia 付出了巨大的努力,也获得了丰厚的回报。他们与实际使用其产品的人密切合作,资助开发并为研究人员、教师等提供大量支持,迄今已有十年之久。正如网友评论的:“ 即使 AMD 推出了各方面都更好的 CUDA 版本,它仍然不会被采用,因为 CUDA 已经成为标准。” “AMD 开始真正尝试的最佳时机是 10 年前;第二佳时机是今天。”

——好文推荐——

生成式AI 落地文旅,还能玩出多少新花样?

恒生电子首席科学家白硕:长文本和多模态是生成式AI落地金融的两大利器

相关推荐

  • 神经网络架构「殊途同归」?ICML 2024论文:模型不同,但学习内容相同
  • VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格
  • Claude 3.5核心编码prompt揭秘,全网码农沸腾!四步调教法,最新V2版放出
  • 一枚「弃子」打破80年黎曼猜想纪录!菲尔兹奖得主MIT大拿联手,陶哲轩转赞
  • 提升准确率召回率的创新风控策略与算法
  • 图技术在金融反欺诈中的应用
  • 火山引擎基于 DataLeap 的电商指标管理实践
  • 抛弃视觉编码器,这个「原生版」多模态大模型也能媲美主流方法
  • 谷歌机器人专家:机器人在现实中碰过的壁,AI也会碰
  • 公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4
  • 太酷了!iPhone、iPad、MacBook老旧设备组成异构集群,能跑Llama 3
  • 全程免费!「真格星球AI+创业营」与十数位大咖导师一道,碰撞AI灵感、寻找落地商机
  • [Pnetlab实战演练]手把手教你配置华为防火墙的Telnet远程访问!
  • 从草稿到样品图,只需要一步AI|AI产品测评
  • 大模型“玩”Excel更6了,微软搞的
  • 初创公司硬刚英伟达:在AMD卡上模拟CUDA,原版程序直接编译运行
  • 大模型集体失智!9.11和9.9哪个大,几乎全翻车了
  • 《隐秘的角落》的“朱朝阳”,考上了双一流大学!
  • 因博士论文数据造假,她被撤销学位后还丢掉了教职!
  • 90个顶会开源NeRF创新思路!