算力和数据问题着实让很多开发人员困扰,尤其在大模型背景下,日益庞大的数据、算力需求和有限的预算形成鲜明的矛盾。此处来分享两个方案的思路,希望有所启发。
>> 破解计算机视觉的数据集问题:AIGC合成数据生成方案
基于 NVIDIA Omniverse™ Replicator 进行合成数据生成
平台软件:如果想尝试SDG技术,赞奇科技推荐用户使用NVIDIA Omniverse™ Replicator的方案。Omniverse Replicator 是 NVIDIA Omniverse 平台中的一个扩展应用,然后再结合其它的 Python 工具,我们可以在 Omniverse Replicator 通过改变参数,例如灯光、镜头、位置等,来生成不同的数据集,再使用 Jupyter 等进行数据清洗。
硬件算力:至于 Omniverse Replicator 所需的硬件配置,建议使用搭载了NVIDIA RTX™ A4000(显存16GB)及以上专业显卡的工作站,这个工作对显卡的显存有一定的要求,否则极容易出现卡顿和运行缓慢的情况。
NVIDIA RTX A4000 GPU(图片来源于NVIDIA)
如果目前没有这个级别的显卡或者还没打算入手的小伙伴,也可以和上面提到的培训活动一样,在赞奇云工作站上跑 Omniverse Replicator 和其他的开发工具,这样我们可以直接使用云端 NVIDIA RTX A4000 GPU 的算力方案来做训练,对于成本有限或项目制工作的开发人员来说是一种非常友好的方案。
运用云端GPU工作站运行Omniverse进行合成数据制作
>> AI 工作站,不容小觑的算力方案
AI 模型的训练和优化是一个相对复杂的工作,很多数据中心计算资源的压力也在增大,但扩展计算资源的预算有限。我们可以换个思路,考虑使用AI 工作站来扩展计算能力,用桌面端的计算资源去减少其它云服务或数据中心的支出。AI 工作站相较于AI 服务器而言,灵活性突出。相比于公有云,AI 工作站可以不依赖网络,数据安全性更高一些。搭载 NVIDIA RTX™ 6000 Ada GPU 的专业工作站AI 工作站的算力能力早已不同以往。对于数据科学的科研工作来说,搭载4块 NVIDIA RTX™ 6000 Ada(单卡显存48GB)的AI 工作站已经可以应对大型数据集和计算密集型的工作需求,并且还带有光线追踪的可视化能力,稳定性也非常不错,对于科研的一部分需求来说确实是很好的选择。
上面我们提到的 NVIDIA RTX 6000 Ada 值得被大家注意起来,经济高效的宝藏显卡。NVIDIA 合作伙伴赞奇科技曾经给复旦大学课题组设计和部署了基于 NVIDIA RTX 6000 Ada GPU的解决方案(包括硬件、系统和软件等),用到计算机视觉驱动的自动驾驶开发工作中,实际验证了它在训练和推理方面的优异性能。而且很关键的是,它的性价比,真香!
合成数据生成方案及教学材料获取:https://www.wjx.top/vm/tUpaawR.aspx#
算力方案咨询微信:XsuperzoneTech
*与NVIDIA产品相关的图片或视频(完整或部分)的版权均归NVIDIA Corporation所有。
技术支持