思路打开,换个方式解决算力和数据问题

算力和数据问题着实让很多开发人员困扰,尤其在大模型背景下,日益庞大的数据、算力需求和有限的预算形成鲜明的矛盾。此处来分享两个方案的思路,希望有所启发。

>> 破解计算机视觉的数据集问题:AIGC合成数据生成方案


计算机视觉 AI 应用的模型训练数据集要求较高。真实世界的数据往往无法完全获取到泛化AI模型所需要的所有可能场景和边缘案例,而且涉及到数据隐私、数据质量、数据存量等问题,获得这些数据集的项目往往投入大、效率也低。我们就考虑来使用“虚拟世界”的数据去解决。

NVIDIA 企业开发者社区与赞奇科技近期联合发起过一场面向高校学生的全栈式AI开发工程师的技能培训活动,最核心讲的是合成数据生成(Synthetic Data Generation,SDG),它指的是通过计算机模拟或算法生成带有标记的虚拟数据,来训练人工智能模型,以便在开发者缺乏真实数据的情况下进行学习和预测,解决数据匮乏、数据隐私、采集成本的问题。这个技术已经开始应用到一些行业的 AI 开发工作中,比如制造业可以用生成的数据来训练缺陷检测模型,车企也可以使用合成的数据来模拟和训练车辆、机器人。

基于 NVIDIA Omniverse™ Replicator 进行合成数据生成


平台软件:如果想尝试SDG技术,赞奇科技推荐用户使用NVIDIA Omniverse Replicator的方案。Omniverse Replicator 是 NVIDIA Omniverse 平台中的一个扩展应用,然后再结合其它的 Python 工具,我们可以在 Omniverse Replicator 通过改变参数,例如灯光、镜头、位置等,来生成不同的数据集,再使用 Jupyter 等进行数据清洗。

硬件算力:至于 Omniverse Replicator 所需的硬件配置,建议使用搭载了NVIDIA RTX A4000(显存16GB)及以上专业显卡的工作站,这个工作对显卡的显存有一定的要求,否则极容易出现卡顿和运行缓慢的情况。

NVIDIA RTX A4000 GPU(图片来源于NVIDIA)

如果目前没有这个级别的显卡或者还没打算入手的小伙伴,也可以和上面提到的培训活动一样,在赞奇云工作站上跑 Omniverse Replicator 和其他的开发工具,这样我们可以直接使用云端 NVIDIA RTX A4000 GPU 的算力方案来做训练,对于成本有限或项目制工作的开发人员来说是一种非常友好的方案。

运用云端GPU工作站运行Omniverse进行合成数据制作


学习培训:想要了解和使用 Omniverse Replicator 合成数据生成方案的小伙伴,可以通过获取上述培训活动中的教学材料开始进行初步学习,来了解合成数据生成的基本流程和逻辑(划到最下方处获取)。

>> AI 工作站,不容小觑的算力方案

AI 模型的训练和优化是一个相对复杂的工作,很多数据中心计算资源的压力也在增大,但扩展计算资源的预算有限。我们可以换个思路,考虑使用AI 工作站来扩展计算能力,用桌面端的计算资源去减少其它云服务或数据中心的支出。AI 工作站相较于AI 服务器而言,灵活性突出。相比于公有云,AI 工作站可以不依赖网络,数据安全性更高一些。搭载 NVIDIA RTX 6000 Ada GPU 的专业工作站

AI 工作站的算力能力早已不同以往。对于数据科学的科研工作来说,搭载4块 NVIDIA RTX 6000 Ada(单卡显存48GB)的AI 工作站已经可以应对大型数据集和计算密集型的工作需求,并且还带有光线追踪的可视化能力,稳定性也非常不错,对于科研的一部分需求来说确实是很好的选择。


NVIDIA RTX 6000 Ada GPU(图片源于NVIDIA)


上面我们提到的 NVIDIA RTX 6000 Ada 值得被大家注意起来,经济高效的宝藏显卡。NVIDIA 合作伙伴赞奇科技曾经给复旦大学课题组设计和部署了基于 NVIDIA RTX 6000 Ada GPU的解决方案(包括硬件、系统和软件等),用到计算机视觉驱动的自动驾驶开发工作中,实际验证了它在训练和推理方面的优异性能。而且很关键的是,它的性价比,真香!


当然,除搭载NVIDIA RTX 6000 Ada的工作站之外,今年SIGGRAPH提到了NVIDIA RTX 5000 Ada,NVIDIA RTX 4500 Ada,NVIDIA RTX 4000 Ada,显存分别为32GB、24GB、20GB,赞奇科技正在测试它们在具体场景应用中的性能,来制定在不同场景中更具性价比的工作站方案。大家的场景应用相对复杂,情况都不同,如想了解后续可在下方获取信息,在此便不再赘述。

合成数据生成方案及教学材料获取:https://www.wjx.top/vm/tUpaawR.aspx#

算力方案咨询微信:XsuperzoneTech


*与NVIDIA产品相关的图片或视频(完整或部分)的版权均归NVIDIA Corporation所有。

技术支持


相关推荐

  • Python网页开发神器fac新版本来了
  • 闹大了!淘宝这是什么操作?!
  • 清华新研究解密信息茧房!全新信息动力学理论,登Nature子刊
  • 美国码农疯狂求职,狂投250份简历!揭秘潜规则:网申填完就战胜92%对手
  • 爆火AutoGPT获1200万美元融资,GitHub已有151k星
  • LeCun和xAI联创对呛,GPT-4重大推理缺陷无解?网友:人类也是「随机鹦鹉」
  • 明年对标GPT-4!星火3.0高能进化,给AI注入灵魂,林黛玉马斯克多种人设可定制
  • 1024 程序员节引爆星城,180+ 位大咖谈 AIGC、开源,开启未来编程范式!
  • midjourney画画:黑猫+梵高的星空
  • 1024.AI日报:微信AI机器人来了&AI预计将在未来的10年能胜任任何工作
  • 1024,我奉劝各位程序员。。
  • 代码的艺术-Writing Code Like a Pianist
  • 新来一个同事:为什么 HashMap 不能一边遍历一边删除?一下子把我问懵了!
  • 4K画质3D合成视频,渲染速度提升30多倍,论文作者带你解读新研究
  • NeurIPS 2023 | 「解释一切」图像概念解释器来了,港科大团队出品
  • RLHF模型普遍存在「阿谀奉承」,从Claude到GPT-4无一幸免
  • 大咖云集,看点前瞻:蚂蚁集团主办CNCC2023五大论坛
  • 公开出售GitHub star、Kaggle点赞,「黑市」越来越明目张胆了吗?
  • 讯飞星火升级 3.0:整体超越 ChatGPT,2024 年将实现对标 GPT-4
  • 程序员节是唯一不能放假的节日