「极客头条」—— 技术人员的新闻圈!
CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。
一分钟速览新闻点!
阿里妈妈发布图生视频技术框架AtomoVideo
Stability AI 发布 Stable Video 3D
谷歌推出多模态 VLOGGER AI:让静态肖像图动起来“说话”
国内要闻
蚂蚁集团启动组织升级,任命韩歆毅为集团总裁
蚂蚁集团董事长兼 CEO 井贤栋发布全员信,宣布组织架构升级:韩歆毅任集团总裁,全面负责数字支付、数字互联和数字金融业务。蚂蚁国际、OceanBase 和蚂蚁数科成立董事会,独立运营。此次调整旨在加快改革步伐,推进蚂蚁的「AI First」、「支付宝双飞轮」和「加速全球化」战略,进一步激发组织活力。韩歆毅自 2014 年加入蚂蚁,此次就任总裁是水到渠成。蚂蚁方面表示,韩歆毅在过去多年来深入参与业务,在战略决策中扮演重要角色。
小米集团总裁卢伟冰在 2023 年全年业绩沟通会上回应小米汽车进展时表示,小米 SU7 是一辆 C 级高性能生态科技轿车,性能、配置和体验都非常出色。关于定价问题,卢伟冰表示:“会有点贵,但相信大家看完 3 月 28 日的发布会后会认可这一定价。”
卢伟冰还提出了小米汽车的阶段性目标:进入纯电豪华轿车的销量前三。“但相比销量,小米更关心用户的体验和口碑。”同时,他还透露称在雷军发布预约品鉴微博后,一天之内预约到店试驾人数增加逾 10 万人,其中有的单店预约人数超过 1 万人。
阿里妈妈发布图生视频技术框架AtomoVideo
近日,淘天集团旗下阿里妈妈技术团队推出高保真图片生成视频框架——AtomoVideo(阿瞳木视频),可将图片素材自动化转换为高质量视频动效。目前,该技术已在阿里妈妈的万相实验室、广告投放平台等应用场景上线,所有商家都可以体验“图片一键变视频”的人工智能新技术,快速生成创意短视频。
国际要闻
富士通 IT 系统遭到入侵
富士通证实其部分计算机系统感染了恶意程序,攻击者可能还窃取到了部分客户信息。富士通称在检测到恶意程序之后,它立即切断了与被感染计算机的网络连接,部署了更好的监视工具,加强安全措施。富士通表示它开始通知信息可能被盗的客户。该公司没有披露更多信息。
微软聘请 DeepMind 联合创始人,领导消费者 AI 部门
微软任命穆斯塔法·苏莱曼为消费人工智能部门负责人,此人曾是谷歌 DeepMind 的联合创始人。微软还聘请了苏莱曼初创公司 Inflection 的许多员工,以加强在人工智能产品市场的竞争力,对谷歌形成挑战。苏莱曼将直接向微软 CEO 萨蒂亚·纳德拉汇报,负责包括将 Copilot 人工智能助手整合入 Windows 系统等项目。此次任命也影响了微软的合作伙伴,Inflection 退出 OpenAI 的竞争对手 Pi 消费者聊天机器人项目,转而专注于企业级人工智能软件销售,其联合创始人卡伦·西蒙尼扬也将加入微软担任首席科学家。
Canalys 预估 2025 年 AI PC 占全球 PC 出货量的 40%
根据市场调查机构 Canalys 近日发布的最新报告,2024 年标志着传统 PC 向 AI PC 的重大转变,预估今年全球 AI PC 出货量 4800 万台,占 PC 出货总量的 18%。该机构预估 2025 年全球 AI PC 出货量超过 1 亿台,占 PC 出货总量的 40%;到 2028 年,全球 AI PC 出货量 2.05 亿台,2024 年至 2028 年期间的复合年增长率将达到 44%。
AI PC 最大的亮点就是集成了神经处理单元(NPU)等专用的人工智能加速器,将释放出生产力、个性化和能效方面的新功能,颠覆个人电脑市场,为供应商及其合作伙伴带来显著的价值收益。
据报道,英伟达CEO黄仁勋称英伟达最新的AI芯片Blackwell售价将在3万至4万美元之间。他估计,英伟达在研发成本上花费了大约100亿美元。
据美国商标和专利局(USPTO)近日公示的清单,苹果公司获得了一项关于屏幕的专利,表示可以在户外阳光直射环境下,遮挡90%的强光,从而增加屏幕的可视度。苹果在屏幕中内嵌了类似于“百叶窗”的遮光元件,可以是静态的,也可以是动态的(可调节)。
程序员专区
Stability AI 发布 Stable Video 3D
AI 创业公司 Stability AI 发布了 Stable Video 3D,输入一个对象的静态照片生成该对象的 3D 模型。Stable Video 3D 有两个版本:SV3D_u 和 SV3D_p,其中 SV3D_u 输入单幅图像生成轨道视频,无需相机调节;SV3D_p 组合了单幅图像和轨道视图,允许沿着指定相机路径创建 3D 视频。Stable Video 3D 的商业使用需要付费,非商业使用可在 Hugging Face 上下载模型权重(9.37GB)。
谷歌推出多模态 VLOGGER AI:让静态肖像图动起来“说话”
谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。
研究人员表示:“和此前的多模态相比,VLOGGER 的优势在于不需要对每个人进行训练,不依赖于人脸检测和裁剪,可以生成完整的图像(而不仅仅是人脸或嘴唇),并且考虑了广泛的场景(例如可见躯干或不同的主体身份),这些对于正确合成交流的人类至关重要”。
观点
推荐阅读:
▶史上最大开源LLM,参数高达3140亿!马斯克如约开源Grok,10小时狂揽10000颗Star
▶50+国内外大模型专家齐聚,全球机器学习技术大会第二批嘉宾阵容公布!
4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的「全球机器学习技术大会」将在上海环球港凯悦酒店举行,特邀近 50 位技术领袖和行业应用专家,与 1000+ 来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众,共同探讨人工智能领域的前沿发展和行业最佳实践。欢迎所有开发者朋友访问官网 http://ml-summit.org、点击「阅读原文」或扫码进一步了解详情。