今天是新模型发布大赛：Gemini 1.5 Pro发完，GPT-4-Turbo发，Mistral AI继续发……

今日简讯 2024.4.10

- ChatGPT 首次公开出现在电视剧音乐创作人员名单中（印度泰卢固语喜剧《Save the Tigers》第二季大结局）

- 微软今日宣布未来两年在日本投资 4400 亿日元（约 209.88 亿元人民币），加强当地的 AI 和云基础设施建设。

- 马云内网发声:肯定阿里变革一年成效，称 AI 时代刚刚到来，还有一个最近蔡崇信的播客节目大家有机会也可以去听听。

- 谷歌推出 AI 创作应用 Google Vids，会 PPT 就能做视频、支持多人协作，预计将在 6 月份之前登陆 Workspace Labs 测试版。

- 电影宣传团队与抖音合作推出宫崎骏动画风格的AI特效，吸引200万用户参与。

- 英特尔的目标是到 2025 年，为超过 1 亿台 AI PC 供应处理器。英特尔发布新一代人工智能芯片：Gaudi 3 称性能远超英伟达H100。

- 韩国计划到 2027 年在 AI 半导体领域投资 9.4 万亿韩元，目标成为 AI 技术三强。

- Meta 公司将于下周预告两款 Llama 3 AI 模型，对标 GPT-4，为今年夏季推出“完整形态” Llama 3 铺垫。

- Instagram 的短视频板块 Reels 正在测试“AI 语音配音”功能，带来类似“同声传译”的体验。

AI 产品数据榜单（3月）数据来源：Similarweb

国产篇⬆️

出海篇⬆️

全球⬆️

OpenAI 向开发人员提供具有视觉能力 GPT-4 Turbo with Vision

可通过“gpt-4-turbo”来使用此模型，最新版本为“gpt-4-turbo-2024-04-09”，带读图能力。（价格：输入$10.00/100万tokens，输出$30.00/100万tokens，读图:最低 $0.00085/ 图）。

谷歌推出 Gemini 1.5 Pro 公共预览版，现已支持处理音频

谷歌宣布Gemini1.5Pro开放API引入了原生音频理解能力，不需先转换为文本。扩展了输入模态范围，支持视频内容处理。

原文地址：

https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

Stable Diffusion 3将于4月中旬发布，预计会有6种规模的模型

SD3具有80亿参数，适用于RTX4090，生成1024x1024图像需34秒。

论文地址：

https://arxiv.org/pdf/2403.12015.pdf

Mistral AI再次发布磁力链，解禁281GB的8x22B MoE模型

新的MoE模型支持多语言、性能强大，旗舰版直接对标GPT-4。全新MoE模型共有56层，48个注意力头，8名专家，2名活跃专家，，上下文长度为65k。

谷歌发布 CodeGemma AI 模型

专门用于生成代码、理解和追踪指令等，开发目的是让全球开发人员更容易获得高质量的代码辅助工具。

论文地址：

https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdf

可以生成延时视频的模型MagicTime

生成的视频符合现实世界物理规律，可以生成比较自然的植物生长过程视频。

项目地址：

https://pku-yuangroup.github.io/MagicTime/

提示词：

hyper realistic, photo of Astronaut, manipulating a super nova in his hands, Floating in space, With stars in the background, controlling space in his hands --ar 16:9