今日简讯 2024.4.10
- ChatGPT 首次公开出现在电视剧音乐创作人员名单中(印度泰卢固语喜剧《Save the Tigers》第二季大结局)
- 微软今日宣布未来两年在日本投资 4400 亿日元(约 209.88 亿元人民币),加强当地的 AI 和云基础设施建设。
- 马云内网发声:肯定阿里变革一年成效,称 AI 时代刚刚到来,还有一个最近蔡崇信的播客节目大家有机会也可以去听听。
- 谷歌推出 AI 创作应用 Google Vids,会 PPT 就能做视频、支持多人协作,预计将在 6 月份之前登陆 Workspace Labs 测试版。
- 电影宣传团队与抖音合作推出宫崎骏动画风格的AI特效,吸引200万用户参与。
- 英特尔的目标是到 2025 年,为超过 1 亿台 AI PC 供应处理器。英特尔发布新一代人工智能芯片:Gaudi 3 称性能远超英伟达H100。
- 韩国计划到 2027 年在 AI 半导体领域投资 9.4 万亿韩元,目标成为 AI 技术三强。
- Meta 公司将于下周预告两款 Llama 3 AI 模型,对标 GPT-4,为今年夏季推出“完整形态” Llama 3 铺垫。
- Instagram 的短视频板块 Reels 正在测试“AI 语音配音”功能,带来类似“同声传译”的体验。
AI 产品数据榜单(3月)数据来源:Similarweb
国产篇⬆️
出海篇⬆️
全球⬆️
OpenAI 向开发人员提供具有视觉能力 GPT-4 Turbo with Vision
可通过“gpt-4-turbo”来使用此模型,最新版本为“gpt-4-turbo-2024-04-09”,带读图能力。(价格:输入$10.00/100万tokens,输出$30.00/100万tokens,读图:最低 $0.00085/ 图)。
谷歌推出 Gemini 1.5 Pro 公共预览版,现已支持处理音频
谷歌宣布Gemini1.5Pro开放API引入了原生音频理解能力,不需先转换为文本。扩展了输入模态范围,支持视频内容处理。
原文地址:
https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf
Stable Diffusion 3将于4月中旬发布,预计会有6种规模的模型
SD3具有80亿参数,适用于RTX4090,生成1024x1024图像需34秒。
论文地址:
https://arxiv.org/pdf/2403.12015.pdf
Mistral AI再次发布磁力链,解禁281GB的8x22B MoE模型
新的MoE模型支持多语言、性能强大,旗舰版直接对标GPT-4。全新MoE模型共有56层,48个注意力头,8名专家,2名活跃专家,,上下文长度为65k。
谷歌发布 CodeGemma AI 模型
专门用于生成代码、理解和追踪指令等,开发目的是让全球开发人员更容易获得高质量的代码辅助工具。
论文地址:
https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdf
可以生成延时视频的模型MagicTime
生成的视频符合现实世界物理规律,可以生成比较自然的植物生长过程视频。
项目地址:
https://pku-yuangroup.github.io/MagicTime/
提示词:
hyper realistic, photo of Astronaut, manipulating a super nova in his hands, Floating in space, With stars in the background, controlling space in his hands --ar 16:9