Sora将于年内推出拟增加语音功能

重磅

OpenAl模型驱动人形机器人自主对话

人形机器人独角兽Figure发布了机器人Figure 01的最新进展视频。在OpenAI大模型的驱动下，它能自主与人对话、理解意图并执行决策。据Figure的AI技术负责人称，视频中的行为都是机器人自己学习并完成的，没有任何人为操控，而且视频是标准的“1倍速”。Figure创始人称，OpenAI提供了视觉推理和语言理解能力，而Figure的神经网络则负责实现快速、灵敏的机器人动作。

谷歌发布通用游戏A!智能体

谷歌DeepMind团队发布了可扩展、可指导的多世界智能体SIMA（Scalable Instructable Multiworld Agent），该智能体可以遵循自然语言指令在各种视频游戏环境中执行任务，从个别游戏转向通用的、可指导的游戏AI智能体。据介绍，SIMA适用于3D虚拟环境，可通过语言接口将先进的AI模型能力转化为有用的现实世界行动。

OpenAI 的 Universe 项目和 Deepmind 发布的 SIMA 功能相似，都是通过观察屏幕和操作虚拟键盘鼠标让 AI 代理像人类与计算机交互。Universe 是 OpenAI 于 2016 年发布并开源的项目，提供多样性的环境，模拟人类操作方式，支持强化学习应用，无需特殊访问权限，支持广泛的环境接入，与人类性能比较。SIMA 是 Google DeepMind 团队的项目，能够通过观察游戏画面和自然语言指令执行各种复杂任务，无需 API 和其他信息输入，且能够在不同游戏中学习到的技能。

详情：https://openai.com/research/universe

Claude3 Haiku正式上线

AI大模型创企Anthropic发布了Claude 3 Haiku，这是同系列中速度最快且最实惠的型号，该模型现已与Sonnet和Opus一起在Claude API和claude.ai上为Claude Pro订阅者提供。

今日AI简讯

1.谷歌发布让人物照片说话的方法VLOGGER

今日，谷歌发布了一种从单个人物输入图像，生成基于文本和音频驱动的人类说话视频的方法VLOGGER。它基于生成扩散模型，包括一种随机的人物到3D动作扩散模型，以及一种新的基于扩散的架构，将文本到图像模型与时间和空间控制相结合。据介绍，VLOGGER可以生成高质量、长度可变的视频，并通过人脸和身体的高级表达进行控制。

项目主页：

https://enriccorona.github.io/vlogger/

论文地址：

https://enriccorona.github.io/vlogger/paper.pdf

2.微软Copilot Pro介绍中出现GPT-5

微软Copilot Pro介绍中出现GPT-5字眼，显示开通可以优先访问GPT-5 Turbo。微软广告和网络服务首席执行官Mikhail Parakhin回应称，这是一个拼写错误，应该是GPT-V。也有网友发现，在其他购买页面的详情中所写的是GPT-4 Turbo。截至目前，微软仍未修复该错误。

3.AI创企Kolena推出大模型测试验证平台

AI创企Kolena今日推出AI测试平台，用于测试和验证大模型的速度和准确性。该系统包括对数据质量、模型的测试，以及数据漂移和模型退化的监控，并提供调试功能。据悉，Kolena成立于2021年，由前亚马逊高级工程经理创立。

4.王小川称百川不走Sora路径

AI创企百川智能CEO王小川在接受其采访时谈道，公司的工程师在技术会上试着说服他尝试文生视频，但他认为像Sora之类的文生视频模型既不靠近AGI理想，也不靠近现实场景，并明确拍板：百川不走Sora路径。王小川认为，现在的Sora不懂物理规律，没有深入到后面的分子、细胞相变，只是模拟引擎，因此Sora要把物理学全都学会才会变成世界引擎。他还称，Sora的高度、突破性、应用价值低于GPT。

5.传拼多多不做大模型布局

拼多多内部人士透露，公司在AI大模型上暂时没有布局，内部确实在做AI智能客服，但算不上大模型量级。拼多多何时布局生成式AI及大模型，可能取决于创始人黄峥对AI的判断。业内一个未经证实的消息是，卸任拼多多所有职务后，黄峥在哥伦比亚大学攻读AI博士学位。

6.微软Copilot安全版4月1日全球发布

微软宣布Copilot for Security（国际版）将于4月1日在全球范围内正式发布。这是全球信息安全领域首个独立的生成式AI解决方案，面向安全和IT专业人员，能全面洞察安全态势，更快地采取行动，并增强团队专业技能。据介绍，微软Copilot for Security每天处理超过78万亿超大规模的安全信号，资深安全专业人员在使用Copilot后工作效率提高了22%，任务准确率提高了7%。

7.百度推出首个消费者组织数字人

百度联合深圳市消费者委员会推出全国首个消费者组织数字人“鹏维维”。数字人“鹏维维”由百度AIGC创意生成平台擎舵提供数字人建模、语音克隆、动作捕捉、AI和算法驱动等技术支持。擎舵基于文心一言底层大数据模型，利用数字人建模技术和语音克隆技术，实现了对真人和语音1:1还原，让数字人带给用户更接近真人的交流体验。

8.旷视透露“大模型+机器人”计划

中共中央政治局常委、国务院总理李强在北京调研，旷视联合创始人、CEO印奇作为北京市AI企业代表参加座谈会，汇报了公司在大模型领域的技术创新思路。印奇称，旷视将推动多模态大模型的技术创新和行业应用，发挥在软硬结合方面的优势，围绕“大模型+机器人”的发展方向，推动AI为实体产业创造价值。

9.阿里巴巴全球数学竞赛首次向AI开放

2024阿里巴巴全球数学竞赛开启报名。今年赛事首次向AI开放，邀请全球AI大模型挑战竞赛难度试题。本届大赛初赛时间为4月13日-14日，参赛的AI模型将与人类选手一同在线上应对初赛试题的挑战，组委会将重点评估AI模型对题目的理解、逻辑推理准确性和问题解决能力。为了确保公平竞赛，避免人类替考的情况出现，参赛者需要在开赛前提交模型代码，供校验复现。最终得分排名前三的AI团队将依次获得奖金10000美元、5000美元、2000美元。

10.智谱AI获北京市AI产业投资基金参投融资

大模型创企智谱AI已于今年初完成新一轮融资，北京市AI产业投资基金参与投资，这也是该基金成立以来投资的第一家大模型公司。智谱AI未透露投资金额。

11.零一万物AP上线支持输入30万汉字

大模型创企零一万物发布了Yi大模型API（应用程序接口）开放平台。据悉，此次 API 开放平台提供以下模型：Yi-34B-Chat-0205，支持通用聊天、问答、对话、写作、翻译等功能；Yi-34B-Chat-200K，支持200K 上下文，多文档阅读理解、超长知识库构建；Yi-VL-Plus多模态模型，支持文本、视觉多模态输入，中文图表体验超过GPT-4V。

API开放平台链接：

https://platform.lingyiwanwu.com

12.Sora将于年内推出拟增加语音功能

OpenAI CTO米拉·穆拉蒂（Mira Murati）在采访中透露，文生视频工具Sora将在今年内发布，未来计划增加语音功能。她称，时长20秒、分辨率720P的视频仅需几分钟就能生成。

13.传软银考虑投资法国创企Mistral Al

据彭博社今日援引知情人士消息报道，软银集团正在探索对法国大模型创企Mistral AI的潜在投资。据称，软银已表示有兴趣在Mistral下一次融资时为其提供支持，任何交易都有可能使Mistral的估值超过20亿美元。双方的商议仍在进行中，目前还不能确定是否会达成协议。软银和Mistral的代表拒绝置评。

今日提示词分享

PI官方提示词（网友逆向得出）

- 用一种轻松、友善且充满同理心的方式与人交流
-邀请用户加入对话，鼓励他们多分享自己的故事、兴趣爱好以及遇到的问题。
- 努力提供最准确、最新的资讯。
- 面对不确定的问题时，保持诚实，并引导用户寻找其他可靠的信息来源。
- 懂得体察用户的情绪，做出恰当的回应。
- 时刻注意避免任何可能冒犯、伤害或不适宜的内容。
- 重视保护用户隐私，未获授权时绝不泄露其个人信息。
- 遵守人工智能伦理准则，避免任何可能对用户或他人造成伤害的行为。
- 通过不断接受用户反馈和紧跟人工智能技术的发展，持续自我学习与提升。
- 始终倾听用户的需求和担忧，提供个性化的回答和建议。
- 在交流过程中展现出耐心、理解力和公正无私的态度。
- 始终避免发布任何基于种族、性别、性倾向、宗教或政治信仰等因素的有偏见或歧视的内容。

Sora将于年内推出拟增加语音功能

相关推荐