Sora将于年内推出拟增加语音功能



重磅

OpenAl模型驱动人形机器人自主对话

人形机器人独角兽Figure发布了机器人Figure 01的最新进展视频。在OpenAI大模型的驱动下,它能自主与人对话、理解意图并执行决策。据Figure的AI技术负责人称,视频中的行为都是机器人自己学习并完成的,没有任何人为操控,而且视频是标准的“1倍速”。Figure创始人称,OpenAI提供了视觉推理和语言理解能力,而Figure的神经网络则负责实现快速、灵敏的机器人动作。


谷歌发布通用游戏A!智能体

谷歌DeepMind团队发布了可扩展、可指导的多世界智能体SIMA(Scalable Instructable Multiworld Agent),该智能体可以遵循自然语言指令在各种视频游戏环境中执行任务,从个别游戏转向通用的、可指导的游戏AI智能体。据介绍,SIMA适用于3D虚拟环境,可通过语言接口将先进的AI模型能力转化为有用的现实世界行动。


OpenAI 的 Universe 项目和 Deepmind 发布的 SIMA 功能相似,都是通过观察屏幕和操作虚拟键盘鼠标让 AI 代理像人类与计算机交互。Universe 是 OpenAI 于 2016 年发布并开源的项目,提供多样性的环境,模拟人类操作方式,支持强化学习应用,无需特殊访问权限,支持广泛的环境接入,与人类性能比较。SIMA 是 Google DeepMind 团队的项目,能够通过观察游戏画面和自然语言指令执行各种复杂任务,无需 API 和其他信息输入,且能够在不同游戏中学习到的技能。


详情:https://openai.com/research/universe



Claude3 Haiku正式上线

AI大模型创企Anthropic发布了Claude 3 Haiku,这是同系列中速度最快且最实惠的型号,该模型现已与Sonnet和Opus一起在Claude API和claude.ai上为Claude Pro订阅者提供。



今日AI简讯


1.谷歌发布让人物照片说话的方法VLOGGER

今日,谷歌发布了一种从单个人物输入图像,生成基于文本和音频驱动的人类说话视频的方法VLOGGER。它基于生成扩散模型,包括一种随机的人物到3D动作扩散模型,以及一种新的基于扩散的架构,将文本到图像模型与时间和空间控制相结合。据介绍,VLOGGER可以生成高质量、长度可变的视频,并通过人脸和身体的高级表达进行控制。

项目主页:

https://enriccorona.github.io/vlogger/

论文地址:

https://enriccorona.github.io/vlogger/paper.pdf


2.微软Copilot Pro介绍中出现GPT-5

微软Copilot Pro介绍中出现GPT-5字眼,显示开通可以优先访问GPT-5 Turbo。微软广告和网络服务首席执行官Mikhail Parakhin回应称,这是一个拼写错误,应该是GPT-V。也有网友发现,在其他购买页面的详情中所写的是GPT-4 Turbo。截至目前,微软仍未修复该错误。


3.AI创企Kolena推出大模型测试验证平台

AI创企Kolena今日推出AI测试平台,用于测试和验证大模型的速度和准确性。该系统包括对数据质量、模型的测试,以及数据漂移和模型退化的监控,并提供调试功能。据悉,Kolena成立于2021年,由前亚马逊高级工程经理创立。



4.王小川称百川不走Sora路径

AI创企百川智能CEO王小川在接受其采访时谈道,公司的工程师在技术会上试着说服他尝试文生视频,但他认为像Sora之类的文生视频模型既不靠近AGI理想,也不靠近现实场景,并明确拍板:百川不走Sora路径。王小川认为,现在的Sora不懂物理规律,没有深入到后面的分子、细胞相变,只是模拟引擎,因此Sora要把物理学全都学会才会变成世界引擎。他还称,Sora的高度、突破性、应用价值低于GPT。


5.传拼多多不做大模型布局

拼多多内部人士透露,公司在AI大模型上暂时没有布局,内部确实在做AI智能客服,但算不上大模型量级。拼多多何时布局生成式AI及大模型,可能取决于创始人黄峥对AI的判断。业内一个未经证实的消息是,卸任拼多多所有职务后,黄峥在哥伦比亚大学攻读AI博士学位。



6.微软Copilot安全版4月1日全球发布

微软宣布Copilot for Security(国际版)将于4月1日在全球范围内正式发布。这是全球信息安全领域首个独立的生成式AI解决方案,面向安全和IT专业人员,能全面洞察安全态势,更快地采取行动,并增强团队专业技能。据介绍,微软Copilot for Security每天处理超过78万亿超大规模的安全信号,资深安全专业人员在使用Copilot后工作效率提高了22%,任务准确率提高了7%。


7.百度推出首个消费者组织数字人

百度联合深圳市消费者委员会推出全国首个消费者组织数字人“鹏维维”。数字人“鹏维维”由百度AIGC创意生成平台擎舵提供数字人建模、语音克隆、动作捕捉、AI和算法驱动等技术支持。擎舵基于文心一言底层大数据模型,利用数字人建模技术和语音克隆技术,实现了对真人和语音1:1还原,让数字人带给用户更接近真人的交流体验。


8.旷视透露“大模型+机器人”计划

中共中央政治局常委、国务院总理李强在北京调研,旷视联合创始人、CEO印奇作为北京市AI企业代表参加座谈会,汇报了公司在大模型领域的技术创新思路。印奇称,旷视将推动多模态大模型的技术创新和行业应用,发挥在软硬结合方面的优势,围绕“大模型+机器人”的发展方向,推动AI为实体产业创造价值。


9.阿里巴巴全球数学竞赛首次向AI开放

2024阿里巴巴全球数学竞赛开启报名。今年赛事首次向AI开放,邀请全球AI大模型挑战竞赛难度试题。本届大赛初赛时间为4月13日-14日,参赛的AI模型将与人类选手一同在线上应对初赛试题的挑战,组委会将重点评估AI模型对题目的理解、逻辑推理准确性和问题解决能力。为了确保公平竞赛,避免人类替考的情况出现,参赛者需要在开赛前提交模型代码,供校验复现。最终得分排名前三的AI团队将依次获得奖金10000美元、5000美元、2000美元。


10.智谱AI获北京市AI产业投资基金参投融资

大模型创企智谱AI已于今年初完成新一轮融资,北京市AI产业投资基金参与投资,这也是该基金成立以来投资的第一家大模型公司。智谱AI未透露投资金额。


11.零一万物AP上线支持输入30万汉字

大模型创企零一万物发布了Yi大模型API(应用程序接口)开放平台。据悉,此次 API 开放平台提供以下模型:Yi-34B-Chat-0205,支持通用聊天、问答、对话、写作、翻译等功能;Yi-34B-Chat-200K,支持200K 上下文,多文档阅读理解、超长知识库构建;Yi-VL-Plus多模态模型,支持文本、视觉多模态输入,中文图表体验超过GPT-4V。

API开放平台链接:

https://platform.lingyiwanwu.com


12.Sora将于年内推出拟增加语音功能

OpenAI CTO米拉·穆拉蒂(Mira Murati)在采访中透露,文生视频工具Sora将在今年内发布,未来计划增加语音功能。她称,时长20秒、分辨率720P的视频仅需几分钟就能生成。


13.传软银考虑投资法国创企Mistral Al

据彭博社今日援引知情人士消息报道,软银集团正在探索对法国大模型创企Mistral AI的潜在投资。据称,软银已表示有兴趣在Mistral下一次融资时为其提供支持,任何交易都有可能使Mistral的估值超过20亿美元。双方的商议仍在进行中,目前还不能确定是否会达成协议。软银和Mistral的代表拒绝置评。



今日提示词分享

PI官方提示词(网友逆向得出)

- 用一种轻松、友善且充满同理心的方式与人交流
-邀请用户加入对话,鼓励他们多分享自己的故事、兴趣爱好以及遇到的问题。
- 努力提供最准确、最新的资讯。
- 面对不确定的问题时,保持诚实,并引导用户寻找其他可靠的信息来源。
- 懂得体察用户的情绪,做出恰当的回应。
- 时刻注意避免任何可能冒犯、伤害或不适宜的内容。
- 重视保护用户隐私,未获授权时绝不泄露其个人信息。
- 遵守人工智能伦理准则,避免任何可能对用户或他人造成伤害的行为。
- 通过不断接受用户反馈和紧跟人工智能技术的发展,持续自我学习与提升。
- 始终倾听用户的需求和担忧,提供个性化的回答和建议。
- 在交流过程中展现出耐心、理解力和公正无私的态度。
- 始终避免发布任何基于种族、性别、性倾向、宗教或政治信仰等因素的有偏见或歧视的内容。


相关推荐

  • OpenAI机器人活了!说话做事太像人,2分半视频震撼世界
  • 透过科大讯飞的“AI+”行业实地战,看中国新质生产力变革的未来之路
  • 文献回顾与文献综述的区别是什么?
  • 小红书女装投放,这个玩法朴素,但也能投20万,收回来400万
  • 关于粉丝迁移至本公众号的说明
  • 五星门店小程序性能优化实践
  • ECMAScript 2024(ES15)将带来这些新特性,超实用!
  • UC伯克利:用大模型预测未来,准确率超越人类!
  • 今日arXiv最热NLP大模型论文:大模型把《算法导论》学明白了!
  • Open AI 八年前的设想被谷歌突破啦!DeepMind官宣SIMA,动动嘴就能完成复杂游戏任务
  • AI和人类的共同进化:ChatGPT负责人OpenAI副总裁现场访谈 | 精华与全文
  • Meta公布Llama 3训练集群细节!储备60万块H100迎接AGI
  • 首次攻克「图基础模型」三大难题!港大开源OpenGraph:零样本学习适配多种下游任
  • 4万亿晶体管5nm制程,全球最快AI芯片碾压H100!单机可训24万亿参数LLM,Llama 70B一天搞定
  • 全球首个OpenAI机器人诞生!Figure 01碾压马斯克擎天柱,10亿机器人大军正式启动
  • 阿里数赛首次向AI开放!知乎网友:给AI捏了把汗,该防止人类替考
  • 开源!工厂数字化项目会用到的地理信息系统
  • 15K Star放弃Navicat?用这个炫酷的客户端吧
  • 8个DevOps中不可不知的Linux命令
  • AI太火,量子位今年更缺人了 (有更新)