ChatGPT 又上新了!听、看、说的综合能力干翻所有语音助手?

今日简讯 2024.5.14

- 在 OpenAI 有关 ChatGPT 的发布会前几个小时,谷歌发了 Gemini 预告片,展示惊艳语音视频交互能力。

在 CES 2024 中,山姆会员商店展示了一项利用 AI 门禁识别买家购物车内容从而进行“小票验证”的技术,号称可显著降低商店出口的排队现象。

Anthropic 宣布在欧洲推出 Claude 聊天机器人,精通多种语言,月费 28 欧元。

特斯拉和 SpaceX CEO 埃隆・马斯克在周二抨击了由 Sam Altman 领导的 OpenAI,称他们最新的人工智能模型发布活动让他感到 “尴尬”。

OpenAI 于今日凌晨发布了其最新的旗舰人工智能模型 GPT-4o

详情看这里~~《OpenAI 发布AI 模型 GPT-4o,语音对话很丝滑,还免费》


特性 描述
多模态交互能力 GPT-4o 能够处理文本、音频和图像的任意组合输入,并生成对应的任意组合输出,使交互更自然和灵活。
快速响应 GPT-4o 在音频交互方面表现出色,能够在极短的时间内(短至232毫秒)响应用户的语音输入,平均响应时间接近人类日常对话的反应时间。
改进的视觉和音频理解 GPT-4o 在视觉和音频理解方面有显著提升,特别是在非英语文本上的性能有了大幅提高。
成本效益 GPT-4o 的 API 速度快,速率限制提高了5倍,而成本降低了50%,使其在商业应用上更具吸引力。
免费提供 OpenAI 宣布 GPT-4o 将免费提供给所有用户,尽管免费用户在使用量上有一定限制,但这一决策仍然具有里程碑意义。
增强的语言支持 GPT-4o 支持包括中文在内的20种语言进行音频等多模态交互,这扩大了其潜在用户群和应用场景。
端到端的新模型 GPT-4o 通过端到端训练,使得所有输入和输出都由同一神经网络处理,提高了效率并减少了信息丢失。
情感和语气识别 GPT-4o 能够识别说话人的语气和情绪,并根据场景或指令生成带有丰富人类情绪特征的音频回复,甚至可以唱歌。
图像处理能力 GPT-4o 在图像处理方面也有显著提升,能够识别手写体、分析数据,并读懂画面中人物的面部表情。
未来计划 OpenAI 计划未来实现更自然、实时的语音对话,并通过实时视频与 ChatGPT 进行对话,同时还将推出具有新功能的语音模式。
macOS 版应用 发布了适用于 macOS 的新版 ChatGPT 桌面应用,简化了工作流程并提供了更直观的交互方式。
新的用户界面 OpenAI 为 ChatGPT 引入了新的外观和感觉,使得界面更加友好和具有对话性。

腾讯宣布旗下的混元文生图大模型升级并对外开源

目前已经在 Hugging Face 及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

项目地址:

https://github.com/Tencent/HunyuanDiT

相关推荐

  • 14 个 SpringBoot 优化小妙招,写代码像写诗
  • 为什么要将Modbus转成MQTT?
  • 7.6K Star这是抖音APP开源了???
  • 大模型RAG入门及实践
  • Transformer已死?Mamba强的离谱!
  • 一图读懂Linux文件路径
  • LFOSSA源来如此公开课 | 深入理解Kubernetes Pod资源对象
  • 某开源公司前员工爆料:技术leader被下属挑战后狂怒爆粗、辞退怀孕女员工
  • 拾日谈:接下来要活着、健康地活着、有点理想地活着
  • 再次更新!聚合六大平台,功能十分强大!
  • 又一巨头猛裁员,赔偿方案比特斯拉还香!
  • 开源 APM 和可观察性工具 Coroot 现已正式发布
  • 「腾云之路」首期丨更高效能来自更优选择,贝壳降本增效有何高招?| Q推荐
  • Shopee 海量商品系统的治理挑战和应对之策
  • OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型
  • 可复用的“企业AI人才梯队搭建”方法论:《数智时代的AI人才粮仓模型解读白皮书(2024版)》发布!| 极客邦科技双数研究院
  • 金融风控姐妹篇-互联网风控的技术成熟度曲线发布!
  • 弄懂标签中台:数据流转与架构揭秘
  • 用户增长的真相
  • ICML 2024 | 通过随机微分方程统一贝叶斯流网络和扩散模型