今日简讯 2024.4.15
- Udio不仅可以创作音乐,还可以创作喜剧、演讲、NPC对话、体育分析、广告、电台广播、ASMR、自然音效等。(也因为udio的出现,suno免费额度都提高了)下面是一段英文朗诵。
- 京东官宣,刘强东 AI 数字人“采销东哥”将于明日(4 月 16 日)下午 6 点 18 分开启“直播首秀”,同时亮相京东家电家居、京东超市采销直播间。
- 消息称 OpenAI 向数百名世界 500 强高管推荐 ChatGPT 企业版。
- 印度具备生成式AI技能的技术人员工资增长 30-50%。
- 据彭博社记者马克・古尔曼 (Mark Gurman)透露,苹果将于 iOS 18 推出的首批全新 AI 功能将完全运行于设备端,而无需依赖云服务器。
- Anthropic 发布最新研究,发现 Claude 3 Opus 的说服力与人类大致相当,该成果在评估语言模型说服力方面迈出了重要的一步。
- OpenAI 今日通过官方博客页面宣布,公司在亚洲的首个办事处落户日本东京,将发布日语优化型 GPT-4 模型。
- 人大与浙大学者发现,GPT-4 对于论文给出的撤稿预测结果,竟然和人类审稿人有将近 95% 的相似性。
- 工信部:应大力发展基于 AI 大模型的智能装备、软件等产品。
融合 ChatGPT+DALL・E 3,识图推理生图一站解决
香港中文大学团队提出了多模态模型Mini-Gemini,结合了GPT-4和Dall・E 3的能力,具有高清图像理解、训练数据质量、图像解析推理和生成能力。该模型在多个指标上超越了Google的Gemini Pro和GPT-4V,已在开源社区发布并备受关注。
项目地址:
https://mini-gemini.github.io/
体验地址:
http://103.170.5.190:7860/
好文推荐:《AI Agent 应该更有趣还是更有用?》
– 有趣的AI:更像人的AI,具有类人属性,能够提供情感价值和更好的用户体验。
– 有用的AI:更像工具的AI,能够解决工作、生活中的问题,具有实用性。
原文(含ppt):
https://01.me/2024/03/ai-agents-entertaining-or-useful/
马斯克的xAI再次推出首个多模态模型 Grok-1.5 Vision 可将流程图转成 Python 代码
地址:
https://x.ai/blog/grok-1.5v
360 开源了 360 智脑 7B(70 亿参数模型)支持 50 万字长文本输入
360 智脑大模型采用 3.4 万亿 Tokens 的语料库训练,以中文、英文、代码为主,开放 4K、32K、360K 三种不同文本长度。
地址:
https://github.com/Qihoo360/360zhinao
适用于室内装修设计的SD方案 文字提示就可修改室内设计图
开发者创建了用于生成式室内设计的项目,通过下载爱彼迎房源数据和图像元数据,提取特征,实现训练。
体验地址:
https://huggingface.co/spaces/MykolaL/StableDesign
SwapAnything:替换图片中的任意元素
(1)精确控制任意对象和部分而非主题,(2)更忠实地保留上下文像素,(3)更好地将个性化概念适应到图像中。
项目地址:
https://swap-anything.github.io/
AI延时视频生成工具MagicTime
前几天的日报里提到的延时摄影AI工具,在线体验地址放出来了:
体验地址:
https://huggingface.co/spaces/BestWishYsh/MagicTime
Meta 推出 ViewDiff 模型
解决了文本生成一致性、多视角3D 图像的三大难点,可文本生成多视角3D 图像。
论文地址:
https://arxiv.org/pdf/2403.01807.pdf