我们已经看到,新模型GPT-4o赋予了ChatGPT强大的实时对话能力,让Her走进现实。全新AI语音助手,是通往AGI的下一个未来。对标OpenAI,谷歌DeepMind今天首次对外公布了「通用AI智能体」新项目——Astra。其实,昨天谷歌放出了一个demo,已经让所有人对Astra项目有了初步的了解。而今天,现场的演示更加炸裂。网友称,这是谷歌I/O大会中,自己最喜欢的part。不仅有Astra强大的对答如流的能力,还首次展示了「谷歌AR原型眼镜」配上AI的震撼演示。Astra两部分演示,每段视频均为单次拍摄、实时录制完成召唤Gemini之后,测试者提出问题,「当你看到会发出声音的东西时,告诉我」。它回答道,「我看到一个扬声器,它可能会发声」。接下来,测试者用红色剪头指向扬声器的顶部,再次问道,「这个扬声器的部件叫什么」?Gemini准确理解指令,并答出「这是高音扬声器,能产生高频的声音」。然后,对着桌上一桶彩色蜡笔,让Gemini就展示的物体,给出了「押头韵」的创意——「Creative crayons color cheerfully. They certainly craft colorful creations.」Gemini以「c」音重复开头,生动形象地描绘了用蜡笔欢快涂色,可以创作出许多绚丽多彩作品的场景。而更让你意想不到的是,它还可以读懂代码。甚至都不是截屏,而是用摄像头怼着电脑屏幕拍,然后问Gemini「这部分代码是做什么的」?Gemini看了一眼,就立即给出回答:「此段代码定义了加密和解密函数。它似乎使用AES CBC加密,根据密钥和初始化向量对数据进行编码和解码」。再将镜头移向窗外,「我在哪个街区」?Gemini便回答道,「这似乎是伦敦国王十字区,这里以火车站和交通枢纽而闻名」。眼镜找不到了?直接可以问Gemini,「你记得在哪里见过我的眼镜」?它立刻回想刚刚见到的场景,「是的,我记得。你的眼镜就在桌子上,旁边有一个红苹果」。要知道,刚刚这个问题并没有向它提过,Astra完全是凭自己的视觉记忆回答出来的,简直成精了。而Astra的这番表现,直接让全场倒吸一口凉气,发出惊呼。
在音乐方面,谷歌和Youtube一起构建了Music AI Sandbox。输入一段旋律,它就可以进行风格迁移,帮助艺术家们快速实现自己的想法和创意。为此,谷歌还特意邀请了许多音乐家、词曲作者和制作人来测试。他们惊喜地发现,使用这个新的AI音乐工具,他们居然做出了自己从未想到的音乐!比如这位音乐制作人,希望把乐曲中的这段旋律变一个风格。Music AI Sandbox的产出,让他激动地当场跳起来。他表示,作为一个嘻哈音乐制作人,AI带给他的尝试空间,是无止境的。