新智元报道
编辑:编辑部谷歌I/O 2024如期来了,眼花缭乱地发布了一堆更新。
跟OpenAI半小时的「小而美」发布会相比,谷歌显然准备得更加充分,当然,时间也相当之长……
2个多小时的发布会也是挑战着观众们的极限,在场人群早已困倒一大片
准备好,谷歌要开始轰炸了。
首先,Gemini 1.5 Pro,上下文长度将达到惊人的200万token。
然后,面对昨天OpenAI GPT-4o的挑衅,谷歌直接甩出大杀器Project Astra,视觉识别和语音交互效果,跟GPT-4o不相上下。
接着,谷歌祭出文生视频模型Veo硬刚Sora,效果酷炫,时长超过1分钟,打破Sora纪录。
最后来了一个重磅消息:谷歌搜索将被Gemini重塑,形态从此彻底改变!我们不再需要自己点进搜索结果,而是由多步骤推理的AI Overview来代办一切。
发布会结束后,劈柴甚至还用Gemini算了一下,整个发布会共提了121次AI。
Gemini时代,来了
CEO劈柴上来就无视了GPT和Llama的存在,这样总结道:「我们完全处于Gemini时代」。
并且给出数据:如今全世界使用Gemini的开发者,一共有150万人。
万众瞩目的Gemini更新如期而至。
Gemini 1.5 Pro最强特性之一,就是超长的上下文窗口,达到了100万tokens的级别,超过了目前所有的大语言模型,而且开放给个人用户使用。
今天,劈柴宣布:它的上下文token数将会达到2000K(200万)!相比之下,GPT-4 Turbo只有128K,Claude 3也只有200K。
而这也意味着——你可以给模型输入2小时视频、22小时音频、超过6万行代码或者140多万单词。
2M长上下文窗口,可以去排队申请了
这个上下文长度,已经超过了目前所有大模型。
但是,这并不是终点,谷歌的目标是——无限长上下文,不过,这就是后话了。
在这样的Gemini加持下,我们可以实现许多迅捷的功能。
比如,作为父母需要了解孩子在学校的情况,就可以在Gmail中要求Gemini识别所有关于学校的电子邮件,然后帮你总结出要点。
如果你错过了公司会议,但可以拿到一小时时长的会议录音,Gemini就能立刻帮你总结出会议要点。
为了帮助学生和教师,在NotebookLM中,谷歌设计了一个「音频概述」的功能。
把左边的所有材料作为输入,Notebook就可以把它们整合成一个个性化的科学讨论了。
对于听觉学习型学生,这种形式就非常生动。
演示这个demo的Josh表示,自己的儿子第一次看到这个功能时,直接惊掉下巴。
他第一次感觉到,学习不再是死板的,牛顿力学定律居然以通过篮球来学习!
支持多模态的Gemini可以处理你上传的任何格式的信息,理解内容后将其改造成适合你的形式,与你对话互动了!
接下来,劈柴展示了Agent的一些例子。
买了一双鞋子,不合适想退回怎么办?
拍一张照片给Agent,它就可以从你的邮箱中搜出订单后,帮你填写退货单了。
再比如,你刚搬到某个城市,Agent就能帮你探索你在这个城市所需的服务了,比如干洗店、帮忙遛狗的人等等。如果靠我们自己搜索,可是要搜十几个网站,但Gemini可以发挥自己的「多步推理」能力包揽这些任务,把你需要的信息一次性提供给你!搜索和整合信息的功能非常强大,输入新家的地址后,它甚至可以代替软件问你外卖应该放哪个位置。总的来说,谷歌的理念就是:利用Gemini的多模态、超长上下文和智能体能力,把世界上的所有信息组织起来,让它们对每个人都可触达、可利用。而最终目标,就是让AI对每一个人都有用。谷歌搜索,被Gemini彻底重塑
之前OpenAI一直有意无意放出烟雾弹,声称要发布全新的搜索产品,等于是把刀架在谷歌脖子上了。果然,谷歌这次不甘示弱,放出了个大的。从今天开始,在Gemini的加持下,谷歌搜索会彻底变样。在搜索框下,会出现一个为你量身定做的AI总结。注意,它并不简单地将所有内容拼凑在一起,而是帮你把活都干了!你的问题是什么样,它就会帮你做规划,展示出若干个卡片,让搜索信息以鲜明的方式被呈现出来。这次AI Overview即将发布的另一个重磅功能,就是多步骤推理。它能将用户输入的一个复杂问题分解成多部分,确定需要解决哪些问题,以及用什么顺序解决。因此,以前可能要花几分钟甚至几个小时的研究,现在几秒钟内就可以完成!因为它将十个问题合而为一。比如,如果想找到波士顿最好的瑜伽或普拉提工作室,它会直接搜出来结果,然后帮你整理好情况介绍和工作时间。只要一次搜索,所有需要的信息就自动呈现出来。在下面这个例子中,你可以要求谷歌提供一个三天的膳食计划。这些食谱被从整个网络整合出来,清晰又全面。而且,我们还可以用视频去搜索了!比如,该怎么修这个唱片机?以前,我们需要进行一堆搜索,确定它的牌子、型号。现在,直接拍一个视频丢给谷歌,然后直接开口问:它的这个毛病是什么原因?谷歌用AI Overview,给出了最全面的信息。从此,在谷歌搜索中,你需要做的,就是简单的「张嘴问」。对标GPT-4o,Project Astra打造通用AI智能体
我们已经看到,新模型GPT-4o赋予了ChatGPT强大的实时对话能力,让Her走进现实。全新AI语音助手,是通往AGI的下一个未来。对标OpenAI,谷歌DeepMind今天首次对外公布了「通用AI智能体」新项目——Astra。其实,昨天谷歌放出了一个demo,已经让所有人对Astra项目有了初步的了解。而今天,现场的演示更加炸裂。网友称,这是谷歌I/O大会中,自己最喜欢的part。不仅有Astra强大的对答如流的能力,还首次展示了「谷歌AR原型眼镜」配上AI的震撼演示。 Astra两部分演示,每段视频均为单次拍摄、实时录制完成召唤Gemini之后,测试者提出问题,「当你看到会发出声音的东西时,告诉我」。它回答道,「我看到一个扬声器,它可能会发声」。接下来,测试者用红色剪头指向扬声器的顶部,再次问道,「这个扬声器的部件叫什么」?Gemini准确理解指令,并答出「这是高音扬声器,能产生高频的声音」。然后,对着桌上一桶彩色蜡笔,让Gemini就展示的物体,给出了「押头韵」的创意——「Creative crayons color cheerfully. They certainly craft colorful creations.」Gemini以「c」音重复开头,生动形象地描绘了用蜡笔欢快涂色,可以创作出许多绚丽多彩作品的场景。而更让你意想不到的是,它还可以读懂代码。甚至都不是截屏,而是用摄像头怼着电脑屏幕拍,然后问Gemini「这部分代码是做什么的」?Gemini看了一眼,就立即给出回答:「此段代码定义了加密和解密函数。它似乎使用AES CBC加密,根据密钥和初始化向量对数据进行编码和解码」。再将镜头移向窗外,「我在哪个街区」?Gemini便回答道,「这似乎是伦敦国王十字区,这里以火车站和交通枢纽而闻名」。眼镜找不到了?直接可以问Gemini,「你记得在哪里见过我的眼镜」?它立刻回想刚刚见到的场景,「是的,我记得。你的眼镜就在桌子上,旁边有一个红苹果」。要知道,刚刚这个问题并没有向它提过,Astra完全是凭自己的视觉记忆回答出来的,简直成精了。而Astra的这番表现,直接让全场倒吸一口凉气,发出惊呼。图像、音乐、视频,面面俱到
与此同时,谷歌大会上再次推出了一系列关于「生成式媒体工具」的最新进展。其中,包括图像、音乐,以及视频模型。左右滑动查看
原生多模态Gemini App
谷歌还打造出了一款Gemini原生多模态应用,可以同时文本、音频、视频内容。一直以来,谷歌希望能够打造一个有用的个人AI助理。Gemini App,正重新定义我们的交互方式。为了让我们与Gemini交互更自然,谷歌发布了Gemini Live。有了它,你可以在给朋友发消息的同一个程序中,还能与Gemini聊天。你甚至可以控制自己的说话节奏,或者随时打断Gemini回答,如同与真人交流一样。比如,你正在为一场面试做准备,只需要进入Live,让Gemini陪你一起做准备。Gemini可以与你进行模拟面试排练,甚至在与潜在雇主交谈时应该突出哪些技能,还能提供建议。谷歌表示,今年晚些时候,会推出摄像头模式,可以以周围环境与Gemini实现对话。与此同时,谷歌还推出了根据个人需求自定义的Gemini专家——Gems。它可以是你的健身教练、瑜伽伙伴,也可以是你的写作创意导师、编程伙伴等等。
接下来,谷歌还展示了通过规划,让我们如何离AI助手更近一步。
比如,一次旅行的规划,需要涉及地理、时间、天气等诸多因素,需要AI能够做出优先顺序和决策的能力。Gemini Advanced的全新旅行规划,可以将模型推理和智慧融为一体,为人类更好服务。Ask Photos新功能
Gemini 1.5 Flash:更小,更快,200万token
第六代TPU Trillium,4.7倍性能提升
更多的开源模型
不仅如此,谷歌还将在6月推出规模更大的开源模型——Gemma 2 27B。在性能方面,全新的Gemma 27B不仅超越了规模大了2倍还多的模型,而且还能在GPU或单个TPU主机上高效运行。参考资料:https://blog.google/technology/developers/gemini-gemma-developer-updates-may-2024/https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus?e=48754805https://www.youtube.com/watch?v=XEzRZ35urlk