推荐阅读:
昨天晚上
OpenAI 2024 Spring 发布的支持实时语音对话的模型 GPT-4O,刚好在谷歌发布会的前一天。
就是这么巧。
相比之前,最大的变化是:
GPT-4O 打通任何文本、音频和图像的输入,相互之间可以直接生成,无需中间转换。
语音延迟大幅降低,能在 232 毫秒内回应音频输入,平均为 320 毫秒,这与对话中人类的响应时间相似。
也就是说,这个玩意越来越像真人了。
最夸张的一个案例就是实时翻译,你说一个国家的语言,它可以帮你实时翻译成另外一种语言。
还完全不耽搁事。
你要和它对话,他还能带语气词,还能分析你的表情、语气,再综合判断下进行答复。
所有市面上的翻译机器,都可以下线了。
给大家举个例子。
如果你是一个学生,遇到一个题不会做了,现在可以直接用手机摄像头对着题目和AI讨论怎么做。
像什么私人助理、AI恋人等等,都可以以此为基础。
官网还有这样的案例,对于视觉受限的那些群体,直接打开摄像头让AI帮你描述外面的世界。
这样,这些人群就可以独自走向外面的世界。
给我的感觉就是,那个“奇点”已经来了。
未来 AI 对我们世界的影响会越来越大,但对于普通人来讲,可能一时半会还感受不到。
当你感受到的时候,它已经悄无声息的融入了这个世界,就像当初的移动互联一样!
世道变了,所以你我要跟上了。
可以参考我昨天的文章,这里面充满了机遇,如果能够抓住其中一个小小的机遇,这一生基本就够了。