大家好,我是大全。一个专注于输出 AI+ 提示词内容的前喜马拉雅架构师,全国最大 AI 付费社群初创合伙人及航海教练,关注我一起进步。
大半夜的搞事情,又是一个AI 界的重磅消息。
Claude3,由Anthropic这家OpenAI的姊妹公司推出,正式发布了。
一种非常低调方式,无发布会,无繁杂宣传,仅在X社交平台上以一条简短的帖子告知世界。
消息虽简,其背后的意义却非同小可。
Claude3系列推出了三个版本:Claude 3 Opus、Claude 3 Sonnet、Claude 3 Haiku,名字背后各自承载着独特的意涵。
"Opus"象征着史诗般的壮丽,
"Sonnet"代表着十四行诗的精致,
"Haiku"则是日式三行诗的简约。
这三者的设计初衷很简单——就是强大的程度,分别对应超大杯、大杯、中杯的不同需求。
细节并不是本次讨论的重点,通过一组简单对比图便能清晰地看出各自特色。
最引人注目的是,Claude3的Opus版本在多个领域实现了对GPT4的全面超越,尤其是在零次提示(0-shot)场景下更是如此。
以多语言数学推理测试为例,Claude3 Opus在没有任何的示例提示情况下,准确率高达达到了90.7%,而GPT4即便给予了八个示例,准确率也仅为74.5%。
这不仅展示了Claude3在推理任务上卓越能力,还彰显了其在语言和知识测试中与GPT4的接近水平,标志着其推理能力显著进步。
然而,让人叹息的是,尽管Claude3极具吸引力,但其高端版本Opus仅对付费会员开放,需要支付20美元方可使用。
经过简单的测试,总结出Claude的三大特点:无与伦比的推理能力、与GPT4持平的多模态表现、以及针对200K长文本的优化处理。
二、初体验和 GPT4 对比
目前大全简单尝试了一下,没想到虽然可以使用但是只有几免费的机会。
我们先看看最新的数据集,依然停留才 2023 年 8 月:
GPT4 以其多模态功能,成为了许多用户不可或缺的工具之一。
近期,Claude3亦升级了其视觉能力,新增了直接处理图像的功能。
官方发布的数据表明,Claude3在视觉能力上与GPT4基本持平。
简单看下大全测试的结果,先是视觉能力,这里也可能是大全表达的不清楚?:
暂时没有完成我的任务,来看看 GPT4 的表现:
再看看打开这个代码之后的效果:
至少主体看没啥大的问题,这里GPT4 略胜,也可能是大全表达的不清楚。
我们再来看一个图片理解能力的例子:
接着是 GPT4 的表现:
大家看到回答了吗?我倒是更喜欢 GPT4 的回答,至少这个回答是我心中的答案。
因为只有三次测试机会,所有也只能测试到这里了😂。
这里我们可以再看看其他的测试,大家感受一下:
三、再说几句:
Claude3 还有一些改进,我们再简单说下。
大家再看下Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku的区别。
一眼就能看明白,牛逼的更贵,便宜的更快。
准确度提升
与 Claude 2.1 相比,Opus 在这些挑战性的开放式问题上的准确率提高了一倍,同时错误答案的频率也有所下降。
不仅提高了回答的可信度,还将很快在 Claude 3 模型中加入引用功能,使其能够指向参考材料中确切的句子以验证答案。
长期上下文处理和近乎完美的记忆能力
Claude 3 模型家族一开始将提供200K的上下文窗口。而且,所有三种模型均能处理超过一百万tokens的输入。
Claude 3 Opus 不仅实现了近乎完美的记忆能力,准确率超过99%,有时甚至能识别出评估方法本身的局限,例如识别某些“针”句子似乎是人为加入到原文中的。
再次总结下三个特点:
无与伦比的推理能力、
与GPT4持平的多模态表现、
针对200K长文本的优化处理。
无疑,这使其成为了当前市场上最为强大的大型模型。
不过 OpenAI 也可能不会对此次更新无动于衷。
期望OpenAI能迅速回应,发布GPT5,对 Claude3 进行“狙击”啊。
激烈的竞争,加速迎接我们的未来,我已经迫不及待了。
未来已至...
老规矩,学废了点个赞或在看呀~
订阅下方公众号,回复 2
免费拉你进 AI 微信陪伴群,领取价值399元的神秘 AI 大礼包。