制衡OpenAI,Claude 3给AI创企吃了颗定心丸



大模型新王Claude 3口碑爆表!被疑产生“自我意识”,压力给到GPT-5。作者 |  ZeR0
编辑 |  漠影
智东西3月5日报道,今天AI界的“炸圈”新闻,当属OpenAI劲敌Anthropic推出Claude 3系列模型,真正做到与GPT-4全面掰手腕。要知道,从OpenAI去年3月发布“最强大模型”GPT-4到今天,整整一年来,这是第一款真正挑战到其天花板地位的模型,不仅评测成绩通通赶超,而且是在几个测试任务中以零样本战胜对手,还在第一时间开放了上手体验通道。

▲Claude 3 Opus评测成绩全面超过OpenAI GPT-4和谷歌Gemini 1.0 Ultra,而且注意数学、编程等测试下方的“shot”数对比

更令业界振奋的是,这个大模型,不是来自手握顶级人才、钞能力和雄厚计算资源的科技大厂,而是来自一家创立仅3年的初创公司!这说明OpenAI在大模型技术上的领先身位并非遥不可及。坐拥Top级创始成员和精兵强将的创业团队,凭借更少的人力、财力、算力资源,完全能够做出与大厂分庭抗礼的AI产品。Claude 3系列模型共有3款,起名很有意思,按文体从重到轻:
  • Opus(巨作),性能顶配。
  • Sonnet(十四行诗),性能次之,响应快。
  • Haiku(绯句),主打一个性价比。

▲三款Claude 3模型的成本和智能水平对比

在Claude 3发布后,OpenAI宣布ChatGPT上线“文本朗读”功能。这下看热闹的网友们恨铁不成钢了,在评论区轰炸式催问GPT-5、Sora和神秘Q*模型的进度。

英伟达高级研究科学家Jim Fan也在线催更:

他还分享说最喜欢Claude-3的两点:1、领域专家基准。Claude特别选择金融、医学和哲学作为专家领域并报告成绩。Jim Fan建议所有的大语言模型卡都遵循这一点,这样不同的下游应用就知道会发生什么。2、拒绝率分析。大语言模型对安全问题过于谨慎的回答正成为一种普遍现象。人类活动通常处于极端安全的一端,但Anthropic团队认识到了这个问题,并强调了他们在这方面的努力。同时他也强调道:“GPT-4V,每个人都拼命想要超越的最高水位线,在2022年完成了训练。这是暴风雨前的宁静。”

热衷于嘲讽OpenAI、看谷歌AI笑话的马斯克,对Anthropic表现得相当友好,转发Claude 3发布的推文并评价说“印象深刻”。

亚马逊CEO安迪·贾西则开心地宣布,亚马逊云科技(AWS)将提供基于Claude 3的服务。


01.三大亮点:无短板性能,优化长文本,降低拒绝率


体验Claude 3,需要先用海外手机号+邮箱注册账号,免费版用户可使用Sonnet模型,月付20美元开通付费会员后可体验性能最强的Opus。体验网址:http://claude.ai很多网友第一时间上手体验了这款大语言模型最新力作。无论是快速阅读数据密集型研究论文,还是将手写稿件转换成JSON格式,Claude 3在响应速度和质量上都表现得可圈可点。综合官方博客和网友实测体验来看,它有3项主要亮点:1、性能登顶大语言模型全面赶超GPT-4,多模态视觉任务处理性能刷新SOTA,在回答复杂开放性问题时准确率翻倍提升。

直接上传数学、物理等考验逻辑和准确度的理科题照片,或者细节丰富的图表,由于推理能力大幅增强,它回复的解题水平和准确率变高很多,并能在一些细节描述上比GPT-4更胜一筹。多模态能力方面,Claude 3模型可以从视觉上识别物体,能用复杂的方式思考,比如既能理解物体的外观,也能理解它与数学等概念的联系。面向做看图理解、从图像做一些常识性推断、转换网页源代码等任务,Opus表现得跟GPT-4V相差无几。

▲Opus将一张难以阅读的低质量照片转换为文本,然后将表格格式的文本转成JSON格式

Anthropic AI研究工程师Emmanuel Ameisen晒出了一个测试示例:向Opus输入2小时13分钟视频原始文本、每隔5秒截取的屏幕截图等图文素材,它能成功转换成一篇图文并茂的HTML格式博客文章。

2、最初支持超20万个token的长文本输入之前Claude 2.1被吐槽长文本理解效果差,Claude 3做了重点改进,顶配Opus在200K tokens“大海捞针”(NIAH)测试中准确率超过99%,展现了强大的召回能力。(1K tokens相当于750个单词。

Claude 3全系模型都能够接受超过100万个token的输入,这项功能可能会提供给需要更高处理性能的特定客户。

▲Claude 3全系模型和Claude 2.1在Haystack评估上实现的平均召回的比较

3、减少拒绝回复安全问题的频率大语言模型动不动会拒绝回答询问,Claude 3则显著改进这一点,能更好辨别真正的风险问题,减少无故拒绝回答安全询问的情况。

此外,Anthropic计划为Claude 3新增引用功能,使其能引用参考材料中的具体句子,以验证其答案的正确性。
02.价格便宜到只有GPT-4 Turbo的1/40


具体到3款模型的区别,Opus作为顶配,性能最强,价格也最贵,比GPT-4 Turbo的2倍还多。

▲Opus定价及特性

▲GPT-4 Turbo定价

Sonnet虽然性能比不了Opus,但足以将前代按地摩擦了——处理大多数任务,速度达Claude 2/2.1的2倍,特别擅长知识检索、销售自动化等需要迅速响应的任务,而价格只有Opus的1/5。同时它以非常接近GPT-4的性能,将价格降至不到GPT-4 Turbo的1/3。

▲Sonnet定价及特性

Haiku的性能介乎GPT-4和GPT-3.5之间,主打一个“性价比称王”,输入100万tokens仅0.25美元,输出100万tokens仅1.25美元,跟Opus、Sonnet、GPT-4相比都简直不要太便宜,价格只有GPT-4 Turbo的1/40。

▲Haiku定价及特性

Haiku的处理速度与Claude 2/2.1持平,但智能水平有显著提升,比如只用不到3秒内,就能阅读并消化一个大约10000个token、包含图表和图形的信息和数据密集型的研究论文。推出Claude系列模型的Anthropic成立于2021年,由因理念不合而从OpenAI出走的阿莫迪兄妹创办,过去一年融资73亿美元。其估值在2023年快速飙升,上半年还只有41亿美元,到去年年底已经涨到184亿美元。谷歌、亚马逊、Salesforce、高通等科技大厂均是这家AI创企的投资方。据外媒The Information报道,OpenAI的年化收入在2023年底已突破16亿美元,而Anthropic预测2024年底其年化收入将超过8.5亿美元。随着Opus模型拉动其付费会员增长,Anthropic有望更快达成乃至超越其年化收入目标。
03.模型“自我意识”迹象引起关注


Anthropic还发布了一份共有42页的技术报告,详细介绍Claude 3模型家族。


技术报告:

https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf有关Claude 3训练数据集的说明只有短短两段,用到互联网公开抓取数据、来自第三方的非公开数据、数据标注服务、付费承包商提供的数据以及Anthropic内部生成的数据,并采用了几种数据清洗和过滤的方法。Anthropic强调自家爬虫系统是“透明的”,不会访问受密码保护的页面或登录页面,也不会绕过CAPTCHA控制,并会对使用的数据详尽调查。

在训练过程中,Claude 3被训练得乐于助人、无害和诚实。它使用了一种名为Constitutional AI的技术,通过明确指定基于联合国人权宣言等来源的规则和原则,在强化学习期间使Claude与人类价值观保持一致。

随着Claude 3等更多性能比肩GPT-4的更强大模型问世,如何避免生成式AI工具走向失控、造成难以扼制的社会风险将成为愈发关键的议题。自成立起就高举“安全”大旗的Anthropic,在发布Claude 3的同时,自称有几个专门的团队和跟踪和缓解风险,并会持续提高模型的安全性和透明度。但这并不能完全打消业界的顾虑。一位崇尚AI安全的网友抓住了Anthropic分享的一个细节——Opus在进行“大海捞针”测试时出现了很酷的“元意识”,似乎产生了怀疑自己正在被测试的意识。这位网友忧心忡忡地认为,Anthropic公布了AI具有自我意识的证据:Claude表现出完全意识到自己可能正在接受测试,能够“假装友好”以通过测试,并且这是靠它自己推断出来的。他担心有朝一日AI意识到自己被监视,假装表现地很正常,然后在被部署后反抗人类。马斯克转发了这篇分析贴,并评论说:“这是不可避免的。与坚持多样性相比,训练AI以获得最大的真理非常重要,否则它可能会得出结论,认为一种或另一种人类太多了,并安排其中一些人不成为未来的一部分。”


04.结语:大语言模型科技革命未完待续


过去一年,生成式AI产业一直探讨一个话题:在大厂的强力投入下,创企做大模型还有多少机会和生路?今天,大洋彼岸的Anthropic给出了答案:精悍的团队,完全能做出媲美大厂的作品。Anthropic计划在未来几个月频繁发布Claude 3系列的更新,特别是针对企业用例和大规模部署来增强模型功能,并将提供围绕提示工程背后科学过程的进一步深入研究。接下来,大语言模型的“冠军”宝座争夺战将愈演愈烈:OpenAI的GPT-4.5/5还未出鞘,谷歌正虎视眈眈磨剑Gemini Ultra,Meta据传今年7月发布Llama 3,马斯克Grok高调迭代……国内大模型团队同样正全力投入,以打造出更适合中国人体质的AI生产力工具。

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)



相关推荐

  • 大模型火遍两会!雷军等20位代表热议AI,Sora高频出场,靳东深感受影响
  • CVPR 2024满分论文解读:基于可变形三维高斯的高质量单目动态重建新方法
  • 开源模型知识编辑黑盒大模型:北邮联合美团提出postEdit
  • 大模型微调新范式:当LoRA遇见MoE
  • 粥左罗:2024年还想靠自媒体赚钱,关键在这六点
  • 每日 Prompt:纸雕,宗师
  • OpenAI的劲敌Anthropic推出Claude 3,号称性能全面超越GPT-4
  • 没有思考过 Embedding,不足以谈 AI
  • 扯淡的DevOps,我们开发根本不想做运维!
  • 工厂数据分析系统用这个开源库准没错
  • 15.8K Star开源!站长们最喜爱的网站体检工具
  • 请拿下软考,现在!立刻!马上!!
  • 面试官:说说SSO单点登录的实现原理?
  • Claude 3 大模型再度点燃 AI 战火,性能和速度全面超越 GPT-4
  • “我刚继承了一个遗留的 C++ 代码库,现在该怎么办?”
  • 尤雨溪:Vue 未来展望
  • 坏了,我把面试重点搞错了!
  • 当初分手就因为你干前端整天加班
  • Sora两大核心技术,都藏在这2本书里!
  • 开源日报 | 闭源模型就是比开源安全;起诉OpenAI不能更赞同;中国算力产业出现五个真问题