Claude 3 相比 GPT-4 到底强在哪?我整理了一份总结

夕小瑶科技说 原创
作者 | 智商掉了一地

在 AI 领域,大模型的竞争日益激烈,每一次技术的迭代都在推动着智能生成的边界不断拓展。

距离 Sora 震惊行业内外仅半个月,最近又有一则让 AI 圈为之一振的重大新闻。就在 OpenAI 忙着和马斯克打官司的同时,竞争对手公 Anthropic 抢先发布了新版的强大模型 Claude 3。这个模型犹如一匹黑马,在实验效果和众多实际测评中脱颖而出。它不仅在多项基准测试中超越了“前辈” GPT-4,更在用户体验上获得了极高的评价,为 AI 行业树立了新的标准。

体验入口:
http://claude.ai

Claude3 简介:
https://www.anthropic.com/news/claude-3-family

在发布之初,Claude 3 就设置了三种不同定位的模型,提供给不同需求的用户使用:

  • Haiku - 轻量版:这是最轻便迅速的版本,适用于需要快速、简洁回答的场景。
  • Sonnet - 均衡版:这是最“勤奋”的版本,速度比之前的版本快一倍,擅长处理需要迅速响应的任务(如知识检索)。
  • Opus - 旗舰版:在处理复杂任务和大规模数据集时表现出色,适用于需要强大计算能力的场景。
▲图源 Anthropic 官网

不愧是从 OpenAI 分裂出来的竞争对手,Anthropic 在盈利模式上就已经能够和 OpenAI 打擂台了,除了 Haiku 和 Sonnet 之外,想要体验旗舰版的 Claude 3,就要氪金升级到使用 Opus 模型。仅从定价策略来看,就能感受到 Anthropic 对新模型的信心十足。

而且,Claude 3 还计划后续向大型企业客户提供 AI 的专有服务和功能,如代码辅助。

Claude 3 的特点:更智能、更快速、更安全

那么,Claude 3 究竟比 GPT-4 强在哪里呢?在深夜悄悄更新的博客中,用了这样一张图来诠释和同行的性能比较,官方更是声称 Opus 模型能够媲美本科生水平。

在先前的版本中,Claude 系列的模型就以其更长的上下文窗口(模型一次可以处理的信息量)而闻名,而最新的模型,无论是 Haiku 还是 Opus,都可以支持 100 万 token 长度的上下文输入,远远超过了原始 GPT-4 的 8k token 限制。但其实,这还不是全部。具体来说:

1. 推理能力更胜一筹

在多项基准测试中,Claude 3 超越了 GPT-4,特别是在高级认知任务上,如本科级别的专家知识(MMLU)、研究生级别的专家推理(GPQA)和基础数学(GSM8K)等方面。其中,Opus 模型展现了接近人类水平的理解和流畅度,在复杂任务上的表现领先于同类模型。

2. 视觉处理能力

Claude 3 引入了视觉处理能力,能够处理不同的图像格式,如照片、图表,以及跨 PDF、流程图等多种格式的提取。这使得其在处理需要视觉信息的任务时具有优势,特别是对于那些将知识库中的信息以不同形式表现出的企业客户。

3. 更长的上下文窗口

Claude 3 显著扩大了上下文窗口,能够一次处理高达 100 万个 token 的输入。这使得模型能更有效地处理长文档和复杂的信息流,从而能够实现更细致地从长文档中准确提取信息[2]。

4. 安全性和透明度提升

Claude 3 在减少不必要的拒绝和提高对复杂问题理解的准确性方面取得了显著进步。与先前的 Claude 2.1 相比,新模型在处理挑战性开放式问题的准确性上翻了一番,并减少了错误答案的数量[3]。

5. 定制化的输出格式

Claude 3 能够遵循复杂的指令并以结构化的输出格式(如 JSON)产生结果,使其适用于自然语言处理的各种任务。这一特点为用户提供了更多的灵活性和应用可能性。

▲图源 X 平台,@skalskip92[7]

6. 定价策略和可访问性

虽然定价策略和可访问性不直接反映模型的技术优势,但 Anthropic 对 Claude 3 的定价策略显示出对其性能的信心。此外,提供不同版本的模型(如 Claude 3 Haiku、Sonnet 和 Opus)允许用户根据他们的具体应用需求选择最佳的智能、速度和成本平衡[2]。

用户体验方面的优势

致力于用户体验不仅是提高 AI 产品质量的必要步骤,也是 Anthropic 在激烈竞争中脱颖而出的关键策略。简单来看,Claude 3 对于用户比较友好的地方有很多,那么,它又是如何做到的呢?

1. 交互设计

  • 复杂多步骤指令的执行能力:Claude 3 在执行复杂的多步骤指令方面表现更好,比如在需要遵循品牌特定语言风格生成回复的场景中,能够创建用户信赖的客户体验,感觉这样的操作是为了后续企业级应用在做铺垫。

2. 个性化服务

▲图源 X 平台,@jerryjliu0[5]
  • 多模态信息处理:Claude 3 是能够处理多种视觉格式的大型语言模型,其多模态能力和 GPT4V 不相上下,在学术方面,理解科学类示意图(Science Diagram)方面的能力很突出,能够为用户提供更加个性化和丰富的交互体验。
  • 多语言沟通能力:此外,Claude 3 显著增强了处理非英语语言方面的能力,能够更好地理解和生成西班牙语、日语和法语等语言的内容,为多文化交流提供更准确、流畅的交流体验。

3. 优化实时交互

▲图源 X 平台,@airesearchtools[6]
  • 实时交互优化:Claude 3 系列模型针对实时交互进行了优化,从而提升实时聊天、自动补全和数据提取等功能的回复速度。特别是强大的 Opus 模型,在多项评估基准上展现出几乎与人类相匹敌的理解能力。而且,就算是轻量版的 Haiku 模型也不遑多让,它是市面上同类智能模型中最快、最具成本效益的模型,可以在不到三秒的时间内阅读 arXiv 上的信息和数据密集型研究论文(约 1 万个 token),此外,理解论文中的图表和图片也不在话下,有了它,相信组会产出效率 up up。
  • 处理速度提升:对于大多数任务而言,Sonnet 模型的处理速度是 Claude 2 和 Claude 2.1 的 2 倍,它特别擅长快速响应的任务(如知识检索或自动化销售)。

4. 安全性和透明度

  • 修复“一问三不知”:Claude 3 系列在以前由于理解不到位而无意义地拒绝回答问题的情况上取得了明显的改进这一改进提高了用户的体验,使得用户感觉对话更加流畅且回答的准确性也有所提高。
  • 偏见减少:根据问题回答偏见基准(BBQ),Claude 3 的偏见比以往的模型更少,提高了用户体验的公正性和可靠性。

5. 支持长上下文窗口

  • 超长上下文支持:Claude 3 系列的模型至少能支持 20 万 token 的上下文窗口,能够处理超过 100 万 token 的输入,为需要更大上下文窗口的特定客户提供了更好的支持,比如需要读长论文的科研党,试问还有什么论文能比约 100 万词汇的全册《哈利·波特》更长?

Claude 3 问答大赏

我们接着回到网友的各种测评,看看和 GPT-4 相比,Claude 3 究竟有何亮眼表现。

阅读 PDF 并总结每一章

网友要求 GPT-4 和 Claude 3 阅读 PDF 文档,提供其摘要和章节的细节,但 GPT-4 仅提供了一个非常简短的摘要,没有提供细分章节内容。随后,网友向两个模型提出了一个具体问题,Claude 3 提供了 PDF 文档中的确切引用和详细回答,而 ChatGPT 没有提供文本引用。

在这轮测试中,Claude 胜出。

写押韵版的诗

网友又测试了它们写诗的能力,在初步的写作任务中,两个模型的表现都出色。

随后,网友提出了进阶版要求——让模型使用“ABAB”押韵模式写诗。

结果显示,Claude 3 成功地按要求写出了押韵的诗,而 chatGPT 则没有做到。这可以视为大模型首次通过这种特定的押韵测试。在这轮测试中,Claude 3 再次胜出。

写童话故事

在第三轮测试中,网友要求这俩大模型创作一个类似于法国寓言诗人 La Fontaine 风格的儿童故事。在故事创作方面,两个模型的表现很难区分。但当要求它们提供故事的寓意时,Claude 3 提供了更好的回答,使用了要点列举的方式,而 ChatGPT 给出的回答则不够精确。

因此,在这第三轮测试中,仍旧可以认为 Claude 3 胜出。

可以通过上述测评看到,Claude 3 的回答相较于 GPT-4 来说更严谨,比较注重细节,同时也展现了它在理解复杂任务、提供详细信息以及创造性写作方面的潜力。

然而,这些测试结果并不意味着 Claude 3 在所有方面都优于 GPT-4,因为每个模型的表现还会受到其它因素的影响,包括但不限于训练数据的多样性、任务的具体性质以及用户的个别需求。

通过对 Claude 3 的分析,我们可以看到,它之所以能够在一些问答的效果上超越 GPT-4,归功于其在算法优化、数据处理和用户交互等方面的一系列提升。

AI 领域激烈竞争,国内大模型研究该何去何从?

近期,腾讯新闻的一则访谈让小编感触颇深,主角是被誉为“独角兽捕手”的投资人朱啸虎,他的观点展现了一个更趋于现实版的中国 AIGC 故事,在访谈中他对于国内的大模型初创公司发表了犀利观点,甚至直言“没戏”。

但“没戏”就代表不继续干了吗?

GPT-4、Sora、Gemini、Claude 3……这些在基础大模型领域领跑的产品,都出自于美国的团队或公司,从数据到模型,无一不需要大量花费与顶尖人才。在朱啸虎的观点中,要想得到一个和 GPT-4 一样的大模型,得为科研团队源源不断地投入,光搞科研至少就要砸四五千万美元,要想做出 GPT-5,甚至高达几亿美元。随着持续投入高额资金和海量人才,也无外乎其产品领先于国产大模型。而对于投资人来说,在模型问世之前,谁也不会知道这些投入究竟会激起多大的水花

但我们国内的团队真的就因此而没必要研究大模型了吗?其实不然,并不能总站在商业和市场化的角度去简化问题,考虑科技前沿的问题可以从更高的层面出发,大模型的研究不仅仅是商业竞争的一部分,还涉及到国家安全和科技发展的战略层面

对于维护国家安全来说,一个本土的基础大模型,是非常有必要存在的,数据如今也成为了重要资产,除了可能的数据泄露问题以外,在应用了来自外部的基础大模型之后,一旦外部技术供应链出现问题,都可能会对我们的信息处理和智能决策产生影响。

此外,大模型的研究也是推动科技创新和产业升级的关键驱动力之一。很多基础模型正在从计算机领域出圈,逐渐涉足到医疗、金融、教育等行业,为这些领域带来了巨大的创新机会。因此,尽管面临着巨大的挑战和投入成本,但我国的科技团队仍然有必要继续在大型模型领域进行研究和发展,以确保国家在人工智能领域的长期竞争力和领先地位。

因此,小编和网友持一样的观点,就算差距有百年之大,甚至可能从今天才开始立项,也还是要搞大模型的,很多东西的诞生不能只算经济账。尽管道路可能艰难,但我们不应该因此而止步不前。历史的经验告诉我们,有些东西可以不先进,但我们不能没有。在解决卡脖子问题之前,是需要先创造出它,只要开始走路,就算走慢点也是在进步。

诚如朱啸虎所说,在国外投入海量资金试错之后,我们努力的成本(包括资金和人才)可能会少一个数量级,但也需要权衡利弊,决定是否投入更多资源来开发 AGI,以保持我们在 AI 领域的竞争力。如果我们选择等待美国不断试错并解决问题,可能会导致我们的发展相对滞后,在技术上处于被动地位,错过在 AGI 领域取得领先地位的机会。

那么,国内大模型研究的出路又在何方

单就从基础大模型来说,我们还需要去努力研发,但短期内想要赶超国外应该只是理想层面的目标。而在访谈中,朱啸虎透露出在国内的 AIGC 第一波机会爆发在企业服务,其实在大模型的应用层面,国内的研究团队或许能在数据和场景上找到方向。通过充分利用国内丰富的数据资源和特定的应用场景,深入研究和开发针对特定行业或领域的大模型应用,推动行业智能化发展。

总结

虽然距离完美还有很大一段路要走,但 Claude 3 的成功不仅标志着 AI 在理解和生成自然语言方面的新进展,也为未来的大模型的发展提供了一定的参考。就比如尽管已经有着 OpenAI 的成功产品诸如 GPT-4 在前,Anthropic 还是推出了 Claude 3 系列模型,在大模型领域的竞争仍然十分激烈,而且不同团队之间都在不断努力推动技术的进步和创新。

Claude 3 的成功不仅证明了团队在技术研发和应用方面的实力,也为未来大模型的发展提供了有益的经验和启示。正是这种不断竞争与创新的态势,在推动着人工智能技术不断向前发展,为智能对话和各种领域的应用带来了更加广阔的前景。

国内外的 AI 研究与应用部署如火如荼,我们有理由相信,随着大型模型的不断发展和应用,人们与智能系统之间的交互将变得更加自然流畅,个人和企业用户将享受到前所未有的智能化服务和体验~

参考资料

[1]https://www.lesswrong.com/posts/JbE7KynwshwkXPJAJ/anthropic-release-claude-3-claims-greater-than-gpt-4
[2]https://www.fastcompany.com/91046925/anthropic-claude-3-models
[3]https://the-decoder.com/anthropics-claude-3-llm-challenges-gpt-4-with-improved-intelligence-and-visual-capabilities/
[4]https://twitter.com/RubenHssd/status/1765053949235917087
[5]https://twitter.com/jerryjliu0/status/1765101841535336929
[6]https://twitter.com/airesearchtools/status/1764756892474016109
[7]https://twitter.com/skalskip92/status/1765111519229235557
[8]https://new.qq.com/rain/a/20240306A00LZ800
[9]https://view.inews.qq.com/a/20240306Q01T9U00?no-redirect=1 

相关推荐

  • 好家伙!一个 Claude 3 约等于一个本科生...
  • 热搜第一!娃哈哈是高校实验室御用水,曾多次被写进论文里
  • 高校有哪些编制?哪些是高校“假编制”?
  • 急需有声配音员:对照文案阅读即可,地点、时间不限,不会可免费培训!
  • OpenAI公布重要邮件,反击马斯克起诉
  • 大模型与消费级GPU更配哦~|即将迎来"1-bit时代"
  • 图生文多模态大模型开源项目回顾:兼看20240307大模型进展早报
  • 多篇综述理清知识图谱现状,这167篇论文值得一读!
  • 进我的收藏夹吃灰吧:大模型加速超全指南来了
  • SpringBoot AOP + Redis 延时双删功能实战
  • 美团优选 | 智能推荐算法工程师
  • 万字长文 | Sora技术解析报告
  • 用 Python 优雅地编写 LaTeX
  • Sora 背后的大杀器:不仅仅是 DiT...
  • React状态管理专题:什么是属性钻取(Prop Drilling)
  • Spring boot 集成GraalVM JS引擎快速入门demo
  • 如果让你实现实时消息推送你会用什么技术?轮询、websocket还是sse
  • 2024年,大模型这些方向再次卷疯了!
  • 前端最能打的本地存储方案
  • 使用租户ID,实现一个企业级的SaaS系统,完整方案来了!