夕小瑶科技说 原创
作者 | 智商掉了一地
在 AI 领域,大模型的竞争日益激烈,每一次技术的迭代都在推动着智能生成的边界不断拓展。
距离 Sora 震惊行业内外仅半个月,最近又有一则让 AI 圈为之一振的重大新闻。就在 OpenAI 忙着和马斯克打官司的同时,竞争对手公 Anthropic 抢先发布了新版的强大模型 Claude 3。这个模型犹如一匹黑马,在实验效果和众多实际测评中脱颖而出。它不仅在多项基准测试中超越了“前辈” GPT-4,更在用户体验上获得了极高的评价,为 AI 行业树立了新的标准。
体验入口:
http://claude.ai
Claude3 简介:
https://www.anthropic.com/news/claude-3-family
在发布之初,Claude 3 就设置了三种不同定位的模型,提供给不同需求的用户使用:
不愧是从 OpenAI 分裂出来的竞争对手,Anthropic 在盈利模式上就已经能够和 OpenAI 打擂台了,除了 Haiku 和 Sonnet 之外,想要体验旗舰版的 Claude 3,就要氪金升级到使用 Opus 模型。仅从定价策略来看,就能感受到 Anthropic 对新模型的信心十足。
而且,Claude 3 还计划后续向大型企业客户提供 AI 的专有服务和功能,如代码辅助。
那么,Claude 3 究竟比 GPT-4 强在哪里呢?在深夜悄悄更新的博客中,用了这样一张图来诠释和同行的性能比较,官方更是声称 Opus 模型能够媲美本科生水平。
在先前的版本中,Claude 系列的模型就以其更长的上下文窗口(模型一次可以处理的信息量)而闻名,而最新的模型,无论是 Haiku 还是 Opus,都可以支持 100 万 token 长度的上下文输入,远远超过了原始 GPT-4 的 8k token 限制。但其实,这还不是全部。具体来说:
在多项基准测试中,Claude 3 超越了 GPT-4,特别是在高级认知任务上,如本科级别的专家知识(MMLU)、研究生级别的专家推理(GPQA)和基础数学(GSM8K)等方面。其中,Opus 模型展现了接近人类水平的理解和流畅度,在复杂任务上的表现领先于同类模型。
Claude 3 引入了视觉处理能力,能够处理不同的图像格式,如照片、图表,以及跨 PDF、流程图等多种格式的提取。这使得其在处理需要视觉信息的任务时具有优势,特别是对于那些将知识库中的信息以不同形式表现出的企业客户。
Claude 3 显著扩大了上下文窗口,能够一次处理高达 100 万个 token 的输入。这使得模型能更有效地处理长文档和复杂的信息流,从而能够实现更细致地从长文档中准确提取信息[2]。
Claude 3 在减少不必要的拒绝和提高对复杂问题理解的准确性方面取得了显著进步。与先前的 Claude 2.1 相比,新模型在处理挑战性开放式问题的准确性上翻了一番,并减少了错误答案的数量[3]。
Claude 3 能够遵循复杂的指令并以结构化的输出格式(如 JSON)产生结果,使其适用于自然语言处理的各种任务。这一特点为用户提供了更多的灵活性和应用可能性。
▲图源 X 平台,@skalskip92[7]虽然定价策略和可访问性不直接反映模型的技术优势,但 Anthropic 对 Claude 3 的定价策略显示出对其性能的信心。此外,提供不同版本的模型(如 Claude 3 Haiku、Sonnet 和 Opus)允许用户根据他们的具体应用需求选择最佳的智能、速度和成本平衡[2]。
致力于用户体验不仅是提高 AI 产品质量的必要步骤,也是 Anthropic 在激烈竞争中脱颖而出的关键策略。简单来看,Claude 3 对于用户比较友好的地方有很多,那么,它又是如何做到的呢?
我们接着回到网友的各种测评,看看和 GPT-4 相比,Claude 3 究竟有何亮眼表现。
网友要求 GPT-4 和 Claude 3 阅读 PDF 文档,提供其摘要和章节的细节,但 GPT-4 仅提供了一个非常简短的摘要,没有提供细分章节内容。随后,网友向两个模型提出了一个具体问题,Claude 3 提供了 PDF 文档中的确切引用和详细回答,而 ChatGPT 没有提供文本引用。
在这轮测试中,Claude 胜出。
网友又测试了它们写诗的能力,在初步的写作任务中,两个模型的表现都出色。
随后,网友提出了进阶版要求——让模型使用“ABAB”押韵模式写诗。
结果显示,Claude 3 成功地按要求写出了押韵的诗,而 chatGPT 则没有做到。这可以视为大模型首次通过这种特定的押韵测试。在这轮测试中,Claude 3 再次胜出。
在第三轮测试中,网友要求这俩大模型创作一个类似于法国寓言诗人 La Fontaine 风格的儿童故事。在故事创作方面,两个模型的表现很难区分。但当要求它们提供故事的寓意时,Claude 3 提供了更好的回答,使用了要点列举的方式,而 ChatGPT 给出的回答则不够精确。
因此,在这第三轮测试中,仍旧可以认为 Claude 3 胜出。
可以通过上述测评看到,Claude 3 的回答相较于 GPT-4 来说更严谨,比较注重细节,同时也展现了它在理解复杂任务、提供详细信息以及创造性写作方面的潜力。
然而,这些测试结果并不意味着 Claude 3 在所有方面都优于 GPT-4,因为每个模型的表现还会受到其它因素的影响,包括但不限于训练数据的多样性、任务的具体性质以及用户的个别需求。
通过对 Claude 3 的分析,我们可以看到,它之所以能够在一些问答的效果上超越 GPT-4,归功于其在算法优化、数据处理和用户交互等方面的一系列提升。
近期,腾讯新闻的一则访谈让小编感触颇深,主角是被誉为“独角兽捕手”的投资人朱啸虎,他的观点展现了一个更趋于现实版的中国 AIGC 故事,在访谈中他对于国内的大模型初创公司发表了犀利观点,甚至直言“没戏”。
但“没戏”就代表不继续干了吗?
GPT-4、Sora、Gemini、Claude 3……这些在基础大模型领域领跑的产品,都出自于美国的团队或公司,从数据到模型,无一不需要大量花费与顶尖人才。在朱啸虎的观点中,要想得到一个和 GPT-4 一样的大模型,得为科研团队源源不断地投入,光搞科研至少就要砸四五千万美元,要想做出 GPT-5,甚至高达几亿美元。随着持续投入高额资金和海量人才,也无外乎其产品领先于国产大模型。而对于投资人来说,在模型问世之前,谁也不会知道这些投入究竟会激起多大的水花。
但我们国内的团队真的就因此而没必要研究大模型了吗?其实不然,并不能总站在商业和市场化的角度去简化问题,考虑科技前沿的问题可以从更高的层面出发,大模型的研究不仅仅是商业竞争的一部分,还涉及到国家安全和科技发展的战略层面。
对于维护国家安全来说,一个本土的基础大模型,是非常有必要存在的,数据如今也成为了重要资产,除了可能的数据泄露问题以外,在应用了来自外部的基础大模型之后,一旦外部技术供应链出现问题,都可能会对我们的信息处理和智能决策产生影响。
此外,大模型的研究也是推动科技创新和产业升级的关键驱动力之一。很多基础模型正在从计算机领域出圈,逐渐涉足到医疗、金融、教育等行业,为这些领域带来了巨大的创新机会。因此,尽管面临着巨大的挑战和投入成本,但我国的科技团队仍然有必要继续在大型模型领域进行研究和发展,以确保国家在人工智能领域的长期竞争力和领先地位。
因此,小编和网友持一样的观点,就算差距有百年之大,甚至可能从今天才开始立项,也还是要搞大模型的,很多东西的诞生不能只算经济账。尽管道路可能艰难,但我们不应该因此而止步不前。历史的经验告诉我们,有些东西可以不先进,但我们不能没有。在解决卡脖子问题之前,是需要先创造出它,只要开始走路,就算走慢点也是在进步。
诚如朱啸虎所说,在国外投入海量资金试错之后,我们努力的成本(包括资金和人才)可能会少一个数量级,但也需要权衡利弊,决定是否投入更多资源来开发 AGI,以保持我们在 AI 领域的竞争力。如果我们选择等待美国不断试错并解决问题,可能会导致我们的发展相对滞后,在技术上处于被动地位,错过在 AGI 领域取得领先地位的机会。
那么,国内大模型研究的出路又在何方?
单就从基础大模型来说,我们还需要去努力研发,但短期内想要赶超国外应该只是理想层面的目标。而在访谈中,朱啸虎透露出在国内的 AIGC 第一波机会爆发在企业服务,其实在大模型的应用层面,国内的研究团队或许能在数据和场景上找到方向。通过充分利用国内丰富的数据资源和特定的应用场景,深入研究和开发针对特定行业或领域的大模型应用,推动行业智能化发展。
虽然距离完美还有很大一段路要走,但 Claude 3 的成功不仅标志着 AI 在理解和生成自然语言方面的新进展,也为未来的大模型的发展提供了一定的参考。就比如尽管已经有着 OpenAI 的成功产品诸如 GPT-4 在前,Anthropic 还是推出了 Claude 3 系列模型,在大模型领域的竞争仍然十分激烈,而且不同团队之间都在不断努力推动技术的进步和创新。
Claude 3 的成功不仅证明了团队在技术研发和应用方面的实力,也为未来大模型的发展提供了有益的经验和启示。正是这种不断竞争与创新的态势,在推动着人工智能技术不断向前发展,为智能对话和各种领域的应用带来了更加广阔的前景。
国内外的 AI 研究与应用部署如火如荼,我们有理由相信,随着大型模型的不断发展和应用,人们与智能系统之间的交互将变得更加自然流畅,个人和企业用户将享受到前所未有的智能化服务和体验~