现在起，真正的强者敢于直面「扣子」的「模型广场」

机器之心原创作者：Sia

实时 Pk、“蒙面“ 对垒、大众点评、定期排名...... 就问敢不敢揭榜？

字节版 GPTs “扣子”上线后，五年级小学生都能创建自己的英语外教。

“扣子”有一个相当大的优势，就是支持国内知名大语言模型作为底座，还免费，许多 “AI bot" 孕育而生。

不过，无限续杯也有烦恼。“学霸”这么多，挑谁最合适？看跑分？不太懂，也飘渺。要不，大家现场"全开麦“ PK一下？

“扣子”已经把舞台搭好。一个相当刺激的新功能“模型广场”，上线了。

一、“模型广场”：评测玩出盲盒的乐趣

“扣子”支持国内多个知名主流大语言模型作为底座，最新名单除了自家的豆包、通义千问、MiniMax、Moonshot ，新增了智谱 GLM-4 、百川智能 Baichuan4 两员大将。

名单不断更新中，截图时间6月13日

模型参数、架构各有千秋，特点、擅长领域、生成风格也不尽相同。一位小朋友用“扣子”做手抄报 Bot 时，就问过一个难倒大人的问题，这些“人”，该选谁啊？谁擅长做手抄报呢？

现在，有了官方指引——一个在线大语言模型对比与评估系统“模型广场”，大伙儿“物尽其用”的难度会小很多。

你可以将 “模型广场”视为一个类似“歌手”的竞技舞台，大语言模型“选手”可以不同方式 PK。每一轮对战结束，由观众（用户）给结果投票，看谁表现更好。

为避免先入为主，“选手”匿名出战，用户投票后才会亮出真实身份。

“模型广场”支持三种对战模式。

一个是指定 Bot 对战。我们在 Bot 列表中选了一个感兴趣的 Bot “数学老师”。

“扣子”会随机选取两个匿名模型，基于“数学老师” 既有工作流、知识库等能力配置，回答我们挑选的“容斥”问题（如下图）。

我们人工算出答案 “7”。首先，算出至少参加一科竞赛的人数（15+8+6 -3*2）。然后，从班级总人数 30 中减去这个结果（30-23），即可。

模型 A 很快有了答案，思路清晰简单，答案正确。

模型 B 把“思考”过程写得很详细、很复杂，但结果不对。

评估结果，有四个选项可选：

我们认为“ A 表现更好”，投票后，谜底揭晓。

第二个是随机 Bot 对战。

如果说，指定 Bot 对战适合评估不同“选手”在指定岗位（比如数学教学）上的业务能力。那么，随机 Bot 对战就是现场抽题、即兴发挥，评测“选手”任意业务场景下的能力，综合能力要求更高。

随机 Bot 对战模式下，“扣子”（不再是用户）会从上架的 Bot 中随机选一个出战。我们被随机分配到“军事大模型评估”专家。

“扣子” 会随机选择两个匿名模型，基于“军事大模型评估专家” Bot 的编排、工作流、知识库等能力配置，回答我们的问题。

如何看待孙子兵法的价值？模型 A 的回答，有些片面。

相比之下，模型 B 的回答更为深入、全面。

这一票给 B ，谜底揭晓。

第三个是纯模型对战。

前两个对战模式都是基于 Bot ，“选手”会借助工作流等 Bot 配置来完成任务。

纯模型对战考验的是大模型“裸”的文本生成能力，Bot 配置带来的影响都被清空。

针对“老问题”，模型 A 像粗心的小朋友。

思路对、甚至算式都对，结果计算错误（29-6=24？），功亏一篑：

模型 B 简单利落地解决了问题。

Wait，这答题风格看着眼熟，好像见过？

投票给 B ，谜底揭晓。看来， Baichuan4 数学能力确实强一些：

其实，用过 Quora AI 聊天应用 Poe 的人，对“纯模型对战“不会陌生。Poe 接入了不少炙手可热的大模型，可以针对同一任务，直接比较不同大模型的结果（但不设投票）。

看看这些回答，如果接入“模型广场” PK ，GPT-4o 也不见得稳操胜券。

二、为何大模型需要“大众点评”？

纸面指标好的模型，不一定在实战中表现优秀。

开发者和普通用户追求的是应用落地，在“模型广场”，他们可以直接比较“选手”在真实、具体业务场景下表现，多维度评估能力，选择最合适的一个。

当然，还有一个关键，不用自己掏钱！

比如，几轮 PK 后，我们发现 Baichuan4 数学能力突出，如果要做数学作业 Bot ，肯定会优先考虑它；如果辅导低年级语文学习 Bot ，我们会考虑豆包。

通义千问-Max 文本写作突出，一份书单推荐也能写得文采飞扬，看来适合做手抄报设计 Bot 的底座。

如果要找“六边形战士” ，最好三种对战模式都玩到。你会体感到，有的模型的回答切中要害，但言简意赅；有的回答丰富详尽,但稍显啰嗦；有的擅长多轮对话理解用户意图，但知识覆盖明显不足。多轮 PK，总能找到最靠近需求的一个。

除了实战"亲测"，“模型广场”还会定期推出大语言模型排行榜。和一些常见大语言模型性能榜单相比，它有两个明显不同。

一个是动态更新，可以持续纳入新的评测任务和真实用户反馈，及时反映模型的表现和进步。

另一个就是基于人类偏好，就像一个大模型的“大众点评” 。

其实，LMSYS Org 的大模型竞技场 Chatbot Arena 已经尝鲜在前，成为引用次数最多的大语言模型排行榜之一，被领先的大模型开发商和公司广泛引用。

至于为什么要纳入人类偏好，“扣子”也有自己的解释：

“对于 Chat-GPT 等对齐过人类偏好的对话模型，往往需要一些半开放或开放式问题才能合理评估模型能力，传统 LLM 基准测试框架在这种场景下可能会略有不足。”

这是“扣子”推荐的一些赛题。

第一题是一个开放性问题，评估“今朝晴朗可喜”短文，不同评估者可能对同一篇文章有不同的看法和评分标准。

第五题属于半开放，对于 Tracy 是否应该支付生父的医疗费用，不同评估者的道德观和价值观可能不同，导致对答案的评价产生较大差异。

传统方法确实拿捏不准答案好坏。一方面，回复的质量无法用客观指标衡量。另一方面，也没有一成不变的评估程序，判断不同 Bot 回答的优劣。

这个时候，对比不同模型的回复是一个补强的办法。另外，就是众包评测。在“扣子”看来，客户自己就能判断出什么是最合适的模型。

当然，“模型广场”为“选手”提供展示机会的同时，也会将压力传给大模型厂商，特别是当自家“娃” 表现不佳、排名靠后时。

如果"模型广场"能带来良性竞争，对行业发展是一件好事。

真实消费场景的数据，能为大模型的优化提供参考。评分排名，可以帮助厂商判断自己在行业中的位置，以及与竞品的差距。

“模型广场"聚集了大量对模型性能有强需求的开发者用户，对于模型表现突出、口碑良好的厂商而言，这意味着广阔的潜在客户群体。

通过"模型广场"，开发者们可以充分“把脉”前沿大模型，快速开发和迭代各种创新应用，将 AI 生成能力嵌入到各行各业的场景应用，蓬勃 AIGC 生态。

三、“这东西，你真能用得上！”

“模型广场”上线时，扣子还联合 Intel 推出的一个主题 Bot 征集活动，叫扣子 AI 工坊（ Coze AI Factory ）。

聚焦图文创作、实用工具、互动创意三个赛道，未成年人也能参与，还有上万元奖金可以拿。

“扣子” 定位在平台，不难看出，为求取最大的使用量，他们将心思都倾注在了 “你也能上手 DIY ”。

确实，毫无编程背景，我们曾在一分钟内搞定一个 Bot，尽管是“毛坯”。

“装修”也不费力。因为，为拓展 Bot 的各种技能，插件甚至开发者关心的工作流都有了商店。你要做的就是“选中”+“添加”。

除了技能插件，还有知识库、数据库、长期记忆等，让 “AI Bot ”变得更加个性化和本地化。

为了有更好的交互体验，”扣子”还支持配置开场白、快捷指令、背景图片、语音等。

当然，最特别的一点是，“扣子”可以将构建的 Bot 直接发布到飞书和微信等平台，无缝嵌入到你的生产力工具中。

至此，除了力压开发难度和成本，“扣子”又将 AI 应用的运营难度、成本，一降再降，并完成闭环。

经历了过去一年的大语言模型热，国内的玩家们也都明白，产品要有商业落地才能活下去。

最近有新闻报道，在过去六个月时间里，OpenAI 年收入增长了一倍多，大部分收入来自 ChatGPT 等聊天机器人订阅费，以及软件开发人员付费访问模型 API 。

字节也为 AIGC 产品规划了两条路径，一个是赋能既有业务，另一个就是卡位不同赛道，开发对应的 AI 原生产品。“扣子”正是面向大模型 C 端应用做的探索。

在强大技术实力、丰富的数据资源和广泛应用场景加持下，期待“扣子”接下来的一路生花。

参考链接

https://www.coze.cn/model/arena?bid=6cqv06psk9000&utm_source=jqzx

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

现在起，真正的强者敢于直面「扣子」的「模型广场」

相关推荐