WizardLM新作!ArenaLearning: 通过模拟LLM竞技场来构建大规模数据飞轮



指令数据越来越多,哪些真正应该被用来训练?
每个模型各有优点,如何博采众长为己所用?
PaperWeekly 今天帮大家精读 WizardLM 团队最新论文:Arena Learning,这是一种让 LLM 在模拟竞技场中相互对战,并不断提升的全新的数据飞轮训练算法。

论文标题:

Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena

论文链接:

https://www.microsoft.com/en-us/research/publication/arena-learning-build-data-flywheel-for-llms-post-training-via-simulated-chatbot-arena/



背景

近年来,自然语言处理领域经历了一场显著的变革,这得益于大型语言模型(LLM)经过海量文本数据训练,在各种任务中表现出了理解、生成和与人类语言交互的卓越能力。基于 LLM 的聊天机器人成功的关键因素之一是能够利用大规模高质量指令数据进行有效的 post-training,如 SFT 和 RLHF。
随着各种大模型应用的快速实施和推理成本的降低,企业和消费者对使用大语言模型服务的兴趣和需求迅速增加。如图 1 所示,仅 OpenRouter 平台每天将处理超过 600 亿 token。同时,随着应用场景的创新和深化,这需要 LLM 不断演进以适应用户的新意图和指令。因此,构建高效的数据飞轮,不断收集反馈,查缺补漏,提升模型能力,成为下一代人工智能研究的关键方向。在此背景下,LMSYS Chatbot Arena 的出现是一个重大进展,它通过让不同聊天机器人模型在一系列对话挑战中相互竞争,利用多样化的人类评估者判定,并使用 Elo 评分系统进行排名。同时,它还开放了一些真实的直接聊天和战斗偏好数据,这些数据已被证明是模型 post-training 和开发指导的宝贵资源。
然而,以人为中心的评估过程也存在自身的挑战:手动安排和等待聊天机器人与人类评估者之间的互动可能非常耗时且昂贵,从而限制了评估和训练数据开源周期的规模和频率。另一方面,由于优先级限制,大多数模型无法参与竞技场评估,开源社区也最多只能获得 10% 的聊天数据,因此很难直接有效地指导基于该竞技场快速开发新模型。因此,对更高效、可扩展的基于竞技场的聊天机器人 post-training 和评估系统的需求变得越来越迫切。
本文提出了一种名为 Arena Learning 的数据飞轮训练技术,可以模拟 Chatbot Arena 的场景,让最先进的 LLM 在大规模指令数据上不断地相互竞技,然后基于 AI 标注的战斗结果进行有监督微调(SFT)或强化学习(RL),以此来不断增强模型:整套全 AI 驱动的数据飞轮实现了“对战-训练-评估-再对战-再训练-再评估”的完美闭环。
特别地,本文还提出了一个新的离线测试集— WizardArena —用于新模型的性能评估及选择,它可以准确地预测模型的 Elo 排名。从其给出的排名结果来看,WizardArena 与 LMSYS Chatbot Arena 的 ranking 结果一致性高达 98.79%,但该模拟竞技场的对战评判效率(等效 16 H100 算力情况下)却实现了高达 40 倍的提升,如下表 2 所示:最终实验结果表明,基于 Arena Learning 训练的模型 WizardLM-β 在 SFT、DPO 和 PPO 阶段均显著提高了模型性能。

方法

2.1 LLM as Judge

Arena Learning 中构建模拟竞技场战斗的核心是一个强大的 LLM,它充当“裁判模型”。裁判模型的作用是分析和比较配对战斗模型的响应。输入是对话历史、用户指令和两个 LLM 的响应。输出包括每个 LLM 的分数,以及针对各种因素(例如连贯性、事实准确性、上下文意识和整体质量)的解释,以确定一个响应是否优于另一个。
每个模型都会获得 1 到 10 的总体分数,分数越高,整体表现越好。下文在竞技场 post-training 阶段和评估阶段中均使用 Llama-3-70B-Instruct 作为“裁判模型”。

2.2 Data Flywheel

收集大规模指令数据

论文中使用了 276K 数据模拟多阶段的增量飞轮数据。数据收集过程涉及过滤、清理和重复数据删除等几个阶段,以确保指令数据的质量和多样性。本文将数据平均分成几个部分 D = {D_0, D_1, D_2, ..., D_N},分别用于后续迭代训练和更新。然后使用模拟竞技场战斗结果为 WizardLM-β 生成训练数据,并针对不同的训练策略进行定制:监督微调(SFT)、直接偏好优化(DPO)和近端策略优化(PPO)。

迭代式对战与模型进化

Arena Learning 采用迭代过程来训练和改进 WizardLM-β。在每一轮模拟竞技场战斗和训练数据生成之后,WizardLM-β 使用适当的训练策略(SFT,DPO 和/或 PPO)进行更新。然后这个更新的模型被重新引入竞技场,它再次与其他 SOTA 模型战斗。这个迭代过程允许 WizardLM-β 不断改进和适应竞技场的不断变化。随着模型变得越来越强大,模拟战斗也变得越来越具有挑战性,这迫使 WizardLM-β 不断突破自己的界限,学习其他模型所展示的最新策略和能力。
以下是第一轮训练迭代 I1:首先使用数据集 D0 训练初始版本的 WizardLM-β-SFT-I0,然后选择一些在 WizardArena 测试集上排名靠前的模型集合 M 作为对战目标。接下来将 WizardLM-β-SFT-I0 作为竞争模型,在 D1 数据集上与 M 对战,并专注于提取那些裁判模型认定 WizardLM-β 的 Response不如 Winner model 的 Response 的实例。这些实例被收集起来,并用 Winner model 的 Response 作为目标输出,用于微调下一个模型 WizardLM-β-SFT-I1。
对于DPO,使用 WizardLM-β-SFT-I1 作为竞争模型,与 M 在 D2 上对战,然后将胜负 Response 视为 <Choose,Reject> 对来训练 WizardLM-β-DPO-I1。
对于 PPO,利用WizardLM-β-DPO-I1 与 M 在 D3 上的相同对战过程,获取 <Choose,Reject> 对来训练奖励模型和 WizardLM-β-PPO-I1。在第二轮训练迭代 I2 中,选择在 WizardArena 上表现最佳的 WizardLM-β-PPO-I1 作为 I2 的初始竞争模型,并采用类似的过程训练接下来的 SFT,DPO 和 PPO 模型。下表 1 显示了每个阶段使用的数据和模型的详细信息。2.3 WizardArena为了准确评估聊天机器人模型的性能并预测其 Elo 排名,本文提出了一个新的离线测试集 WizardArena — 用于模型能力在兼具多样性和复杂性指令上的全面评估。WizardArena 包含:

Diverse Subset & Hard Subset

首先,论文使用 K-Means 聚类算法将源数据处理成 500 个类别。从每个类别中,随机选取两个样本,构建 1000 个多样性样本,创建 Offline-Diverse WizardArena。此外,从每个类别随机选择 20 个样本,形成一个包含 10000 条的数据集,然后使用 GPT-4 按难易程度从 0 到 10 评估每个指令,并筛选出难度最高的 1000 条数据,创建 Offline-Hard WizardArena。
Offline-Mix WizardArena 将多样性和困难测试集合并为 2000 个样本。与主要关注单轮对话数据的 Arena-Hard-v1.0 不同,WizardArena-Mix 纳入了多轮对话数据。下图 4 和 5 显示了 WizardArena-Mix 中对话轮次的分布和类别统计。WizardArena-Mix 多轮对话数据占据了很大比例,话题分布也具有多样性。

通过上面的“裁判”模型和离线的 WizardArena 评测集,使用一系列对战来评估各种聊天机器人模型的性能。然后使用战斗的结果来计算参与聊天机器人模型的 Elo 排名。

实验

3.1 离线的 WizardArena 与 LMSYS ChatBot Arena 是否紧密对齐下图 6 和表 4 展示了一些流行模型在 3 个评估基准上的排名:LMSYS ChatBot Arena-EN、MT-Bench 和 WizardArena。结果显示,在使用 LMSYS ChatBot Arena 作为参考基准时,WizardArena 展现了良好的排名一致性,然而 MT-Bench 显示出较大的波动。
此外,WizardArena 多样性和困难测试集之间的性能也存在显著差异:Vicuna-33B 和 Qwen1.5-32B-Chat 在多样性任务中更为有效,而 Tulu-2-DPO-70B 和 Nous-Hermes-2-Mixt-DPO 在困难任务中取得了更好的性能。因此,论文使用 WizardArena-Mix 作为 Arena Learning 的最终评估基准,以平衡不同模型的优势。下表 3 显示,Offline WizardArena-Mix 在多个一致性指标上显著优于 MT-Bench,斯皮尔曼相关系数高出 19.87%,人类一致性增加 73.07%(95%CI),区分度提高 74.57%(95%CI),具体指标细节参考附录中的一致性指标说明。最终与基于人类评判的 LMSYS ChatBot Arena 的平均一致性达到 98.79%,比 Arena-Hard-v1.0 高出 8.58%,比 MT-Bench 高出 35.23%。
同时与使用专有模型(如 GPT-4)作为评判模型的 MT-Bench 和 Arena-Hard-v1.0 不同,论文采用当前最先进的开源模型 Llama-3-70B-Chat,不仅成本显著降低,而且实现了强一致性。
此外,集成了多样性和困难测试集的 Offline WizardArena-Mix,其平均一致性比 WizardArena-Diverse 高出 0.87%,比 WizardArena-Hard 高出 0.82%。这表明,在大型语言模型的有效离线评估中,平衡多样性和复杂性至关重要。
以上结果进一步证明了 WizardArena-Mix 高质量以及使用“裁判”模型来评判 LLMs 之间的对战并在模拟竞技场中为后训练生成大量高质量数据的可行性。

3.2 Arena Learning 是否能建立一个高效的数据飞轮用于模型 Post-training

下表 4 展示了使用 Arena Learning 方法在三轮数据飞轮迭代中对 WizardLM-β 模型进行后训练的影响,其中 Ii 代表第 i 次迭代。从 I1 到 I3 的每次迭代中,总是使用 90k 数据进行后训练。从 WizardLM-β-7B-I0 开始,三次迭代在 WizardArena-Mix Elo 上分别提高了 343 点、32 点和 28 点。
同时,该模型在 MT-bench 得分也实现了显著提升(从 6.41 提升至 8.16)。特别是,WizardLM-β-7B-I1 甚至超过了 WizardLM-70B-v1.0,而 WizardLM-β-7B-I3 的表现也与 Starling-LM-7B-Beta 相当。
值得注意的是,论文在 WizardLM-β-8x22B 模型上也观察到了相同的趋势,并且在 Wizardarena-Mix Elo(+460)和 MT-Bench(+2.07)上实现了更显著的增长。同时 WizardLM-β-8x22B-I3 超越了 Command R+ 和 Claude 3 Haiku。
下图 7 展示了 WizardArena-Mix 中 32 个模型的胜率,每个模型参与了 2k x 31 场战斗。可以看出从 I0 到 I3WizardLM-β 的胜率显著提高。具体来说,以 GPT-4o 作为对战目标,WizardLM-β-8x22B 的胜率增加了 26%(8% -> 22% -> 27% ->34%),WizardLM-β-7B 的胜率增加了 14%(6% -> 16% -> 18% ->20%)。
以上结果强调了通过 Arena Learning 方式与 SOTA 模型进行持续对战并使用最新获取的数据更新模型权重可以逐步增强模型能力。因此,Arena Learning 构建了一个有效的数据飞轮,使用 Arena Learning 可以显著提高模型在后训练中的性能。

3.3 Post-training 中 SFT,DPO,PPO 迭代训练的 Scaling

论文的核心问题在于探讨 Arena Learning 如何通过 Pos-training 提升模型性能,同时研究不同 Post-training 策略和迭代数据飞轮对性能的影响。下图 8 探讨了 WizardLM-β-7B 模型的结果。
结果展示通过 Arena Learning 方式经过多轮迭代对战,在 SFT,DPO,PPO 阶段模型性能也逐步提升。具体来说,从 SFT-I0 到 PPO-I3,WizardArena-Mix ELO 评分从 871 提升至 1274,实现了巨大的 403 点增幅,而 Arena-Hard Auto ELO 评分也上升了 26.3 点(从 5.2 到31.5)。
此外,AlpacaEval 2.0 LC 胜率提高了 26%,从8.2% 增至 34.2%,MT-Bench 评分也提高了 1.75 点,从 6.41 增至 8.16。这四个关键基准的显著提高突显了 Arean Learning 提出的迭代训练方法有利于模型在 SFT、DPO 和 PPO 后训练阶段的有效性和可扩展性。



消融实验

4.1 数据选取策略

论文将当前广泛使用的数据选择策略与论文提出的 judge-pair battle 策略进行比较。在表中,除了 Original 方式是 30k 样本,其他选择策略均使用了 10k 样本。结果表明,通过 judge-pair battle方法选出的数据使 WizardArena-Mix ELO 比 Original 的 30k 数据提高了 29 点,超过了基于多样性的 K-Means 聚类方法和基于指令复杂度的 INSTAG 方法。
在 MT-bench 上,judge-pair battle 方法同样表现出色。这种优势归因于 judge-pair battle 方法专注于基础模型表现不佳的指令,特别是在多样化和复杂的任务中,有效地解决了模型的短板,不足之处。
同时,这些结果强调了 judge-pair 方法在 SFT 阶段针对性选取高质量数据并加强基础模型弱点的高效性,同时通过 judge pair battle 方式构造 <Choose,Reject> 数据对天然适应 DPO 和 PPO 训练。

4.2 数据规模与模型性能的关系一个直观的问题是模型性能的提升是否仅仅是由于数据量的增加。因此论文讨论了数据规模和质量对模型性能的影响。阈值 K 是 Arena Learning 中一个重要的超参数,它控制了 SFT 数据的规模以及 RL 数据对中 <Choose,Reject> 两者回答质量的差距。
下图结果显示 SFT 和 DPO 数据的最佳阈值 K 分别为 3.0 和 2.0。在 SFT 中,与阈值 K=0 相比,虽然训练数据减半(30k -> 14.6k),但模型的 ELO 实际上提高了 70 点(1047 -> 1117)。同样在 DPO 中,设定阈值 K=2 后,数据量比阈值 K=0 时减少到 18.1k,模型的 ELO 提高了 22点(1165 -> 1187)。这表明通过 Battle 方式有助于筛选出模型真正需要的数据,从而构建了一个更高效、规模更精简的数据飞轮。
阈值选择除了与数据的质量有关,还与数据的数量有关,这两个因素都会影响最终的训练效果。阈值过小的时候数据数量虽然很大但是整体质量太低,阈值过大的时候数据整体质量很高但是数据量太小,这两种情况都不利于训练。因此,选择一个合适的阈值很重要。

4.3 Llama3-70B-Instruct Judge vs. GPT-4 Judge一致性

在以往的 LLM 研究中,大多数情况习惯使用 GPT-4 作为裁判模型来进行评估或生成合成数据,但是在大规模数据飞轮中所需的 GPT-4 API 成本对多数研究和生产场景来说是巨大的。因此,论文探讨是否可以用高级开源模型替代 GPT-4。下表 6 探讨了 Llama3-70B-Instruct 与 GPT-4 在 WizardArena-Mix 竞技场中作为评判模型的一致性。
使用 GPT-4 评判的 ELO 作为参考基准,Llama3-70B-Instruct 评判与 GPT-4 评判的斯皮尔曼相关系数为 99.26%,人类一致性(95%CI)为 96.15%。此外,将 GPT-4 和 Llama3-70B-Instruct 结合作为评判模型,在 LMSYS ChatBot 竞技场中的整体平均一致性达到了 98.40%,比单独使用 Llama3-70B-Instruct 提高了 0.25%(98.40% 对比 98.15%)。
因此使用 Llama3-70B-Instruct 作为性价比高的评判模型,与 GPT-4 和基于人工评判的 LMSYS ChatBot Arena 都保持了高度的一致性,确保了本文中 WizardArena 评估和使用 Arena Learning 方式进行 Post-training 的可靠性。

4.4 与SOTA模型Battle数量的Scaling下图 10 探讨了与 SOTA 模型的 Battle 数量对模型性能的影响。将表 4 所有模型按照 WizardArena-Mix ELO 分数降序排列。从 Command R+ 到 OpenChat 3.5 的模型,模型性能从高到底依次被选做 Battle 对象。随着参与 Battle 的模型数量增加,WizardLM-β-7B-SFT-I1 模型的表现逐渐提高。这证明了Battle 模型数量 Scaling 和 Arena Learning 的可扩展性及其与不同模型的兼容性,为未来算法的大规模应用提供了实验基础。
由于 Battle 的复杂度与模型数量 n 的关系是 O(n^2),为了平衡计算成本和模型性能,本文默认设置选择了三个 SOTA 模型(如 Command R+, Qwen1.5-72B-Chat, OpenChat-3.5)与 WizardLM-β 对战。4.5 不同Battle方式对模型性能提升的影响下表7探索使用多个模型进行彼此成对 Battle 来构建数据飞轮的必要性,在 D1 数据 SFT-I1 阶段设计了多种 Battle 模式,包括:i)与任意一个模型进行成对 Battle,ii)将 D1 随机分为三份,分别在每一份数据上只和一个模型进行 Battle,iii) 与任意两个模型进行成对 Battle,iv)与三个模型进行成对 Battle。
在这一部分,论文使用 WizardLM-β-7B-SFT-I0、Openchat-3.5、Qwen-1.5-72B 和 CommandR+ 作为 Battle 对象,输出模型为 WizardLM-β-7B-SFT-I1。结果如下表 7 展示,模式(iv)在 WizardArena 上表现最佳。因此论文最终利用多个模型进行彼此成对战斗,以构建模拟的离线聊天机器人竞技场。

4.6 在 LMSYS Arena-Hard Auto,AlpacaEval 2.0 LC,OpenLLM Leaderboard 更多基准的表现

下表8展示了经过三轮迭代后,WizardLM-β 在各种评测基准上的表现,包括 LMSYS Arena-Hard Auto、AlpacaEval 2.0 LC 和 OpenLLM 排行榜。在 LMSYS Arena-Hard Auto 中,WizardLM-β-7B 的分数从 5.2 提升至 31.5,增加了 26.3 分,超过了 GPT-3.5-Turbo-0613 和 Llama 3-8B-Instruct,与 Command R+ 接近。
WizardLM-β-8x22B 的表现超过了 Llama-3-70B-Instruct 23.2 分,也优于 GLM-4-0520 和 Yi-Large。在 AlpacaEval 2.0 LC 中,WizardLM-β-7B 的胜率从 8.2% 上升至 34.2%,与 Llama3-70B-Instruct 接近。在 OpenLLM 排行榜上,WizardLM-β-7B 的平均分数从 57.75 提升至 68.08,超过了 Llama-2-70B-Chat 1.28 分,与 Starling-LM-7B-beta 相当。
WizardLM-β-8x22B 也与 Command R+ 相当,超过了 Deepseek-LLM-67B-Chat 3.06 分,并接近 Qwen1.5-72B-Chat 和 Llama-3-70B-Instruct。上述结果表明:1)利用 Arena Learning 生成训练数据的方法并进行多轮迭代训练显著提升了模型的性能;2)Arena Learning 可以增强模型泛化能力和可扩展性。

4.7 每轮SFT选取的数据量和难度分布下表 9 详细展示了 SFT 每一轮的数据量、难度和阈值划分。随着迭代轮数的增加,轮文中将阈值 K 从 3 调整到 1,但 SFT 的数据量仍显著减少(从 30k 减少到 7.8k)。主要原因随着模型能力的进化,其输掉的对战场数也急剧下降。
同时还发现每轮数据的难度逐渐增加(从 4.7 增加到 7.4),并且最终 SFT 只需大约 1/3 的数据(从 90k 减少到 33.7k),总数据的平均难度为 6.4。这表明高质量的数据飞轮应更加注重寻找对目标模型具有挑战性的数据,以补充其能力的不足。

4.8 每轮从所有Battle模型中选取的数据量统计

下表 10 统计了在 SFT 和 DPO 阶段的3轮中,每个 Battle 模型被选取的胜利/接受响应的数量。在 SFT 阶段,每轮数据量通过连续的迭代轮数持续下降(从 14.6k 降至 7.8k)。此外,选定数据的数量与 Battle 模型的表现强相关。如从 Command R+ 挑选的数据量超过 Qwen1.5-72B-Chat 和 OpenChat-3.5(16.8k > 12.7k > 4.2k)。
在 DPO 阶段,大多数 Battle 模型随着迭代轮数增多,选取的数据量呈现下降趋势,但 WizardLM-β 的数据量呈上升趋势(1.1k->1.6k->2.3k),主要原因是随着 WizardLM-β 模型性能的提升,它在正向样本中的比例也逐渐增加。

4.9 每轮各类别数据量分布统计下图 11 展示了 SFT 在每轮迭代中各类别选取训练数据量的趋势。随着迭代进行所有类别的选取数量均呈现持续下降的趋势。然而对于复杂类别(如数学、推理和编码),下降趋势比较缓慢;对于写作和角色扮演等简单类别,则下降更为显著。其中在 SFT-I3 中编码和数学等类别数据占据较大比例。以上结果表明随着每次迭代的进行,数据的选择逐渐偏向于更具挑战性的任务,从而有利于继续强化模型在这些复杂类别中的性能。

4.10 模型在所有类别性能变化趋势下图 12 展示在训练阶段随着迭代次数增加,WizardLM-β-7B 模型在八个类别中 ELO 分数的演变。起初 WizardLM-β-7B 的 ELO 分数显著低于 OpenChat 3.5。经过多次迭代后,WizardLM-β-7B 不仅超越了 OpenChat 3.5,同时逐渐接近 Qwen1.5-72B-Chat 和 Command R+ 的性能。
从迭代 I0 到 I3,模型在所有类别中 ELO 分数先快速提升,随后呈现稳定增长,表明从一个较弱模型逐渐演化为一个更强的模型。特别是在角色扮演和提取等难度相对较低的类别中,WizardLM-β-7B 从远远落后 Qwen1.5-72B-Chat,到最终超过。相反在数学和编码等更复杂的推理任务中,提升较为缓慢。
此外,Arena 对战结果突显了每个模型的独特优势。例如,Command R+ 在编码和数学等具有挑战性的类别中表现突出。同时 Qwen1.5-72B-Chat 在人文社会科学和 STEM 领域表现更强。随着迭代次数的增加,训练数据趋向于更复杂的数据(如编码和数学),逐渐强化模型劣势。结果证明了 Arena Learning 通过利用多个先进模型的集体知识和优势来显著提升 WizardLM-β-7B Post-training 性能。

4.11 使用更先进的模型进行Battle

下表探索第一轮中采用更先进模型与 WizardLM-β-7B 进行对战的性能影响。在第一轮中利用 M_1 模型 = {GPT-4o、GPT-4 Turbo 和 WizardLM-2-8x22B} 将 ELO 分数从基线 SFT-I0 的 871 提升至 1266,增幅为 395 分,并比采用 M_0 模型 = {Command R+、Qwen1.5-72B-Chat 和 OpenChat 3.5} 高出 52 分。


在对战和训练的各个阶段,采用 M_1 模型的 ELO 分数始终比 M_0 模型高出 45 至 55 分。此外 MT-Bench 分数从 6.41 提升至 7.89,比 M_0 模型的 7.74 分提升了 0.15 分。结果突显了通过采用更先进模型进行对战可以实现更显著的性能改进。



结论

论文提出了一种名为 Arena Learning 的数据飞轮训练算法,建立了一个离线聊天机器人竞技场,采用 LLM 作为裁判且无需人类标注,实现了端到端的 Battle 和 Post-training 闭环。
同时,本文提出了一个新的离线测试集— WizardArena —用于 LLM 竞技和评估。它不仅能够准确预测 LLM 的 Elo Ranking,还与 LMSYS Arena 有高度一致性,同时更是拥有 40 倍于 LMSYS Arena 的效率。
通过 Arena Learning 生成的合成数据进行多轮迭代训练,在各种训练策略下模型展现出显著的性能改进。实验结果证明了 WizardArena 的可靠性、合理性以及整个 Arena Learning 数据飞轮的高效率和强大性能。



作者介绍


值得一提的是,根据公开资料显示,Arena Learning 的核心作者均是 Wizard 系列模型原班团队,包括:WizardLM 一作 Can Xu 和 Qingfeng,WizardMath 一作 Haipeng Luo,WizardCoder 二作 Pu Zhao。
Haipeng Luo,目前是清华大学在读博士生,研究方向为大语言模型和多模态,导师唐彦嵩老师。
Can Xu 目前为 Microsoft AI 的高级研究员,毕业于北京大学。专注大语言模型、人机对话系统研发,发表国际人工智能顶级会议论文 40 余篇。为微软 XiaoIce,必应,WizardLM 和 Phi-3 等产品贡献过核心技术。
Pu Zhao,毕业于北京大学,前微软亚洲研究院、现 Microsoft AI 高级研究员,专注于大语言模型、数据科学、广告推荐以及智能云领域的研究。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


···

相关推荐

  • 上位机干了3年!还不知道串口调试助手???
  • 29.3K Star震惊!!!Windows一个常用工具开源了,程序员玩疯了
  • 疯狂!CVPR 超越 Science!全球第二大
  • 如何向10岁小孩解释XGBoost回归算法
  • 两份报告:AIGC APP流量与场景研究+AI行业设计领域
  • OpenAI披露AGI评估标准,目前接近第2级
  • 私活必备,一个react+vite+antd的标准后台管理系统开发模版,动态菜单配置、权限精确到按钮
  • 老外整了个领先的幻觉检测模型Lynx
  • 孟晚舟:不要选择和机器竞争的职业,萝卜无人车会是特洛伊木马吗?
  • 复旦教授:当初脑子一定被驴踢了,不然怎么会上这帮龟孙子的当
  • 成都周报 | 174亿最大重组案获批,首批未来产业天使子基金签约
  • 一家半导体研发商融了三个亿丨投融周报
  • 这几个Python效率工具非常好用~
  • 枪手射8发子弹!观众1死2伤!特朗普遭枪击事件细节披露
  • 聊一聊ES2024有啥新特性
  • 【文末赠书】大模型时代,如何用时间序列与机器学习解锁未来?
  • 招聘|Anytime AI-全栈开发工程师
  • 金融场景中的指标体系建设与应用
  • 7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单
  • Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%