探索“数据菜谱”无限可能：首届Data-Juicer大模型数据竞赛

课程学什么？

数据是LLaMA、Alpaca等大语言模型（LLM) 的“食物” ，你心中的大模型米其林菜单会是什么样呢？

尊敬的数智大厨们，进军LLM厨房的时刻到了！为了给LLM准备更高质量、更丰富和更易消化的“美味佳肴”，阿里云、魔搭（ModelScope）社区及天池平台推出了首届Data-Juicer大模型数据竞赛。我们希望以data-centric的比赛形式，推动社区对大模型数据质量的理解和优化，进一步改进大模型能力。

本次竞赛，FT-Data Ranker（1B赛道、7B赛道），是一次全新的“料理”展，您会在其中大展技艳，研发独家秘方，制作食物来改进大语言模型。您将使用主办方限定的原材料（候选数据集），直接对其进行清洗、过滤和增强处理。然后，使用经您精心加工的料理（新数据集），间接投喂给限定的基础模型（进行微调优化），最终在限定测试集上进行评测打分和排序。

本次比赛中，我们强调构建“数据菜谱”（Data Recipe），并使用一站式的数据处理工具Data-Juicer。Data-Juicer为参赛者提供了系统化、开箱即用、可复用的大量算子、工具和示例菜谱。参赛者可以利用其内置能力、或是自由研发新的算子工具，进行数据分析和加工处理。

此次比赛将在公平的环境下，让参赛者全情投入数据处理的研究，只有数据处理方式不同，其它因素如基础模型、测试集、训练数据量、训练脚本、模型架构等都将在各选手之间保持一致。

为了参赛者能更灵活地参赛，本次比赛按照模型大小及参与训练数据集的大小分为了1B/7B两个赛道。不仅如此，参赛者将有机会赢取高达五万元人民币的现金奖励，并获取精美的阿里云、魔搭社区周边奖品。

作为前瞻，此次比赛只是Data-Juicer LLM系列赛的第一场，后续拟举办更多诸如“Better Mixture"和"CC Miner"等数据比赛，大模型爱好者们将有机会挑战探索数据源的最优混合比例，以及如何从海量Web类数据（如CommonCrawl）中挖掘更多价值。

快拿起你的“烹饪”工具，一起研发新的LLM数据菜谱吧！我们诚挚地邀请所有的大模型爱好者、渴望挑战的你们参与这场竞赛，一同释放更多数据和大模型潜力！了解详细赛事信息，请前往赛事官网（点击「阅读原文」可直达）：

1B赛道：https://tianchi.aliyun.com/competition/entrance/532157

7B赛道：https://tianchi.aliyun.com/competition/entrance/532158

👇点击关注ModelScope公众号获取更多技术信息~

探索“数据菜谱”无限可能：首届Data-Juicer大模型数据竞赛

相关推荐