探索“数据菜谱”无限可能:首届Data-Juicer大模型数据竞赛


课程学什么?

数据是LLaMA、Alpaca等大语言模型(LLM) 的“食物” ,你心中的大模型米其林菜单会是什么样呢?


尊敬的数智大厨们,进军LLM厨房的时刻到了!为了给LLM准备更高质量、更丰富和更易消化的“美味佳肴”,阿里云、魔搭(ModelScope)社区及天池平台推出了首届Data-Juicer大模型数据竞赛。我们希望以data-centric的比赛形式,推动社区对大模型数据质量的理解和优化,进一步改进大模型能力。


本次竞赛,FT-Data Ranker1B赛道7B赛道,是一次全新的“料理”展,您会在其中大展技艳,研发独家秘方,制作食物来改进大语言模型。您将使用主办方限定的原材料(候选数据集),直接对其进行清洗、过滤和增强处理。然后,使用经您精心加工的料理(新数据集),间接投喂给限定的基础模型(进行微调优化),最终在限定测试集上进行评测打分和排序。


本次比赛中,我们强调构建“数据菜谱”(Data Recipe),并使用一站式的数据处理工具Data-Juicer。Data-Juicer为参赛者提供了系统化、开箱即用、可复用的大量算子、工具和示例菜谱。参赛者可以利用其内置能力、或是自由研发新的算子工具,进行数据分析和加工处理。



此次比赛将在公平的环境下,让参赛者全情投入数据处理的研究,只有数据处理方式不同,其它因素如基础模型、测试集、训练数据量、训练脚本、模型架构等都将在各选手之间保持一致。



为了参赛者能更灵活地参赛,本次比赛按照模型大小及参与训练数据集的大小分为了1B/7B两个赛道。不仅如此,参赛者将有机会赢取高达五万元人民币的现金奖励,并获取精美的阿里云、魔搭社区周边奖品。


作为前瞻,此次比赛只是Data-Juicer LLM系列赛的第一场,后续拟举办更多诸如“Better Mixture"和"CC Miner"等数据比赛,大模型爱好者们将有机会挑战探索数据源的最优混合比例,以及如何从海量Web类数据(如CommonCrawl)中挖掘更多价值。


快拿起你的“烹饪”工具,一起研发新的LLM数据菜谱吧!我们诚挚地邀请所有的大模型爱好者、渴望挑战的你们参与这场竞赛,一同释放更多数据和大模型潜力!了解详细赛事信息,请前往赛事官网(点击「阅读原文」可直达):



1B赛道:https://tianchi.aliyun.com/competition/entrance/532157

7B赛道:https://tianchi.aliyun.com/competition/entrance/532158



👇点击关注ModelScope公众号获取更多技术信息~


相关推荐

  • 别再瞎猜了!教你如何准确识别盒式交换机指示灯!
  • 10个容易被忽视的FastAPI实用功能
  • 认识 Wolfi:旨在缩小供应链的 Linux 发行版
  • YouTube 仅用 9 名工程师就能支持每天 1 亿次视频观看的 11 个原因
  • 谈谈node架构中的线程进程的应用场景、事件循环及任务队列
  • 卖奥特曼卡牌的公司要IPO了
  • 语雀,这波故障,放眼整个互联网也是炸裂般的存在。
  • OLAP数仓入门:基础篇
  • (待会删)付费搞来的,数据人请低调使用!
  • 致敬程序员用跳跃的代码敲出数字世界的诗意篇章
  • 百度Comate代码助手全新上线SaaS服务,适配百种开发语言,编码效率10倍提升!
  • ChatGPT 能拯救程序员吗?
  • 卷积神经网络中用1*1 卷积有什么作用或者好处呢?
  • 谷歌女高管状告谷歌性别歧视,获得100 万美元赔偿
  • 码住!花三个月亲测1000个AI智能工具,这10款最好用!
  • 深度学习优化方法总结比较(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)
  • Cloudflare 推出免费的隐私保护工具 Turnstile,替代传统 CAPTCHA
  • Redis 与作者 antirez 的故事
  • 中国工商银行基于生产流量的创新探索及实践
  • 从华为的 AI 全景,看人工智能技术的演进与未来