奖金丰厚!KDD Cup 2024 检索增强生成CRAG挑战赛正式启动



简介


想象一下,你希望使用一个AI助手来获取你最喜欢的运动队的最新消息,但是你得到的是去年的比赛结果。或者当你询问一个你非常喜欢的小众电影时,却得不到有意义的答案。这些都是大语言模型生成“幻觉”的经典例子,即大型语言模型(LLM)提供过时或不正确的信息。 


愿意与我们一同努力,帮助LLM(大型语言模型)减少幻觉,提供准确的回答吗?快来参加Meta KDD Cup 2024检索增强生成的CRAG挑战吧! 


报名链接:

https://www.aicrowd.com/challenges/meta-comprehensive-rag-benchmark-kdd-cup-2024


KDD Cup是ACM知识发现和数据挖掘国际会议(KDD)的一项著名竞赛,旨在推动数据科学和机器学习的发展。KDD Cup的历史可以追溯到1997年,由ACM SIGKDD国际会议组织举办,目前已经成为该领域最具影响力和声誉的竞赛之一。KDD Cup通过提供真实且具有挑战性的数据集,吸引全球的数据科学家和研究人员参与,以探索新的算法和技术,解决实际世界中的复杂问题。比赛的主题涵盖广泛,包括推荐系统、数据分类、聚类分析、时序预测等。参赛者需要运用数据挖掘和机器学习的技术,设计创新的解决方案,并在给定的时间内提交结果。


KDD Cup不仅提供了一个比赛的平台,还为参赛者提供了与同行交流和学习的机会。比赛期间,参赛者可以通过竞赛论坛与其他研究人员交流思想、分享经验,并从其他人的工作中获得灵感和启发。此外,KDD Cup的优胜者通常会受到学术界和工业界的广泛关注,为他们进一步的职业发展带来巨大的机会。KDD Cup已经成为该领域的重要盛事,对于推动数据科学的发展和实践具有重要意义。



为什么RAG很重要


尽管LLM取得了进展,但“幻觉”问题仍然是一个重大挑战,即LLM可能生成缺乏事实准确性或基础的答案。检索增强生成(RAG)作为一种有希望的解决方案出现,缓解了LLM在缺乏知识方面的不足,并受到学术研究和行业的广泛关注。


Meta Comprehensive RAG(CRAG)基准挑战:CRAG是一个涵盖5个领域和8种问题类型的事实问答竞赛,同时提供了可行的评价指标来评估RAG系统。与现有的基准不同,CRAG的设计包括各种领域和类型的问题。特别是,它包括答案从几秒到几年时间范围内不断变化的问题;它考虑实体的受欢迎程度,涵盖的不仅是热门的信息,还包括不太为人知的事实;它包含简单事实问题以及7种复杂问题类型,如比较、聚合和集合问题(comparison, aggregation, and set questions),以测试RAG解决方案的推理和综合能力。


赛题介绍


该挑战包括三个任务,旨在改进问答(QA)系统。 


任务1:基于网络的检索摘要 (Web-based Retrieval Summarization) —参赛者对于每个问题会获得5个网页,其中可能包含回答问题所需的相关信息。该任务的目标是评估系统识别和概括这些信息以提供准确答案的能力。 


任务2:知识图谱和网络增强 (Knowledge Graph and Web Augmentation) — 该任务引入了模拟API (Mock API),用于访问与问题可能相关的结构化数据知识图谱(KG)。参与者使用模拟API,输入从问题中获取的参数,以检索相关数据来获得答案。评估重点是系统查询结构化数据和整合来自各种来源的信息,生成综合答案的能力。 


任务3:端到端RAG (End-to-end RAG) — 第三个任务增加了复杂性,为每个问题提供了50个网页和模拟API访问,其中既包含相关信息,又包含噪音。它评估了系统从大规模数据集中选择最重要且相关的数据的能力,反映了真实应用场景中信息检索和整合的挑战。 


每个任务都在前一个任务的基础上构建,引导参与者开发复杂的端到端RAG系统。该挑战展示了RAG技术在检索和理解大规模信息库方面的潜力,为未来的人工智能研究和发展突破奠定了基础。



竞赛日程

1

赛程


该挑战将分为两个阶段。第一阶段对所有注册的团队开放。根据参与者的数量,在第一阶段结束后,我们会设置一个限制指标,只有排名靠前的团队才能进入第二阶段。


2

第一阶段:公开竞赛




网站和数据公开,并开放注册

2024年3月20日,23:55 UTC

第一阶段提交开始日期

2024年4月1日,23:55 UTC

第一阶段提交截止日期

2024年5月20日,23:55 UTC


3

第二阶段:优胜团队竞赛




第二阶段开始日期

2024年5月22日,23:55 UTC

注册和团队冻结截止日期

2024年5月31日,23:55 UTC

第二阶段结束日期

2024年6月20日,23:55 UTC



4

获奖者公告




获奖者通知日期

2024年7月15日

获奖者公告日期

2024年8月26日(在KDD Cup颁奖活动上)



竞赛奖金


本次KDD Cup挑战赛的奖金池总额为31,500美元。一共三个任务,每个任务都设有奖金。对于每个任务,排行榜上满足下述条件的队伍将获得以下现金奖励: 

🥇 第一名:4,000美元 🥈 第二名:2,000美元 🥉 第三名:1,000美元 

💐 七个复杂问题类型各自的第一名:500美元 

第一名、第二名和第三名获奖者不具备在同一任务的复杂问题类型中获得奖金的资格。



赛事特点


为什么这个挑战是一个game changer?

解决“幻觉”和过时信息的问题对于提高LLM驱动的问答系统的可靠性至关重要。RAG提出了一种通过将外部数据整合到其回复中的解决方案。CRAG基准是一个全面的测试,以评估这些先进系统在各种领域和问题类型中的有效性,挑战它们处理需要即时数据以及探索不太常见的“长尾”信息的情境。 


这个挑战有什么独特之处? 1. 改进问答系统的任务:三个任务分别关注基于网络的检索摘要、知识图谱和网络增强,以及端到端的RAG挑战,每个任务都建立在前一个任务的基础上。 2. 丰富的多领域数据集:CRAG数据集涵盖了从金融到音乐的各个领域,以应对反映现实世界的变化和复杂性的问题。

3. 丰厚奖金的奖金:排名前列的参赛者会分享总计31,500美元的奖金池,每个任务中表现最好的团队可以赢取高达4,000美元的奖金。




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



··

相关推荐

  • CVPR 2024 | 知识蒸馏中的Logit标准化:辅助logit-based KD算法稳定涨点
  • Meta提出全新文档级嵌入框架,利用LLM来增强信息检索能力
  • 「空想AGI」闹剧何时休?Science专栏:对AI前景预测过于乐观
  • 小洞不补,大洞吃苦:西交、麦马开源全新「拖动式编辑」框架&数据集
  • 2023年AAAS Fellow名单出炉!信息计算领域:浙大教授、中科大校友当选
  • 小扎自曝愿开源100亿美元模型!2025年AGI没戏,能源短缺成最大瓶颈
  • 清华系发布全新金融AI,数秒完成金融数据大海捞针!金融民工直呼要失业
  • 超越OpenAI,谷歌重磅发布从大模型蒸馏的编码器Gecko
  • 今日arXiv最热NLP大模型论文:浙江大学:蒸一蒸,多Agent变成单一模型,效果更好
  • 2024,人形机器人爆发元年?从难点和时机出发聊聊可能性
  • AI重建粒子轨迹,发现新物理学
  • 首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源
  • 时代2024最具影响力100人:黄仁勋、Bengio、纳德拉 、王传福等人入选
  • Linux之父讽刺AI炒作:很搞笑,大概我也会被大模型取代
  • Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型
  • 综述 | 基于深度学习的目标检测算法
  • 硕博表示震惊!小学生科创比赛获奖作品被指 “ 已达硕博水平 ” !
  • 太狠了,Python实现个人手机定位分析!
  • 5种搭建LLM服务的方法和代码示例
  • Python 离群点检测算法 -- PCA