Kaggle 赛题解析:Eedi 多项选择理解

  • 赛题名称:Eedi - Mining Misconceptions in Mathematics
  • 赛题类型:自然语言处理
  • 赛题任务:预测多项选择题中的误解和错误答案(干扰因素)之间的相似度

https://www.kaggle.com/competitions/eedi-mining-misconceptions-in-mathematics

unsetunset赛题背景unsetunset

学生在学习过程中可能会形成一些错误的理解或认知偏差,这些被称为“误解”(misconceptions)。在数学的多项选择题中,除了一个正确答案外,通常还会有三个错误答案,这些错误答案被称为“干扰项”(distractors)。每个干扰项都是为了捕捉特定的误解而精心设计的。

例如,如果一个学生选择了干扰项“13”,他们可能存在误解:“无论优先级如何,都从左到右执行运算。”

将干扰项与适当的误解进行标记是非常重要的,但这个过程既耗时又难以保持一致性,尤其是在多个人类标记者之间。误解在描述的粒度上有很大差异,而且随着人类标记者在新的主题领域标记干扰项时,经常会发现新的误解。

尽管已经尝试使用预训练的语言模型来处理这个问题,但由于问题中数学内容的复杂性,这些尝试并未成功。因此,需要一种更有效和一致的方法来简化标记过程,并提高整体质量。

unsetunset赛题任务unsetunset

这个竞赛挑战参赛者开发一个由机器学习(ML)驱动的自然语言处理(NLP)模型,来预测误解和干扰项之间的亲和力。目标是创建一个模型,它不仅与已知的误解相一致,而且还能推广到新的、新出现的误解。

这样的模型将帮助人类标记者从现有和新识别的选项中准确选择合适的误解。这项工作可以帮助改善对误解的理解和管理,增强学生和教师的教育体验。

unsetunset评价指标unsetunset

在数学竞赛中,Mean Average Precision at 25(MAP@25)是一种评估模型性能的指标,用于衡量模型在预测多项选择题中干扰项与误解之间关联度的能力。这个指标特别关注模型如何将与正确误解相关的干扰项排在前面。

unsetunset赛题数据集unsetunset

在Eedi平台上,学生回答的是诊断性问题(Diagnostic Questions,简称DQs),这些是包含一个正确答案和三个错误答案(称为干扰项)的多项选择题。每个问题都针对一个特定的“构念”(construct),这是与问题相关的最细粒度的知识水平。每个干扰项都是为了对应一个潜在的“误解”。下面是一个DQ的例子:

  • A - 正确答案(没有干扰项)
  • B - 不考虑优先级,从左到右执行运算
  • C - 混淆运算顺序,认为加法在除法之前
  • D - 混淆运算顺序,认为加法在乘法之前

这些诊断性问题最初是以图像格式呈现的,包括数学内容在内的文本是通过人工参与的OCR(光学字符识别)过程提取的。

  • [train/test].csv
    • QuestionId - 唯一的问题标识符(整数)。
    • ConstructId - 唯一的构念标识符(整数)。
    • ConstructName - 与问题相关的最细粒度的知识水平(字符串)。
    • CorrectAnswer - A, B, C 或 D(字符)。
    • SubjectId - 唯一的主题标识符(整数)。
    • SubjectName - 比构念更一般的上下文(字符串)。
    • QuestionText - 从问题图像中提取的问题文本,使用人工参与的OCR(字符串)。
    • Answer[A/B/C/D]Text - 从问题图像中提取的答案选项文本,使用人工参与的OCR(字符串)。
    • Misconception[A/B/C/D]Id - 唯一的误解标识符(整数)。在train.csv中是真实的标签;你的任务是为test.csv预测这些标签。
 


相关推荐

  • 北京/新加坡内推 | 昆仑2050研究院颜水成团队招聘大模型研究实习生
  • ACL 2024 | 文本表示新SOTA!微软用大模型及其生成数据优化Text Embedding
  • 生成-理解大一统:一文浅谈多模态大模型最新研究进展
  • ChatGPT付费用户数突破1100万,每月创收2亿美元,OpenAI依然血亏
  • 国产最大MoE开源模型发布!腾讯AI Lab创始人带队,已融2亿美元
  • 太能写了!体验完夸克CueMe智能助手,我想说其他AI写作工具可以弃了
  • 解锁双车道 !!! 你还说485不能全双工 ???
  • 18K Star 超级编辑器 !!! 别再羡慕别人的IDE了
  • Cursor 完全使用教程
  • Spring Boot集成Akka Stream快速入门Demo
  • Pytorch 常用损失函数拆解
  • 苹果为什么不敢对 12306 买票抽成 30% ?
  • 第一批00后,已经开始让AI给自己打工了
  • Python网页应用开发神器Dash 2.18.1稳定版本来啦
  • Git 客户端新选择:腾讯自研的 UGit
  • 阿里8B模型拿下多页文档理解新SOTA,324个视觉token表示一页,缩减80%
  • SpaceX再创历史,人类首次商业太空行走成就达成!
  • 字节AI版小李子一开口:黄风岭,八百里
  • “最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了
  • 中国首个网络大模型,pick了CPU