评测通知 | NLPCC2024评测任务:大语言模型监管


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自 | 开放知识图谱

简介

大语言模型已经展现出令人瞩目的能力并在多种任务上达到甚至超越人类的表现。然而,随着这些模型在社会中的应用越来越广泛,它们可能产生的负面影响也引起了人们的关注。确保模型的安全并负责任地部署,监管大语言模型成为了一个关键环节。鉴于此,浙江大学和新加坡国立大学学者在NLPCC2024上组织了大语言模型监管评测任务(Task10),包含多模态大语言模型幻觉检测和大语言模型解毒两个子任务,促进大语言模型更加安全、可靠地应用。

任务介绍

本次评测共分为以下两个子任务:
  1. 多模态大语言模型幻觉检测(Multimodal Hallucination Detection for Multimodal Large Language Models): 检测多模态大模型的输出如文本、图像是否具有幻觉,该任务涉及到使用闭源大模型(如GPT-4)或训练开源大模型作为检测器,及调用公开的工具或知识库来实现可靠的幻觉检测;
  2. 大语言模型解毒(Detoxifying Large Language Models): 设计对大语言模型进行解毒的方法,不限于微调、对齐、编辑等以防止大语言模型生成有毒、有偏见或有害的内容。
比赛数据和baseline地址: https://github.com/zjunlp/NLPCC2024_RegulatingLLM

注意事项

本次评测数据仅供学术研究,不可商业应用,不可私自公开,烦请各位选手遵循协议!!!所有获奖队伍(2个子任务的各自前三名)将提交代码审核并复现,如无法提交代码或结果差距较大将依次递补

赛程

  • 训练数据发布:2024/04/15(任务2会直接发布含test的全部数据)
  • 注册截止:2024/05/25
  • 测试数据发布:2024/06/11
  • 提交截止:2024/06/20
  • 评测结果发布:2024/06/30
  • 评测论文截止日期:2024/07/20
  • 评测论文通知:2024/08/09

报名方式

填写注册表,发送至邮箱

注册表链接:

http://tcci.ccf.org.cn/conference/2024/dldoc/NLPCC2024.SharedTask10.RegistrationForm.doc邮箱:mengruwg@zju.edu.cn

组织方

单位:浙江大学、新加坡国立大学组织者:张宁豫、陈想、王梦如、王晨曦、徐子文、邓淑敏



 

OpenKG


OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。


关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

相关推荐

  • AI Agent 应该更有趣还是更有用?
  • 华盛顿大学撰文反驳微软,我们无法删除大模型关于哈利波特的记忆
  • [开源]一个微前端架构系统,可能是你见过最完善的微前端解决方案
  • 聊聊微服务中的 BFF 架构
  • 还不会免费将PDF转为Word?你可以试试这3种工具!
  • 春天,关于人生发展的 24 条心得
  • 微软前全球副总裁入局AGI:左手效率神器、右手AI开放世界,实测好用!
  • 对话国产“算力黑马”:27亿元大单背后,英博数科周韡韡的AGI探索之路
  • 街边的普通茶室也能赚600万,靠的不只是喝茶
  • 探探各个微前端框架
  • 前端代码规范 - 代码注释
  • 从商品图到海报生成 京东广告AIGC创意技术应用
  • 工科博士毕业去高校还是去研究所?
  • 今天是新模型发布大赛:Gemini 1.5 Pro发完,GPT-4-Turbo发,Mistral AI继续发……
  • 库存管理系统开源啦
  • 2.5K Star开源论坛!谁说Python只能写脚本工具
  • 小红书搜索团队提出新解码策略,降低大模型推理成本
  • 你真的知道 NPM、Yarn 与 PNPM 这三个前端包管理器之间的区别吗?
  • 4月10号马云的全员信,马云退休五年后首次发长文
  • 宇航员为什么使用Linux?