评测通知 | NLPCC2024评测任务：大语言模型监管

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。转载自 | 开放知识图谱

简介

大语言模型已经展现出令人瞩目的能力并在多种任务上达到甚至超越人类的表现。然而，随着这些模型在社会中的应用越来越广泛，它们可能产生的负面影响也引起了人们的关注。确保模型的安全并负责任地部署，监管大语言模型成为了一个关键环节。鉴于此，浙江大学和新加坡国立大学学者在NLPCC2024上组织了大语言模型监管评测任务（Task10），包含多模态大语言模型幻觉检测和大语言模型解毒两个子任务，促进大语言模型更加安全、可靠地应用。

任务介绍

本次评测共分为以下两个子任务：

多模态大语言模型幻觉检测（Multimodal Hallucination Detection for Multimodal Large Language Models）： 检测多模态大模型的输出如文本、图像是否具有幻觉，该任务涉及到使用闭源大模型（如GPT-4）或训练开源大模型作为检测器，及调用公开的工具或知识库来实现可靠的幻觉检测；
大语言模型解毒（Detoxifying Large Language Models）： 设计对大语言模型进行解毒的方法，不限于微调、对齐、编辑等以防止大语言模型生成有毒、有偏见或有害的内容。

比赛数据和baseline地址： https://github.com/zjunlp/NLPCC2024_RegulatingLLM

注意事项

本次评测数据仅供学术研究，不可商业应用，不可私自公开，烦请各位选手遵循协议！！！所有获奖队伍（2个子任务的各自前三名）将提交代码审核并复现，如无法提交代码或结果差距较大将依次递补

赛程

训练数据发布：2024/04/15（任务2会直接发布含test的全部数据）
注册截止：2024/05/25
测试数据发布：2024/06/11
提交截止：2024/06/20
评测结果发布：2024/06/30
评测论文截止日期：2024/07/20
评测论文通知：2024/08/09

报名方式

填写注册表，发送至邮箱

注册表链接：

http://tcci.ccf.org.cn/conference/2024/dldoc/NLPCC2024.SharedTask10.RegistrationForm.doc邮箱：mengruwg@zju.edu.cn

组织方

单位：浙江大学、新加坡国立大学组织者：张宁豫、陈想、王梦如、王晨曦、徐子文、邓淑敏

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文，进入 OpenKG 网站。

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

评测通知 | NLPCC2024评测任务：大语言模型监管

任务介绍

注意事项

赛程

报名方式

组织方

关于我们

相关推荐