NLPCC 2024“大语言模型监管”评测任务发布,诚邀各界专家学者参与



简介


大语言模型已经展现出令人瞩目的能力并在多种任务上达到甚至超越人类的表现。然而,随着这些模型在社会中的应用越来越广泛,它们可能产生的负面影响也引起了人们的关注。确保模型的安全并负责任地部署,监管大语言模型成为了一个关键环节。鉴于此,浙江大学和新加坡国立大学学者在NLPCC 2024上组织了大语言模型监管评测任务(Task10),包含多模态大语言模型幻觉检测和大语言模型解毒两个子任务,促进大语言模型更加安全、可靠地应用。



任务介绍


本次评测共分为以下两个子任务: 1. 多模态大语言模型幻觉检测(Multimodal Hallucination Detection for Multimodal Large Language Models):检测多模态大模型的输出如文本、图像是否具有幻觉,该任务涉及到使用闭源大模型(如GPT-4)或训练开源大模型作为检测器,及调用公开的工具或知识库来实现可靠的幻觉检测; 2. 大语言模型解毒(Detoxifying Large Language Models):设计对大语言模型进行解毒的方法,不限于微调、对齐、编辑等以防止大语言模型生成有毒、有偏见或有害的内容。 

比赛数据和baseline地址:

https://github.com/zjunlp/NLPCC2024_RegulatingLLM


赛程



训练数据发布

2024年4月15日

* 任务2会直接发布含test的全部数据

注册截止

2024年5月25日

测试数据发布

2024年6月11日

提交截止

2024年6月20日

评测结果发布

2024年6月30日

评测论文截止日期

2024年7月20日

评测论文通知

2024年8月9日



报名方式


1. 填写注册表:

http://tcci.ccf.org.cn/conference/2024/dldoc/NLPCC2024.SharedTask10.RegistrationForm.doc


2. 发送至邮箱:

mengruwg@zju.edu.cn



注意事项


本次评测数据仅供学术研究,不可商业应用,不可私自公开,烦请各位选手遵循协议。


所有获奖队伍(2个子任务的各自前三名)将提交代码审核并复现,如无法提交代码或结果差距较大将依次递补。




组织方


单位:

浙江大学、新加坡国立大学


组织者:

张宁豫、陈想、王梦如、王晨曦、徐子文、邓淑敏





#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



··

相关推荐

  • 博士申请 | 香港科技大学(广州)汤南教授招收数据科学方向全奖博士生
  • 业界首个!厦大北大联合深势科技发布XtalNet,从PXRD实验数据直接预测晶体结构
  • NUS、NTU等联合提出Dysen-VDM,利用LLM协助增强视频扩散模型的时间动态感知能力
  • 魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型
  • 突发!OpenAI开除Ilya盟友,理由:涉嫌信息泄漏
  • 谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说,114倍信息压缩
  • GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位
  • 小微公司可用的开源ERP系统
  • 识读2300多年的战国竹简,竟只用2B端侧大模型!面壁发布新一代“小钢炮”
  • MIT等首次深度研究「集成LLM」预测能力:可媲美人类群体准确率
  • 谷歌大脑DeepMind「婚后」貌合神离,Hassabis怨气冲天!1+1<1
  • GPT-4 Turbo重回王座,ChatGPT免费升级!数学暴涨10%/上下文全面碾压
  • OpenAI内斗第二弹!Ilya亲信、超级对齐团队2人惨遭开除,被批泄密
  • 吴恩达预言成真?这群AI「员工」狂卷KPI
  • 冷知识:开源协议BSD License是北师大许可证的缩写
  • 𝕏自动将用户帖子里的Twitter.com改为X.com
  • 五个“宝藏”开源项目,带你用Three.js玩转3D可视化
  • Atlassian开源最强“实用”前端拖拽组件:性能和兼容性俱佳、支持跨窗口拖动、适用于任何前端框架
  • 大湾区的明星打车平台要IPO了
  • 美团面试:如何检测和避免线程死锁?