​ACL 2023 Workshop | “多语言文档对话”挑战赛启动!


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,简称ACL)是是自然语言处理与计算语言学领域最高级别的学术会议,在世界范围内每年召开一次,2023年是第61届会议,将于7月9-14日在加拿大多伦多举行。ACL 2023 Multi-lingual Document-grounded Dialogue Competition由阿里巴巴达摩院对话智能团队主办,南京大学协办。在本挑战赛中,组委会开放了第一个多语言文档对话数据集,提供了基线模型,和7000美元的奖金池。优胜者将会提交论文至ACL 2023 Doc2dial Workshp,并参与评选Workshop的Best Paper Award和Best Student Paper Award,欢迎全球科研人才一同推动文档对话相关的技术发展。

赛事页面

https://tianchi.aliyun.com/competition/entrance/532063/information

赛程安排


赛题介绍

文档对话的发展根据Gartner2020的报告,企业中80%以上的数据都是以非结构化形式存在,而文档在其中占比最为突出,如客服手册、产品说明书、政府政策文档、法律法规等。在大量冗余的文档中,对话机器人如何充分利用文档内的知识做出回复,是企业信息智能化中的关键一环,因此吸引了学术界和工业界的广泛关注。现有的文档对话工作主要集中于英文(EMNLP2020、2021)和中文(EMNLP2022)两种语言上,尚未关注到其他语言上,阻碍了文档对话技术服务更广泛的人群。我们希望通过这一挑战赛来解决该问题,具体来说,我们标注了首个越南语和法语的文档对话数据集(6,954轮对话),并整理了现有的中英文文档对话数据集(32,266轮对话),希望参赛者能够充分利用语言之间的相关性(越南语中的大量词语来自于中文,法语和英语则属于同一语系),在有限数量的越南语和法语标注数据集上,提升对话模型的性能。

数据集介绍

为了方便参赛选手开发模型,我们提供了一个基线方法(https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/acl23doc2dial),把文档对话拆分为检索,排序,生成三个阶段。检索模块负责根据对话历史在文档集合中检索得到候选的Top-N个文档;排序模块负责在Top-N个文档中选择得到和对话最相关的K个文档,和对话拼接后输入生成模块中。对于每个模块,我们均提供了在中英法越四种语言的弱监督文档对话数据上预训练的模型。评测指标采用模型预测回复和人工标注回复比较后的token-level F1、SacreBleu 和Rouge-L三个指标的加和,满分为300分。基线模型的分数为156分,仍有很大的探索空间。

赛事奖励

  • 第一名:$3000
  • 第二名:$1600
  • 第三名:$1000
  • 第四名:$800


  • 第五名:$600
前五名将会提交论文至ACL 2023 Doc2dial Workshop并出版,并参与评选Workshop的Best Paper Award和Best Student Paper Award

联系我们


  • 钉钉群:


  • 微信群:




(如群二维码失效联系以下微信,备注ACL 2023)
  • Google Group:https://groups.google.com/g/dialdoc
  • Workshop网站:https://doc2dial.github.io/workshop2023/#shared-task

赛事组织方

  • 余海洋, 算法专家,阿里巴巴达摩院
  • Cam-Tu Nguyen,副教授,南京大学
  • 郁博文, 算法专家,阿里巴巴达摩院
  • 李永彬,资深算法专家,阿里巴巴达摩院
  • 黄非,研究员,阿里巴巴达摩院

赞助方

ModelScope魔搭社区(https://modelscope.cn/)是由达摩院联合CCF开源发展委员会共同发起的国内首个中文AI模型开源社区。目前,ModelScope平台上汇集了535个当前业界在各种模态上最为领先的开源开放模型,以及丰富的数据集。通过在统一平台和统一调用接口来聚合各种模型,魔搭平台能够方便AI开发者做横向的比较和研究,并共同持续推进技术创新,鼓励原创性模型研究的发展。欢迎大家下载使用。(扫码进入魔搭ModelScope社区,实操PC端更佳https://modelscope.cn/)

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

相关推荐

  • 关于AGI与ChatGPT,Stuart Russell与朱松纯这么看
  • 16岁男生筋膜枪按摩眼睛致白内障;明天起香港口罩令全面取消;日本新生儿跌破80万人......|酷玩日爆
  • 不要和XX人说累 | 每日一冷
  • 这个事,日本真干了!
  • 不能忍,得罪人也得揭它老底,别再被五常大米忽悠了!
  • 加强半导体基础能力建设 点亮半导体自立自强发展的“灯塔”
  • 冲牙器,真的太太太太好用了!
  • 互联网大厂要给大家“发钱”,为啥还被骂?
  • ChatGPT思考:探索智能的极限
  • 如何设计一个通用的风控系统
  • 没写过复杂 React 组件?来实现下 AntD 的 Space 组件吧
  • “毒列车”数百万升毒废水或注入得州地下;圣彼得堡普尔科沃机场附近现“不明飞行物”;意大利黑手党头目用床单索降越狱 | 每日大新闻
  • 3 个骚气满满的 ChatGPT 开源项目!
  • 百度工程师浅谈分布式日志
  • 高并发场景下常见的限流算法及方案介绍
  • Pigsty v2 正式发布:更好的RDS PG开源替代
  • 迁移上云或跨云迁移如何做到安全、高效、低成本?
  • Cloudflare用Rust重写Nginx C模块,构建没有Nginx的未来
  • 路透社:开源软件成为贸易战的重要环节
  • 通过 React Router V6 源码,掌握前端路由