第二十三届中国计算语言学大会技术评测研讨会(CCL24-Eval)任务已发布,其中中文意合图首次进行公开技术评测,欢迎各位同仁报名参赛。
组织单位:北京语言大学语言智能研究院
组织者:荀恩东、饶高琦、郭梦溪、李梦
联系人及联系方式:郭梦溪(guo_mengxi@foxmail.com,北京语言大学硕士生);李梦(北京语言大学博士生)
任务网站:https://github.com/gertrude95/Chinese-Parataxis-Graph-Parsing.git
北京语言大学荀恩东教授于2022年出版“自然语言结构计算”系列图书——《自然语言结构计算——GPF结构分析框架》《自然语言结构计算——意合图理论和技术》《自然语言结构计算——BCC 语料库》。在《自然语言结构计算——意合图理论和技术》中介绍了意合图语义表示体系。随着实验室研究工作的推进,通过语料标注与应用需求的探索打磨体系,对原有意合图理论体系进行了进一步修正与发展,并基于意合图理论体系制定了详尽的标注规范,采取先粗后细、先简后繁、先以后难的策略进行语料标注,构建了一批意合图语义标注数据资源。
· 意合图介绍
意合图是以事件为中心的语义表征图,为单根有向图,图中的节点对应承载事件、实体、属性的单元,边为有向边,表示单元间的语义关系,并力求能够对句子、段落、篇章等不同层级的语言单元作一贯式表示。
图1:意合图抽象表示
意合图在符合人类对语言认知的基础上,充分考虑落地应用的可操作性,使其尽可能地层次化,以便于后续语义分析路径的设计,实现面向人与机器、通用性与扩展性兼具的语义表征方案。意合图由事件结构与实体结构两大部分构成:
·事件结构分为事件内结构与事件外结构,事件内结构可进一步分为以事件词为核心的论元结构、情态结构、时空结构,事件外结构为多个事件构成的关系事件结构。
·实体结构分为实体内结构与实体外结构,实体内结构即实体属性与属性值结构,实体外结构即多个实体构成的实体关系事件结构。
图2:意合图内容
图3:事件结构与实体结构的抽象表示
意合图脱离表层句法形式,表示深层语义信息。同一事件可在句法层面映射为多种句法结构形式,事件结构与句法结构不存在绝对的对应关系。意合图中的节点与句内词级单元也并非一一对应,对于不提供实际事件语义表达的单元(如轻动词、各种标记词等),在意合图中不进行表示;并且意合图允许新增单元以补全非共享省略成分与隐式表达。同时,我们也承认语法对语义存在一定程度的提示性,因此在标注过程中我们保留了部分形式标记。
图4:“他们一起搭上了那艘即将远航的帆船”意合图抽象表示
图5:“这个问题我搞懂了”意合图抽象表示
图6:“与其去外面吃饭,不如自己做好吃的”意合图抽象表示
·评测任务与模态
2024中文意合图表征分析评测任务仅需生成句子级意合图框架即可,即输入单元为句子,输出为意合图框架结构,无需细化实体结构、情态结构、时空结构等的内部语义标签,仅判断是否属于该结构成分即可,所提供的语料也为粗粒度标签。此外,本次评测任务的参赛人员可自行借助形式标记辅助个别语义的识别,但最终不要求对形式标记进行准确识别。
例如,输入句子“他哭肿了眼睛”,需要自动解析出如下三元组集合:
{(他,哭,A0),(眼睛,肿,A0),(他,眼睛,EntityRel),(了,哭,Time),(了,肿,Time),(哭,因果关系,原因事件),(肿,因果关系,结果事件),(哭,ROOT,CoreWord)}
本次评测任务为开放测试,预训练语言模型可自由选择,允许使用外部资源,如大语言模型、专名识别、句法分析结果等,不可使用人工修正自动解析结果的方式。参赛队使用的所有资源需要在最终提交的技术报告中给予详细说明。
·奖项设置
本届评测将设置一、二、三等奖,任务组织单位提供总额为7000元的奖金。
中国中文信息学会为获奖队伍颁发荣誉证书。
参赛队伍所提交的优秀技术报告,经评审通过后可录用至ACL/CCL Anthology。
·赛程安排
即日起即可报名参赛,训练数据集将于3月份正式发布。
后续信息请关注任务网站。
有意报名者可扫描二维码填写团队信息及联系方式,任务联系人将及时与您取得联系。
今日责编:壮壮