今天是2024年3月21日,星期四,北京,天气晴。
我们来看看过去一天关于大模型的一些有趣的话题,例如英伟达发布B200的产品,大模型情商测试EQBench,长文本生成视频、大模型安全、文档智能mplug-DocOWL、实体识别、事件图谱以及长文本评测。
而有个趋势,讲图结构引入到大模型当中以提升效果,因此我们再来看看对应的常见的文本图结构化方法。
供大家一起参考并思考。
我们先来看看大模型进展早报:
以下是文字版本:
1、老刘说NLP发表英伟达G200性能对比及多模态评测整理文章,https://mp.weixin.qq.com/s/PBz6_DbGbhYZci9Adn5NEA
2、关于大模型EQ测试,大模型的EQ排行榜: https://eqbench.com/,对应工作EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models,https://arxiv.org/abs/2312.06281
在具体实现方面,EQ-Bench要求大型语言模型预测对话中人物的情绪状态强度,以此评估它们理解复杂情绪和社会互动的能力。
3、长文本生成视频的一个工作:https://deaddawn.github.io/MovieLLM/,https://arxiv.org/pdf/2403.01422.pdf,https://github.com/Deaddawn/MovieLLM-code
值得注意的是,该工作使用GPT-4来生成合成数据,通过提供主题、概述和风格等特定元素,引导GPT-4生成电影级别的关键帧描述。
4、关于大模型安全,感兴趣的可以关注:https://github.com/ThuCCSLab/Awesome-LM-SSP,里面涉及到相关的论文,评测等工作。
5、关于文档智能的工作。mPLUG-DocOwl 1.5:OCR-free文档理解的统一结构学习,mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding
通过卷积合并相邻水平路径来更好地编码结构信息,构建了文档结构感知文本序列和多粒度文本和边界框对,建立了支持结构学习的训练集DocStruct4M,以及推理微调数据集DocReason25K
https://arxiv.org/pdf/2403.12895,https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5
6、关于实体识别。Entity6K。一个用于现实世界实体识别的大型开放领域评估数据集,Entity6K: A Large Open-Domain Evaluation Dataset for Real-World Entity Recognition,包含26个类别的5,700个实体。
https://arxiv.org/pdf/2403.12339
7、关于事件图谱。GraphERE: 基于图增强事件嵌入的多事件关系抽取,GraphERE: Jointly Multiple Event-Event Relation Extraction via Graph-Enhanced Event Embeddings:https://arxiv.org/pdf/2403.12523
其思想在于,首先通过使用静态AMR图和IE图,用事件摘要和结构特征来丰富事件嵌入;然后,为了联合提取多种事件关系,使用Node Transforme并为每种关系构建特定任务的动态事件图(Dy-namic Event Graphs),最后使用多任务学习策略来训练框架。
8、关于长文本评测。 NovelQA: 一个用于长距离小说问答的基准测试,NovelQA: A Benchmark for Long-Range Novel Question Answering
对应当前不同任务类型的数据分布:
对应任务类型的prompt:
地址:https://arxiv.org/pdf/2403.12766
下面对Dependency Graph、Constituency Graph、AMR Graph、Information Extraction Graph等代表性的方法进行介绍。
1、Dependency Graph
依存句法分析树是描述一个句子词汇之间依存关系的结构化知识。可以使用Standfordparser、LTP、DDparser等分析器进行处理得到,词语的依依存关系,并将其转换成图依赖关系图。
在具体实现上: 例如对于are there ada jobs outside austin这一句话: 首先,获取依存关系数据。将依存关系树中的依赖关系表示为 (wi; relij; wj),其中wi, wj是由边类型relij连接的词节点(如其中词语are、there、ada等)。
从概念上讲,一条边表示一个依赖关系 "wi依赖于wj,关系为relij",并定义依存关系集合为Rdep。如上图中的:<are,aux,ada>、<there,expl,ada>等。
此外,为了考虑词语之间的相邻关系,可以在互为相邻的节点间构建一条双向边(如图中的双向箭头)。
其次,构建依存关系图G(V; E)。给定段落对于每个关系(wi; reli;j; wj)Rdep,添加节点vi (代表词wi)和vj(代表词wj),以及一条从节点vi到节点vj的有向边,边的类型为relij。
2、Constituency Graph
句子成分分析,能够捕捉一个或多个句子中基于短语的句法关系,只关注单个词之间一对一对应关系的依存分析不同,构成分析法对一个或几个对应的词的组合进行建模。
在实现上: 首先,由于经过成分分析后,得到的句法分析树是一颗层级树,有内部节点Vnt和叶子节点Vwords两种。 叶子节点通常为单个的词语,也称为终端节点,如上图中的词语集合。
内部节点指的是对应的成分块,如S、NP、VP、PP等,也称为非终端节点。
节点之间的关系可以通过节点之间在句法树上是否存在关联边来确定。
其次,构建一个句法组合图G(V;E)。其中节点V由非终端节点 Vnt和终端节点Vwords构成,E表示节点之间的关联关系。对于每个构成组合关系(wi; relij; wj)的词语,添加节点vi(代表单词wi)和 vj(代表单词wj),以及一条从节点vi到节点vj的有向边。
同样的,为了考虑顺序信息,对于每个词的节点对 (vi; vj)为原始文本中相邻的词,在它们之间添加一条具有特定顺序类型的无向边(如图中的双向箭头)。
3、AMR Graph
AMR图是有根的、有标签的、有方向的、无环的图,广泛用于表示抽象概念之间的高级语义关系,不同于句法上的特异性,AMR是高层语义的抽象化。
不同的句子如果在语义上相似的不同句子可以共享相同的AMR解析结果,例如,"保罗描述自己是一个战士 "和 "保罗对自己的描述:一个战士"。
在实现上: 首先,通过AMR分析后得到解析树。中包括名称和概念两种节点。其中名称(例如 "Paul")是节点实例的具体数值,概念是指英语单词(如 "boy")、PropBank框架集(如 "want-01")或特殊的关键词,两者的区别在于名字节点是唯一的身份,而概念节点是由不同的实例共享的。连接节点的边被称为关系(如图中:ARG0和:name),可以从带有边的节点对中提取这些AMR关系,表示为(ni; rij; nj)。
其次,在构图上,对于每个关系(ni; rij; nj) ,可以添加节点vi(对于AMR节点ni)和vj(对于AMR节点nj),并添加一条从节点vi到节点vj的有向边,边类型为rij,完成AMR图的构建。
4、Information Extraction Graph
信息抽取图的目的是抽取结构信息来表示自然句子中的高级信息。
在实现上:
首先,通过Openie等工具识别出句子中的实体、实体之间的共指关系三元组(如上图中名字 "Pual"、名词 "He "和 "一位著名的计算机科学家 指的是同一个对象),以及主谓宾三元组(如图中的paul,grew up in seatle),一同作为关系三元组数据(ni; rij; nj)。 其次,在构图环节。
图G(V; E)IE节点和IE关系组成。对于每个关系 (ni; ri;j; nj) ,添加节点vi(代表主语ni)和vj(代表宾语nj),添加一条从节点vi到节点vj的有向边,并添加相应的谓词类型作为节点,然后将具有共指信息的实体之间建立关系边,实体之间存在其他主谓宾三元组关系的也建立关系边。
5、Discourse Graph
Discourse Graph,即话语图,描述了两个句子在逻辑上的描述关系,用于解决长文本之间的依赖。
在实现上:
首先,通过话语分析,识别一组句子上的句子关系,例如给定两个句子senti 和sentj,可以将话语关系定义为(senti; sentj),它表示话语关系 "句子sentj可以放在句子senti之后"。具体的,给定一个文档doc,首先将doc分割成句子集 V = sent1; sent2; …;sentm,使用话语分析,得到成对的话语关系集,表示为Rdis⊆V×V。
其次,构建话语图。话语图G(V;E)由句子节点和话语关系组成。给出文档doc和话语关系集Rdis,对于每一个关系,添加节点vi(代表句子senti)和vj(代表 句子sentj),并添加一条从节点vi到节点vj的有向边。
6、Knowledge Graph
知识图谱可以有效捕捉实体和关系,给定一个句子后,通过识别实体三元组,可以分别以头尾实体作为节点,实体之间的关系作为关系边,形成一个网络图结构。
在实现上: 将三重(e1;rel;e2)定义为知识库中的基本元素,其中e1是源实体,e2是目标实体,rel是关系类型。然后,我们添加两个结点v1(头实体e1)和v2(尾实体e2),并在KG中添加一条有向的 从节点v1到节点v2添加一条边类型为rel的有向边。
7、Topic Graph
Topic Graph主题图,是建立于多个文档之上,目的是在不同的主题之间建立模型不同主题之间的高层语义关系。
在实现上: 给定一组文档D = {doc1; doc2; ::;docm},首利用LDA等模型学习潜在的话题表示为T,然后构建话题图G(V; E),其中节点由文档与主题构成,vi(代表一个文档)和节点vj(代表一个主题),在该文档具有该主题的情况下,两个节点之间建立一个关系边。
8、Similarity Graph Construction
Similarity Graph相似性图, 目的是量化节点之间的相似性。给定一个语料库C,在相似性图G(V;E)中,图的节点可以可以被定义为不同的粒度级别,如实体、句子和文档。
在实现上:
首先,定义基本节点集为V,不考虑具体的节点类型,并可以通过各种机制来计算节点特征表示,如句子(或文档)的TF-IDF和实体的嵌入,并利用余弦相似度等方式计算节点对之间的相似性分数来表示节点对的边缘权重。
其次,删除权重小于一定阈值的边,完成图的构建。
本文主要回顾了过去一天关于大模型及知识图谱、文档智能的一些有趣的话题,此外,我们还讨论了关于当前使用图的方式进行文本表示的一些方案,也值得关注。
1、https://mp.weixin.qq.com/s/PBz6_DbGbhYZci9Adn5NEA
老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。