今天是春分,2024年3月20日,北京,天气晴。
今天我们来看看三个事情。
一个是在显卡方面的动作,英伟达创始人/CEO黄仁勋发表了“见证AI的变革时刻”的主题演讲,并发布新一代Blackwell平台产品。其中有一些性能参数上的变化,我们可以来看看。
另一个是,最近在做文档跨模态方面的事情,这块很重要的点,就是评测方面,这个在开始版本迭代时,如何快速地进行效果验证,借助外部榜单评测是个很重要的点,因此我们来重点看看跨模态领域的一些评估数据集。
另外,还有些专题归纳的事情,可以看看,方便大家去做跟进,我们整理了关于RAG、长文本等多个专题,也可以看看。
我们已经做了很多的文章归档,现在会有一些直接的整理归纳结论出来,可以在公众号的头部来看看相关置顶链接。
也可以在公众号后台来看看对应的栏目索引:
下面我们来看看几个具体的链接。
1、【embedding】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=2966169852874997765#wechat_redirect
2、【大模型+知识图谱】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343153178397261828#wechat_redirect
3、【预训练模型】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=2120957806534033409#wechat_redirect
4、【大模型+数据】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343133676745932807#wechat_redirect
5、【大模型评估】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=2966138427001946116#wechat_redirect
6、【RAG】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3276284267911856128#wechat_redirect
7、【prompt工程】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3277816371598475266#wechat_redirect
8、【大模型+文档智能】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343154918412664836#wechat_redirect
9、【大模型微调】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343143702894100481#wechat_redirect
10、【领域大模型】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343160210617679877#wechat_redirect
11、【Agent】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343159624639856653#wechat_redirect
12、【知识图谱】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=2016530030821998594#wechat_redirect
13、【长文本】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343194082105507845#wechat_redirect
14、【大模型幻觉】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343142104008638473#wechat_redirect
15、【文档智能】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=2692424878829912064#wechat_redirect
16、【知识图谱+RAG】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3342673203655229444#wechat_redirect
这几天进行的GTC(GPU Technology Conference)2024大会上,英伟达创始人/CEO黄仁勋发表了“见证AI的变革时刻”的主题演讲,并发布新一代Blackwell平台产品。
英伟达GPU产品参数如下:
英伟达发布了新一代Blackwell平台的GPU(GraphicsProcessingUnit,图形处理器),包括B200和GB200等产品系列。
B200由两个超大型裸片封装组合而成,内含超过2080个晶体管,还封装了192GB的高速HBM3e的显存。与前一代H100相比,B200的每秒输出token数量提升15倍,SuperchargedAI训练表现提升3倍。
英伟达及AMD核心GPU产品对比如下:
更为详细的信息,可以参考:https://pdf.dfcfw.com/pdf/H3_AP202403201627284902_1.pdf中的报告;
1、跨模态评测基准:MME
MME(MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models)是一个针对多模态大型语言模型的全面评估基准。它在总共14个子任务上测量感知和认知能力,包括 包括存在性、计数、位置、颜色、海报、名人、场景、地标、艺术作品、OCR、常识推理、数值计算、文本翻译和代码推理等。
https://arxiv.org/pdf/2306.13394.pdf,https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation
评估指标中:ACC+表示一张图片的两个问题都回答正确,ACC表示任意一问题回答正确
2、跨模态评测基准:MMMU
MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI
要求大学水平学科知识和审慎推理的大规模多学科任务中的表现。MMMU包括从大学考试、测验和教科书中精心收集的11.5K道多模态问题,涵盖六个核心学科:艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程,问题涉及30个学科和183个子领域,包含30种高度异构的图像类型,如图表、示意图、地图、表格、乐谱和化学结构。
与现有的基准不同,MMMU侧重于利用特定领域的知识进行高级感知和推理,要求模型执行与专家面临的任务类似的任务,但明显更难,GPT-4V也只达到了56%的准确率
https://arxiv.org/pdf/2311.16502.pdf,https://mmmu-benchmark.github.io/
3、跨模态评测基准:CMMMU
CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark
CMMMU包括来自高考、quiz和教科书等12k个手动收集的跨模态问题,涵盖六个核心学科:艺术与设计、商业、科学、健康与医学、人文与社会科学以及科技与工程,与它的伴侣MMMU一样。这些问题跨越30个科目,包括39个高度异质性的图像类型。
https://arxiv.org/pdf/2401.11944.pdf, https://cmmmu-benchmark.github.io/
4、跨模态评测基准:MMBench
MMBench: Is Your Multi-modal Model an All-around Player? ,在测试方式上属于闭源测试;
评测集总共包含2974道题目,自上而下定义了三级能力维度(L1-L3):覆盖目标检测、文字识别、动作识别、图像理解、关系推理等20个细粒度评估维度为了简化评测流程,将所有的题目都设计为单项选择形式。对于单项选择题,期待模型能够直接输出A,B,...中的一个label,但是由于现在开源模型的指令跟随性并不完善。
在实验中我们发现,大部分情况下,模型的输出往往不直接是,甚至根本不包含选项的labeL,提出了利用ChatGPT评测,针对某一题:
首先,如果可以从模型的输出中直接提取出选项的label,那么就直接把提取出来的选项的label作为模型的回答。
如果不能从模型的输出中提取出选项的label,就利用ChatGPT去找到选项中和模型输出最相似的选择,并输出该选项的label作为模型的回答。
如果模型发现模型的输出无法和任何选项进行匹配,就直接输出一个pseudolabel‘X’来表示模型无法回答此题。
https://arxiv.org/pdf/2307.06281v1.pdf, https://opencompass.org.cn/mmbench
本文主要回顾了英伟达发布新一代Blackwell平台产品以及跨模型相关数据集,在进行实验过程中,事先搭建好实验服务环境,能够快速地进行迭代实验,自动化处理,这对开发而言十分重要。
1、https://pdf.dfcfw.com/pdf/H3_AP202403201627284902_1.pdf
2、https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation
3、https://opencompass.org.cn/mmbench
4、https://arxiv.org/pdf/2401.11944.pdf
老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。