英伟达新一代GPU B200显卡性能参数对比：兼看LLM与KG系列专题索引及多模态评测数据集

今天是春分，2024年3月20日，北京，天气晴。

今天我们来看看三个事情。

一个是在显卡方面的动作，英伟达创始人/CEO黄仁勋发表了“见证AI的变革时刻”的主题演讲，并发布新一代Blackwell平台产品。其中有一些性能参数上的变化，我们可以来看看。

另一个是，最近在做文档跨模态方面的事情，这块很重要的点，就是评测方面，这个在开始版本迭代时，如何快速地进行效果验证，借助外部榜单评测是个很重要的点，因此我们来重点看看跨模态领域的一些评估数据集。

另外，还有些专题归纳的事情，可以看看，方便大家去做跟进，我们整理了关于RAG、长文本等多个专题，也可以看看。

一、老刘说NLP关于大模型与图谱的系列专题索引

我们已经做了很多的文章归档，现在会有一些直接的整理归纳结论出来，可以在公众号的头部来看看相关置顶链接。

也可以在公众号后台来看看对应的栏目索引：

下面我们来看看几个具体的链接。

1、【embedding】：https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=2966169852874997765#wechat_redirect

2、【大模型+知识图谱】：https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343153178397261828#wechat_redirect

3、【预训练模型】：https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=2120957806534033409#wechat_redirect

4、【大模型+数据】：https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343133676745932807#wechat_redirect

5、【大模型评估】：https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=2966138427001946116#wechat_redirect

6、【RAG】：https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3276284267911856128#wechat_redirect

7、【prompt工程】：https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3277816371598475266#wechat_redirect

8、【大模型+文档智能】：https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343154918412664836#wechat_redirect

9、【大模型微调】：https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343143702894100481#wechat_redirect

10、【领域大模型】：https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343160210617679877#wechat_redirect

11、【Agent】：https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343159624639856653#wechat_redirect

12、【知识图谱】：https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=2016530030821998594#wechat_redirect

13、【长文本】：https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343194082105507845#wechat_redirect

14、【大模型幻觉】：https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343142104008638473#wechat_redirect

15、【文档智能】：https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=2692424878829912064#wechat_redirect

16、【知识图谱+RAG】：https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3342673203655229444#wechat_redirect

二、英伟达发布新一代Blackwell平台产品

这几天进行的GTC（GPU Technology Conference）2024大会上，英伟达创始人/CEO黄仁勋发表了“见证AI的变革时刻”的主题演讲，并发布新一代Blackwell平台产品。

英伟达GPU产品参数如下：

英伟达发布了新一代Blackwell平台的GPU（GraphicsProcessingUnit，图形处理器），包括B200和GB200等产品系列。

B200由两个超大型裸片封装组合而成，内含超过2080个晶体管，还封装了192GB的高速HBM3e的显存。与前一代H100相比，B200的每秒输出token数量提升15倍，SuperchargedAI训练表现提升3倍。

英伟达及AMD核心GPU产品对比如下：

更为详细的信息，可以参考：https://pdf.dfcfw.com/pdf/H3_AP202403201627284902_1.pdf中的报告；

三、关于跨模态评测的一些数据集

1、跨模态评测基准:MME

MME(MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models)是一个针对多模态大型语言模型的全面评估基准。它在总共14个子任务上测量感知和认知能力,包括包括存在性、计数、位置、颜色、海报、名人、场景、地标、艺术作品、OCR、常识推理、数值计算、文本翻译和代码推理等。

https://arxiv.org/pdf/2306.13394.pdf，https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation

评估指标中：ACC+表示一张图片的两个问题都回答正确，ACC表示任意一问题回答正确

2、跨模态评测基准:MMMU

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI

要求大学水平学科知识和审慎推理的大规模多学科任务中的表现。MMMU包括从大学考试、测验和教科书中精心收集的11.5K道多模态问题，涵盖六个核心学科：艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程，问题涉及30个学科和183个子领域，包含30种高度异构的图像类型，如图表、示意图、地图、表格、乐谱和化学结构。

与现有的基准不同，MMMU侧重于利用特定领域的知识进行高级感知和推理，要求模型执行与专家面临的任务类似的任务，但明显更难，GPT-4V也只达到了56%的准确率

https://arxiv.org/pdf/2311.16502.pdf，https://mmmu-benchmark.github.io/

3、跨模态评测基准:CMMMU

CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark

CMMMU包括来自高考、quiz和教科书等12k个手动收集的跨模态问题，涵盖六个核心学科：艺术与设计、商业、科学、健康与医学、人文与社会科学以及科技与工程，与它的伴侣MMMU一样。这些问题跨越30个科目，包括39个高度异质性的图像类型。

https://arxiv.org/pdf/2401.11944.pdf, https://cmmmu-benchmark.github.io/

4、跨模态评测基准:MMBench

MMBench: Is Your Multi-modal Model an All-around Player? ，在测试方式上属于闭源测试；

评测集总共包含2974道题目,自上而下定义了三级能力维度(L1-L3)：覆盖目标检测、文字识别、动作识别、图像理解、关系推理等20个细粒度评估维度为了简化评测流程，将所有的题目都设计为单项选择形式。对于单项选择题，期待模型能够直接输出A,B,...中的一个label，但是由于现在开源模型的指令跟随性并不完善。

在实验中我们发现，大部分情况下，模型的输出往往不直接是，甚至根本不包含选项的labeL，提出了利用ChatGPT评测，针对某一题：

首先，如果可以从模型的输出中直接提取出选项的label，那么就直接把提取出来的选项的label作为模型的回答。

如果不能从模型的输出中提取出选项的label，就利用ChatGPT去找到选项中和模型输出最相似的选择，并输出该选项的label作为模型的回答。

如果模型发现模型的输出无法和任何选项进行匹配，就直接输出一个pseudolabel‘X’来表示模型无法回答此题。

https://arxiv.org/pdf/2307.06281v1.pdf, https://opencompass.org.cn/mmbench

总结

本文主要回顾了英伟达发布新一代Blackwell平台产品以及跨模型相关数据集，在进行实验过程中，事先搭建好实验服务环境，能够快速地进行迭代实验，自动化处理，这对开发而言十分重要。

参考文献

1、https://pdf.dfcfw.com/pdf/H3_AP202403201627284902_1.pdf

2、https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation

3、https://opencompass.org.cn/mmbench

4、https://arxiv.org/pdf/2401.11944.pdf

关于我们

老刘，刘焕勇，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的，可关注公众号，在后台菜单栏中点击会员社区->会员入群加入。