英伟达新一代GPU B200显卡性能参数对比:兼看LLM与KG系列专题索引及多模态评测数据集

今天是春分,2024年3月20日,北京,天气晴。

今天我们来看看三个事情。

一个是在显卡方面的动作,英伟达创始人/CEO黄仁勋发表了“见证AI的变革时刻”的主题演讲,并发布新一代Blackwell平台产品。其中有一些性能参数上的变化,我们可以来看看。

另一个是,最近在做文档跨模态方面的事情,这块很重要的点,就是评测方面,这个在开始版本迭代时,如何快速地进行效果验证,借助外部榜单评测是个很重要的点,因此我们来重点看看跨模态领域的一些评估数据集。

另外,还有些专题归纳的事情,可以看看,方便大家去做跟进,我们整理了关于RAG、长文本等多个专题,也可以看看。

一、老刘说NLP关于大模型与图谱的系列专题索引

我们已经做了很多的文章归档,现在会有一些直接的整理归纳结论出来,可以在公众号的头部来看看相关置顶链接。

也可以在公众号后台来看看对应的栏目索引:

 下面我们来看看几个具体的链接。

1、【embedding】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=2966169852874997765#wechat_redirect

2、【大模型+知识图谱】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343153178397261828#wechat_redirect

3、【预训练模型】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=2120957806534033409#wechat_redirect

4、【大模型+数据】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343133676745932807#wechat_redirect

5、【大模型评估】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=2966138427001946116#wechat_redirect

6、【RAG】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3276284267911856128#wechat_redirect

7、【prompt工程】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3277816371598475266#wechat_redirect

8、【大模型+文档智能】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343154918412664836#wechat_redirect

9、【大模型微调】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343143702894100481#wechat_redirect

10、【领域大模型】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343160210617679877#wechat_redirect

11、【Agent】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343159624639856653#wechat_redirect

12、【知识图谱】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=2016530030821998594#wechat_redirect

13、【长文本】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343194082105507845#wechat_redirect

14、【大模型幻觉】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3343142104008638473#wechat_redirect

15、【文档智能】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=2692424878829912064#wechat_redirect

16、【知识图谱+RAG】:https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3342673203655229444#wechat_redirect

二、英伟达发布新一代Blackwell平台产品

这几天进行的GTC(GPU Technology Conference)2024大会上,英伟达创始人/CEO黄仁勋发表了“见证AI的变革时刻”的主题演讲,并发布新一代Blackwell平台产品。

英伟达GPU产品参数如下:

英伟达发布了新一代Blackwell平台的GPU(GraphicsProcessingUnit,图形处理器),包括B200和GB200等产品系列。

B200由两个超大型裸片封装组合而成,内含超过2080个晶体管,还封装了192GB的高速HBM3e的显存。与前一代H100相比,B200的每秒输出token数量提升15倍,SuperchargedAI训练表现提升3倍。

英伟达及AMD核心GPU产品对比如下:

更为详细的信息,可以参考:https://pdf.dfcfw.com/pdf/H3_AP202403201627284902_1.pdf中的报告;

三、关于跨模态评测的一些数据集

1、跨模态评测基准:MME

MME(MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models)是一个针对多模态大型语言模型的全面评估基准。它在总共14个子任务上测量感知和认知能力,包括 包括存在性、计数、位置、颜色、海报、名人、场景、地标、艺术作品、OCR、常识推理、数值计算、文本翻译和代码推理等。

https://arxiv.org/pdf/2306.13394.pdf,https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation

评估指标中:ACC+表示一张图片的两个问题都回答正确,ACC表示任意一问题回答正确

2、跨模态评测基准:MMMU

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI

要求大学水平学科知识和审慎推理的大规模多学科任务中的表现。MMMU包括从大学考试、测验和教科书中精心收集的11.5K道多模态问题,涵盖六个核心学科:艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程,问题涉及30个学科和183个子领域,包含30种高度异构的图像类型,如图表、示意图、地图、表格、乐谱和化学结构。

与现有的基准不同,MMMU侧重于利用特定领域的知识进行高级感知和推理,要求模型执行与专家面临的任务类似的任务,但明显更难,GPT-4V也只达到了56%的准确率

https://arxiv.org/pdf/2311.16502.pdf,https://mmmu-benchmark.github.io/

3、跨模态评测基准:CMMMU

CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark

CMMMU包括来自高考、quiz和教科书等12k个手动收集的跨模态问题,涵盖六个核心学科:艺术与设计、商业、科学、健康与医学、人文与社会科学以及科技与工程,与它的伴侣MMMU一样。这些问题跨越30个科目,包括39个高度异质性的图像类型。

https://arxiv.org/pdf/2401.11944.pdf, https://cmmmu-benchmark.github.io/

4、跨模态评测基准:MMBench

MMBench: Is Your Multi-modal Model an All-around Player? ,在测试方式上属于闭源测试;

评测集总共包含2974道题目,自上而下定义了三级能力维度(L1-L3):覆盖目标检测、文字识别、动作识别、图像理解、关系推理等20个细粒度评估维度为了简化评测流程,将所有的题目都设计为单项选择形式。对于单项选择题,期待模型能够直接输出A,B,...中的一个label,但是由于现在开源模型的指令跟随性并不完善。

在实验中我们发现,大部分情况下,模型的输出往往不直接是,甚至根本不包含选项的labeL,提出了利用ChatGPT评测,针对某一题:

首先,如果可以从模型的输出中直接提取出选项的label,那么就直接把提取出来的选项的label作为模型的回答。

如果不能从模型的输出中提取出选项的label,就利用ChatGPT去找到选项中和模型输出最相似的选择,并输出该选项的label作为模型的回答。

如果模型发现模型的输出无法和任何选项进行匹配,就直接输出一个pseudolabel‘X’来表示模型无法回答此题。

https://arxiv.org/pdf/2307.06281v1.pdf, https://opencompass.org.cn/mmbench

总结

本文主要回顾了英伟达发布新一代Blackwell平台产品以及跨模型相关数据集,在进行实验过程中,事先搭建好实验服务环境,能够快速地进行迭代实验,自动化处理,这对开发而言十分重要。

参考文献

1、https://pdf.dfcfw.com/pdf/H3_AP202403201627284902_1.pdf

2、https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation

3、https://opencompass.org.cn/mmbench

4、https://arxiv.org/pdf/2401.11944.pdf

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。


相关推荐

  • 日结 :50-200元/张,AI画图即可,无需经验,在家可做
  • Puppeteer实践:复杂的问题简单化
  • 学弟还是决定去小红书了!
  • 亦仁:生财有术第七年成绩单,六组数据,一起回顾这一年
  • 阿尔特曼称GPT-5提升超想象;库克在中国首谈生成式AI;字节推出视频生成新模型丨AIGC大事日报
  • 突发!DeepMind联创空降微软:统领AI团队,还掏空了OpenAI劲敌
  • “AI+”时代长征第一步,中国企业最需要什么样的大模型?
  • 公司新来一个架构师, 将消费金融系统重构了
  • 【PDF下载】三本机器学习统计学入门好书
  • java线程池原理浅析
  • 更适合中国宝宝体质的代码
  • 书生·浦语大模型实战营第二期正式启动,内容全面升级!
  • 开源日报 | Grok使用体验完全够不上第一梯队;C++之父反驳白宫观点;Surface Duo在开源社区扶持下焕发新生
  • JDK 22正式GA;甲骨文:Java是“第一编程语言”
  • 怎么你出的MES方案像屎一样?
  • 42.3K Star开源!可私有化部署的笔记应用
  • 解锁正则表达式的秘密:regex-vis工具带你看见模式匹配的魔法!
  • ChatGPT用10秒画完一张UML流程图,而我用了。。。
  • AI时代,把手弄脏是上策
  • 直击GTC2024:不得不提,人形机器人时代将至!