跟着开源的InternVL,学习如何做自己的GPT-4V


随着人工智能生成内容(AIGC)的快速发展,多模态大型语言模型(MLLM)在理解和生成结合视觉与语言的信息方面展现出巨大潜力。然而,现有的开源MLLM与商业模型之间存在性能差距。为了应对这一挑战,书生图像大模型InternVL 1.0模型作为早期的开源尝试,通过将视觉基础模型扩展到6亿参数,并与大型语言模型进行对齐,为缩小这一差距奠定了基础。

在1.0模型的基础上,InternVL 1.5引入了三项创新设计,进一步提升了模型的性能:

1.强大的视觉编码器:通过连续学习策略,InternViT-6B模型的视觉理解能力得到了显著提升,使其能够在不同的大型语言模型中进行迁移和重用。

2.动态高分辨率:InternVL 1.5能够根据输入图像的宽高比和分辨率,将图像动态划分为不同数量的448×448图像块,最高支持4K分辨率的输入,这为处理高分辨率图像提供了更高的灵活性和效率。

3.高质量双语数据集:研究团队精心构建了一个覆盖常见场景和文档图像的高质量双语数据集,并用英语和中文进行了问答对标注,显著增强了模型在OCR和中文相关任务中的性能。这些创新使得InternVL 1.5在多模态任务中的性能得到了显著提升,有效地缩小了开源模型与商业模型之间的性能差距。

为了更好的帮助大家了解这项工作,机器之心最新一期线上分享将带来最新的书生图像大模型InternVL系列模型的全面介绍。

分享主题:我们离GPT-4V还有多远?通过开源套件缩小与商用多模态模型之间的差距

嘉宾介绍:

王文海:南京大学博士,香港中文大学博士后。研究方向为视觉基础模型研究,上海人工智能实验室“书生”系列视觉基础模型核心开发者。主要成果发表在顶级期刊和会议TPAMI、CVPR、ICCV、ECCV、ICLR、NeurIPS等共43篇论文,其中19篇为一作/共一/通信。研究成果获得了总共超1.6万次引用,单篇最高引用超3000次。研究成果分别入选CVPR 2023最佳论文,世界人工智能大会青年优秀论文奖,CVMJ 2022最佳论文提名奖,两次入选ESI高被引论文(前1%)和热点论文(前0.1%),6次入选Paper Digest CVPR、ICCV、NeurIPS、ECCV年度十大最具影响力论文,一次入选Zeta Alpha 2022年百篇最高引AI论文。入选斯坦福大学2023年度全球前2%顶尖科学家,CSIG优博提名。担任CSIG VI编委,IJCAI 2021的高级程序委员会委员,以及TPAMI、IJCV、CVPR、ICCV、ECCV等多个顶级国际会议/期刊的程序委员会委员/审稿人。

陈喆:南京大学二年级在读博士,导师是路通教授。在顶级国际期刊和会议上发表学术论文11篇,谷歌学术总引用1120余次。所发表工作InternImage入选CVPR2023年度十大最有影响力论文,InternVL入选CVPR2024 Oral论文,并有多篇工作被选为CVPR Highlight、ICLR Spotlight论文。入选国家自然科学基金青年学生基础研究项目(博士研究生),在NAIC 2020、WSDM Cup 2023等竞赛中取得冠军。

分享摘要:在本次分享中,将全面介绍最新的书生图像大模型InternVL系列模型,包括InternVL 1.0和1.5。讨论1.0版本在视觉基础模型以及多模态大型语言模型(MLLM)领域的初步探索和所取得的进展。重点介绍1.5版本的核心改进,如视觉编码器的连续学习策略、动态高分辨率处理以及高质量双语数据集的构建。此外,将展示这些改进如何推动模型在多模态任务上的性能提升,并探讨InternVL系列模型在AIGC领域的应用潜力和未来发展。相关链接:
  • InternVL 1.0: https://arxiv.org/abs/2312.14238

  • InternVL 1.5: https://arxiv.org/abs/2404.16821

  • 项目代码:https://github.com/OpenGVLab/InternVL

直播间:关注机器之心机动组视频号,立即预约直播。

机动组技术交流群:添加小助手好友备注「研究方向」,获取行业一手资讯,欢迎大家进群聊聊。



机器之心 · 机动组机动组聚焦于学术研究、工程实践与产业应用,筛选前沿、专业、实用内容,不定期组织学术研讨、技术交流与实战分享等。欢迎所有 AI 领域技术从业者关注。


点击阅读原文,直达机动组官网,查看往期回顾。

相关推荐

  • 人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈
  • OpenAI下周要有大动作,奥特曼在线剧透:不是GPT-5,不是搜索引擎
  • 百万tokens低至1元!大模型越来越卷了
  • 坏了,我的RTX 3090 GPU在对我唱歌!
  • AI生成3D主题乐园,角色建筑批量生成,风格保持一致 | SIGGRAPH 2024
  • 量化之王谢幕,“用数学赚钱比印钞机还快”
  • 微软打破Decoder-Only架构!大幅降低GPU内存需求,网友:把Llama3 70B弄20GB GPU上运行
  • OpenAI抓内鬼出奇招,奥特曼耍了所有人:GPT搜索鸽了!改升级GPT-4
  • 国产大模型:今天起,我们100万tokens只需1元!
  • 每日prompt:用Midjourney画出最近流行的粘土风
  • OpenAI将在5月13日直播一些关于 ChatGPT 的升级内容
  • 2人小团队,怎么在内卷的短视频带货赛道找到出路?
  • ICLR 2024|用巧妙的「传送」技巧,让神经网络的训练更加高效
  • 科研实习 | 南方科技大学-香港中文大学(深圳)联合招收大语言模型算法实习生
  • ControlNet作者放大招!IC-Light:控制生成图片光照效果!
  • 开源!过程控制与自动化系统
  • 6.8K Star神器!自动生成正则表达式
  • 升级你的网络实验场:体验华为最新ENSP_PRO模拟器,现已对普通用户开放!
  • 奇舞周刊第527期:​Virtual DOM(虚拟DOM) 的地位再一次被挑战 !!!
  • 今日代码大赏 | Spring Cloud Gateway 全局过滤器实现