多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告





在科学研究及其应用中,科学文献分析的重要性不言而喻,它使研究人员得以在前人的基础上进行进一步的探索。然而,随着科学的快速迭代发展,科学文献的数量急剧增加,使得深入分析文献的难度和所需的时间大幅提升。为了提高信息检索的效率,SciFinder 和 Reaxys 等专业的科学文献数据库应运而生。然而它们的作用仅限于普通的检索,缺乏信息提取和知识理解的能力,用户仍需阅读和分析检索到的文档,以提取确切答案。大型语言模型如 ChatGPT 的出现,标志着自然语言处理演进的重要里程碑。这些模型彻底改变了从文档中提取文本信息的方式,能够利用提取的内容直接获得答案。尽管它们在提取文本方面表现出色,但现有的大模型主要设计用于文本提取,常常难以理解科学文献中固有的多模态内容,如表格、图表、分子结构、化学反应等。为了应对这一挑战,深势科技此前推出了 Uni-Finder 的产品内测,一款先进的文献和专利信息处理的引擎产品。继该产品发布后,我们持续致力于优化产品背后的核心算法——Uni-SMART(Universal Science Multimodal Analysis and Research Transformer),这是一个为深入理解多模态科学文献而设计的创新模型。同时,我们设计了 SciAssess (SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis),一个跨领域、高质量的科学文献分析能力评测方案,旨在全面、客观地评估 Uni-SMART 的能力。目前,Uni-SMART 和 SciAssess 的最新技术报告已在 ArXiv 公开。其中,Uni-SMART 被 HuggingFace 官方的 Daily Papers 收录,且短短几小时便冲上了榜上第一名!

Uni-SMART 模型


Uni-SMART 使用了广泛的科学文献数据源,包括专利、科学出版物、新闻文章、市场报告等。并采用了主动学习(Active learning)的方法来不断增强模型的能力:

1. 多模态学习 (Multimodal Learning):在初始阶段,模型通过较少的多模态数据进行训练,以识别和提取科学文献中的各种信息元素,并将这些信息以序列化的形式进行输出,该序列化结果中包含了文本和多模态信息。2. 大模型有监督微调 (LLM SFT):利用上一步产生的序列化输出以及对应的 QA 对,对大模型进行有监督微调,增强大模型处理和理解多模态信息的能力。3. 用户反馈 (User Feedback):经过 SFT 增强的大模型部署到实际应用中,期间,我们从明确给予同意的内部用户中收集反馈。收到正反馈的样本将被筛选并随后进入数据增强环节,而收到负反馈的样本则需经过专家标注后进入到数据增强环节中。4. 专家标注 (Expert Annotation):获得负反馈的样本会由内部的领域专家进行细致的标注,确保模型能够从这些错误中学习并改进,半自动化工具将在这个过程中提供帮助以提高标注效率。负反馈的案例通常分为两类:一类是多模态识别错误导致的,第二类是大模型的理解或推理错误导致的。通过细致的错误类型分析,从而促进更有针对性的改进。5. 数据增强 (Data Enhancement):将专家标注后的数据,以及部分正反馈的样本增加到模型的训练数据中,实现数据集的不断扩充。不断重复这一迭代过程,以此来优化 Uni-SMART 的整体性能。

这种循环迭代的流水线显著提升了 Uni-SMART 在各种任务中的表现,如信息提取、复杂元素识别、科学文献理解和分析,以及多模态元素的理解和推理等。

科学文献多模态能力评估

我们设计了一个专门评测科学文献理解的评估方法 SciAssess,旨在对 LLM 在文献理解的能力进行全面、客观、科学的评估。评测的数据包含了广泛的学科,包括化学、材料、药物发现等,并在每个学科中挑选了各自有代表性的任务。我们使用 SciAssess,将 Uni-SMART 和其他主流的大型语言模型进行了横向对比,定量评估他们在科学文献多模态元素理解的能力。

  • 不同模型在处理包含表格任务的结果对比

  • 不同模型在处理包含图表任务的结果对比

  • 不同模型在处理包含分子结构任务的结果对比

  • 不同模型在处理包含反应式任务的结果对比

从上述评估结果可以看出,Uni-SMART 在处理包含表格、图表、分子结构以及化学反应式等多模态元素任务中,相较于其他主流大模型如 GPT-4、GPT-3.5 以及 Gemini,展现出了显著的优势。在绝大多数的评估任务中,Uni-SMART 都处于领先地位。这些结果不仅证明了 Uni-SMART 在理解科学文献多模态元素方面的卓越性能,也展现了它在处理专业科学内容方面的强大能力。通过 Uni-SMART,我们可以期待在科学文献的深度理解和应用上实现更大的突破,加速科学发现的过程。

实际应用案例


1. 专利侵权判定

在研究和工业领域,正确理解和应用专利信息变得日益重要。尤其是在化学和药物开发领域,准确判断一个化合物是否受现有专利保护对于避免潜在的专利侵权至关重要。在这个案例中,我们利用 Uni-SMART 分析特定化合物是否受某一篇专利所保护。如图所示,通过考虑分子的骨架和取代基等多种因素,模型正确地判断出该化合物是否属于该专利的保护范围,展示了其强大的跨模态信息处理能力。

2. 温度控制图解析

在科学文献中,图表是传递复杂数据和实验结果的关键工具,理解图表的信息对于深入理解文章细节起着至关重要的作用。在这个案例中,我们利用 Uni-SMART 对金属注射成型温控曲线进行分析。如图所示,Uni-SMART 准确地描述了曲线的变化过程,精准地识别出其中的关键数据点,并按照用户指示将这些信息转换成了表格的格式。此外,在淬火率的计算过程中,模型还展示出了强大的数学计算和逻辑推理能力。

更多信息


官方链接:

https://uni-smart.dp.tech/

论文链接:https://arxiv.org/abs/2403.10301产品试用链接:https://uni-finder.dp.tech/benchmark 论文链接:https://arxiv.org/abs/2403.01976benchmark 代码仓库:https://github.com/sci-assess/SciAssessBohrium® 小程序地址:#小程序://Bohrium/z7YFPNP8wlQt5e         

推荐关注




关于深势科技

深势科技是“AI for Science”科学研究范式的引领者和践行者,致力于运用人工智能和多尺度的模拟仿真算法,结合先进计算手段求解重要科学问题,为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。
我们开创性地提出了「多尺度建模+机器学习+高性能计算」的革命性科学研究新范式,并推出了Bohrium®科研云平台、Hermite®药物计算设计平台、RiDYMO®难成药靶标研发平台及 Piloteye®电池设计自动化平台等工业设计与仿真基础设施,颠覆了现有研发模式,打造“计算引导实验、实验优化设计”的全新范式。
深势科技是国家高新技术企业、国家专精特新“小巨人”企业,总部位于北京,并在上海、深圳等城市布局研发中心。科研技术团队由中国科学院院士领衔,汇集了超百位数学、物理、化学、生物、材料、计算机等多个领域的优秀青年科学家和工程师,其中公司的博士及博士后占比超过35%。核心成员获得过2020年全球计算机高性能计算领域的最高奖项“戈登贝尔奖”,相关工作当选2020年中国十大科技进展和全球AI领域十大技术突破。


点击“阅读原文”了解更多

相关推荐

  • 警惕发布前夕的“致命遗忘”
  • 邀你探索金融、教育、法律及医疗行业的大模型创新应用,AICon 2024 即将拉开帷幕
  • Java 22 正式发布
  • 微软开抢年收入上亿美元的 Redis 饭碗?开源性能遥遥领先的 Garnet:无需修改,Redis 客户端可直接接入
  • 风控也在用大模型了
  • 一次性支持 200 万字无损上下文!Kimi智能助手玩了个大的——月之暗面「登月」最新进展!
  • 今日arXiv最热NLP大模型论文:大模型RAG新宠!浙江大学发布自反馈检索增强方法
  • 无人驾驶飞机上架淘宝!?亿航智能首款国产「空中的士」网上开售,股价一度飞升 30%
  • 如何从头开始编写LoRA代码,这有一份教程
  • Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放
  • 利物浦用DeepMind的AI制定战术已有三年了
  • 融资15亿美元却被挖走创始人,微软正在将这家创企生吞活剥?
  • 奥特曼回应一切:GPT-5、董事会宫斗、Ilya当时看到了什么
  • 谷歌发布“Vlogger”模型:单张图片生成10秒视频
  • AI足球教练上岗利物浦,射门机会提高13%!来自DeepMind,网友:这不公平
  • 旷视实战大模型:把多模态扎进行业
  • 上海率先打响AI开发者争夺战!大咖云集,先锋毕至 | 2024全球开发者先锋大会
  • 马斯克为啥开源Grok?对我们有什么影响?
  • 刚刚!奥特曼放出来了GPT-5的内容:能力提升幅度超乎想象
  • 【赠书】大语言模型训练优化秘籍