ACL 2024 | OceanGPT（沧渊）：面向海洋科学任务的大型语言模型初探

我们在去年发布了 OceanGPT 并初步探索了其在海洋科学问答、内容生成和水下具身智能能力，该工作近期被自然语言处理顶级会议 ACL 2024（CCF-A 类会议）录用为主会论文。近期我们对 OceanGPT 进行了进一步的优化和升级，并将其中的部分能力以开源形式进行了更新发布，主要能力升级包括：

1. 在 OceanGPT-7b 基础上升级发布 OceanGPT-14B/2B 两个新版本；

2. 新增基于 Qwen2 的中文基座的 OceanGPT，提供支持中英文双语能力；

3. 开源了 20K 规模的海洋大模型指令数据集 OceanInstruct；

4. 新训练 OceanGPT-V 多模态版本（提供在线演示，即将开源），支持多模态海洋数据（声呐、科学图片等）处理能力。

论文标题：

OceanGPT: A Large Language Model for Ocean Science Tasks

论文作者：

毕祯（浙江大学）、张宁豫（浙江大学）、薛逸达（浙江大学）、欧翌昕（浙江大学）、冀大雄（浙江大学）、郑国轴（浙江大学）、陈华钧（浙江大学）

论文链接：

https://arxiv.org/abs/2310.02031

代码链接：

https://huggingface.co/zjunlp/OceanGPT-14B-v0.1

项目链接：

http://oceangpt.zjukg.cn/

数据链接：

https://huggingface.co/datasets/zjunlp/OceanInstruct

背景

海洋覆盖了约 71% 的地球表面，它在全球的气候调节、天气模式、生物多样性以及人类的经济发展都扮演着至关重要的角色。海洋科学的研究关注于海洋的自然特性、其变化规律以及与海洋资源开发和利用相关的理论、方法与应用。因此，本文提出了为海洋领域打造的大型语言模型 OceanGPT，它能够处理面向海洋科学的问答等生成任务。另外本文还尝试验证大模型模拟操控水下机器人的潜力，初步探索了大模型驱动的水下具身智能的可能实现方法。

OceanGPT的训练（OceanGPT-7B）

数据质量是训练海洋领域大模型的关键。为训练OceanGPT，我们收集了海洋科学语料，其包含多个子领域。由于每个子领域和主题都有独特的特征和模式，我们提出了一种名为 DoInstruct 的领域指令生成框架，采用多智能体协作的方式来生成海洋科学的指令微调训练数据。这种方式即可以确保数据的专业性和准确性，也能够实现高效并行的数据生成性能。DoInstruct 框架利用智能体（如 GPT-3.5-turbo）作为每个海洋主题的专家，主要包含三大类角色：

1. 演化式的数据合成智能体：具体来说，智能体主要采取两种协同式的策略，一是补充拓展种子样本的背景知识，二是对种子数据包含的知识点进行细化分析增强和改进；

2. 经过微调的文献阅读智能体：首先对大模型进行微调得到专门用于文献抽取的智能体模型，从而能够使用智能体从海量海洋语料库中提取高质量文本；

3. 确保数据质量的审核智能体：在这里预定义了特定海洋科学相关的句法和语义规则，通过提示的方式构建该智能体，最后能够过滤数据来确保生成数据的质量。

基于上述得到的指令数据，我们基于开源模型 llama2-7b-chat 训练得到 OceanGPT-7B，其中部分的指令数据已开源到 OceanInstructions。

从实验结果可以看到，本文研究的模型在绝大多数任务上优于基线语言模型。与此作为对比，现有的开源大型语言模型并不能够很好地处理一些需要专业知识的海洋任务。另外我们设计的多智能体数据生成框架能够有效地在海洋领域的各个子领域充当专家，这表明 OceanGPT 在各种海洋领域是更好的专家模型。

我们进一步在微调过程融合了一些符号化的机器人控制指令和代码，然后在模拟器中初步验证 OceanGPT 对于海底机器人控制（比如轨迹规划）的能力，可以为大模型驱动的水下具身智能的实现提供参考。

新升级能力（OceanGPT-14B/2B）

在前述工作基础之上，近期我们对 OceanGPT 进行了多方面的升级，包括：

1. 对模型基座（基于 Qwen 和 MiniCPM）进行了更新优化并开源发布 OceanGPT-14B/7B/2B 三个模型，其中 2B 模型可支持端侧或边缘侧硬件设备部署，以便更好适配海洋环境下端侧或边缘侧的低计算能力设备。

2. 基于 Qwen 2.0 基座模型，提升模型的中英双语能力。

3. 对海洋指令数据集进行了扩展，覆盖更为广泛海洋领域知识，并基于部分指令数据集开源了海洋指令数据集 OceanInstruct（20K）。

4. 新训练 OceanGPT-V 多模态版本（提供在线演示，即将开源），支持多模态海洋数据（声呐、科学图片等）处理能力。

下面以 OceanGPT-14B 为例，展示模型的部分能力。

如给定中文问题“请生成一份东海海域海底管缆的建设方案”，可以发现 OceanGPT 具备较好的海洋科学知识问题的回答能力。首先，从生成内容的丰富度而言，OceanGPT 从“项目概述”、“建设目标”、“线路规划”、“技术路线”、“环境影响评估与保护”等八个点来阐述问题，比 GPT4 的逻辑性相对较好，丰富度也更高。

其次从细粒度的知识点来说，OceanGPT 的回答内容覆盖了相对更多的层次。比如说在问题中提到了“中国东海”，OceanGPT 能够结合东海本身的背景来进行分析回答，比如联系到“东海大陆架”、“舟山群岛”以及“日本海盆”等知识概念。与此作为对比，GPT4 的生成结果相对模糊，没有结合问题的场景做具体分析。总的来说，OceanGPT 具备相对较好的海洋科学知识理解与生成能力。

为验证 OceanGPT 英文生成能力，给定英文输入“请描述东海海域的海底地形地貌特征”。可以看出 OceanGPT 的描述覆盖了更多的地形地貌类型，如大陆坡、海沟、浅海平原、环礁和珊瑚岛、洋中脊等。而 GPT4 的描述则相对简单，仅提及了浅海区和深海区。从深度和专业性的角度来看，OceanGPT 不仅描述了地形，还提供了具体的深度信息和相关地质特征，如日本海沟的深度和琉球海脊的地质成因，使得描述更加专业和科学。

最后，OceanGPT 清晰地划分了东海的不同地貌区域，并逐一进行详细描述，使得读者更容易理解东海海域的地形地貌特征。相比之下，GPT4 的描述较为笼统且没有区域划分。通过以上对比分析可以看出，OceanGPT 生成的描述在细节、全面性、专业性和区域划分上相对较好，能够提供更为准确和深入的海底地形地貌信息。