8个2024年最值得关注的开源LLM

8个最值得关注的开源LLM。

长按关注《Python学研大本营》，加入读者群，分享更多精彩

LLM（Large Language Mode大型语言模型）是ChatGPT和Google Bard等聊天机器人的基础模型。ChatGPT目前由OpenAI开发的LLM GPT-4驱动，而谷歌Bard基于谷歌的PaLM 2模型。

ChatGPT和Bard以及许多其他聊天机器人的共同点是其底层LLM是专有的。这意味着它们都由一家公司所有，只有在购买许可证后才能使用。该许可证附带权利，对如何使用LLM有限制。

然而，开源的LLM正在迅速发展，开源LLM有望使快速增长的人工智能领域变得更容易访问、透明和创新。

1、开源LLM的优势

数据安全性和隐私性

使用专有LLM的最大问题之一是LLM提供商存在数据泄漏或未经授权访问敏感数据的风险。

通过使用开源LLM，公司将全权负责保护个人数据，因为它们会保持对数据的完全控制。

节约成本并减少对供应商的依赖

大多数专有LLM需要许可证才能使用。从长远来看，这可能是一些公司（尤其是中小企业）无法负担的重要支出。而开源LLM是免费使用的。

然而，需要注意的是，运行LLMs需要相当多的资源，这意味着通常需要为使用云服务或强大的基础设施付费。

2、2024年8大开源大型语言模型

2.1 LLaMA 2

LLM领域的大多数顶级玩家都选择闭门造车，但Meta是个例外。随着其强大的开源大型语言模型Meta AI（LLaMA）及其改进版本（LLaMA 2）的发布，Meta正在向市场发出一个重要信号。

LLaMA 2于2023年7月实现研究和商业用途，是一个预训练的生成文本模型，具有70亿至700亿个参数。此模型已经通过来自人类反馈的强化学习（RLHF）进行了微调。它是一个生成性文本模型，可以用作聊天机器人，并可以适用于各种自然语言生成任务，包括编程任务。Meta已经推出了开放的定制版LLaMA 2、Llama Chat和Code Llama。

2.2 BLOOM

BLOOM是由来自70多个国家的志愿者和来自Hugging Face的研究人员进行了为期一年的合作项目，于2022年推出的。BLOOM经过训练可以使用工业规模的计算资源从大量文本数据的提示中继续文本。

BLOOM拥有1760亿个参数，是最强大的开源LLM之一，能够以46种语言和13种编程语言提供连贯准确的文本。

透明度是BLOOM的支柱，在这个项目中，每个人都可以访问源代码和训练数据，以便运行、研究和改进。

BLOOM可以通过Hugging Face生态系统免费使用。

2.3 BERT

LLM的底层技术是一种称为转换器的神经架构。它是2017年由谷歌研究人员在论文《Attention is All You Need》中开发的。BERT是测试变压器潜力的第一批实验之一。

BERT于2018年由谷歌作为开源LLM推出，在许多自然语言处理任务中迅速实现了最先进的性能。

由于其在LLM早期的创新特性及其开源性质，Bert是最受欢迎和使用最广泛的LLM之一。例如，2020年，谷歌宣布已通过谷歌搜索在70多种语言中采用Bert。

目前有数千种开源、免费和预训练的Bert模型可用于特定用例，如情感分析、临床笔记分析和有毒评论检测。

2.4 Falcon 180B

由阿联酋技术创新研究所于2023年9月发布的Falcon 180B正在接受1800亿个参数和3.5万亿个tokens的训练。凭借这种令人印象深刻的计算能力，Falcon 180B已经在各种自然语言处理任务中超过了LLaMA 2和GPT 3.5，Hugging Face表明Falcon 180B可以与谷歌的PaLM 2相媲美，后者是谷歌Bard的LLM。

尽管商业和研究用途是免费的，但需要注意的是，Falcon 180B需要重要的计算资源才能运行。

2.5 OPT-175B

2022年发布了Open Pre-trained Transformers Language Models（OPT）。

OPT包括一套仅用于解码器的预训练变压器，参数范围从125M到175B。OPT-175B是市场上最先进的开源LLM之一。预训练模型和源代码都向公众开放。

然而，OPT-175B是在非商业许可下发布的，只允许将该模型用于研究用例。

2.6 XGen-7B

越来越多的公司加入了LLM竞争，而Salesforce是最后一批进入该领域的公司之一，该公司于2023年7月推出了XGen-7B LLM。

根据作者的说法，大多数开源LLM专注于提供信息有限的大型答案（即几乎没有上下文的简短提示）。XGen-7B背后的想法是构建一个支持更长上下文窗口的工具。特别是，XGen的最高级变体（XGen-7B-8K-base）允许8K的上下文窗口，即输入和输出文本的累积大小。

效率是XGen的另一个重要核心点，XGen仅使用7B参数进行训练，比大多数强大的开源LLM（如LLaMA 2或Falcon）少得多。

虽然XGen的尺寸相对较小，但能提供不错的结果。该模型可用于商业和研究目的，但XGen-7B-{4K，8K}-inst变体除外，该变体已经过教学数据和RLHF培训，并在非商业许可下发布。

2.7 GPT-NeoX and GPT-J

GPT-NeoX和GPT-J是由非营利性人工智能研究实验室EleutherAI的研究人员开发的，是GPT的两个的开源替代品。

GPT-NeoX有200亿个参数，而GPT-J有60亿个参数。

这两个模型接受了来自不同来源的22个高质量数据集的训练，这些数据集使之能够在多个领域和许多用例中使用。与GPT-3相比，GPT-NeoX和GPT-J没有接受过RLHF的训练。

任何自然语言处理任务都可以用GPT-NeoX和GPT-J执行，从文本生成和情感分析到研究和营销活动开发。

这两个LLM都可以通过NLP Cloud API免费获得。

2.8 Vicuna 13-B

Vicuna-13B是一个开源对话模型，通过使用从ShareGPT收集的用户共享对话对LLaMa 13B模型进行微调来训练。

作为一款智能聊天机器人，Vicuna-13B的应用数不胜数，例如客户服务、医疗保健、教育、金融和旅游/酒店业。