8个2024年最值得关注的开源LLM

8个最值得关注的开源LLM。

长按关注《Python学研大本营》,加入读者群,分享更多精彩

LLM(Large Language Mode大型语言模型)是ChatGPT和Google Bard等聊天机器人的基础模型。ChatGPT目前由OpenAI开发的LLM GPT-4驱动,而谷歌Bard基于谷歌的PaLM 2模型。

ChatGPT和Bard以及许多其他聊天机器人的共同点是其底层LLM是专有的。这意味着它们都由一家公司所有,只有在购买许可证后才能使用。该许可证附带权利,对如何使用LLM有限制。

然而,开源的LLM正在迅速发展,开源LLM有望使快速增长的人工智能领域变得更容易访问、透明和创新。

1、开源LLM的优势

数据安全性和隐私性

使用专有LLM的最大问题之一是LLM提供商存在数据泄漏或未经授权访问敏感数据的风险。

通过使用开源LLM,公司将全权负责保护个人数据,因为它们会保持对数据的完全控制。

节约成本并减少对供应商的依赖

大多数专有LLM需要许可证才能使用。从长远来看,这可能是一些公司(尤其是中小企业)无法负担的重要支出。而开源LLM是免费使用的。

然而,需要注意的是,运行LLMs需要相当多的资源,这意味着通常需要为使用云服务或强大的基础设施付费。

2、2024年8大开源大型语言模型

2.1 LLaMA 2

LLM领域的大多数顶级玩家都选择闭门造车,但Meta是个例外。随着其强大的开源大型语言模型Meta AI(LLaMA)及其改进版本(LLaMA 2)的发布,Meta正在向市场发出一个重要信号。

LLaMA 2于2023年7月实现研究和商业用途,是一个预训练的生成文本模型,具有70亿至700亿个参数。此模型已经通过来自人类反馈的强化学习(RLHF)进行了微调。它是一个生成性文本模型,可以用作聊天机器人,并可以适用于各种自然语言生成任务,包括编程任务。Meta已经推出了开放的定制版LLaMA 2、Llama Chat和Code Llama。

2.2 BLOOM

BLOOM是由来自70多个国家的志愿者和来自Hugging Face的研究人员进行了为期一年的合作项目,于2022年推出的。BLOOM经过训练可以使用工业规模的计算资源从大量文本数据的提示中继续文本。

BLOOM拥有1760亿个参数,是最强大的开源LLM之一,能够以46种语言和13种编程语言提供连贯准确的文本。

透明度是BLOOM的支柱,在这个项目中,每个人都可以访问源代码和训练数据,以便运行、研究和改进。

BLOOM可以通过Hugging Face生态系统免费使用。

2.3 BERT

LLM的底层技术是一种称为转换器的神经架构。它是2017年由谷歌研究人员在论文《Attention is All You Need》中开发的。BERT是测试变压器潜力的第一批实验之一。

BERT于2018年由谷歌作为开源LLM推出,在许多自然语言处理任务中迅速实现了最先进的性能。

由于其在LLM早期的创新特性及其开源性质,Bert是最受欢迎和使用最广泛的LLM之一。例如,2020年,谷歌宣布已通过谷歌搜索在70多种语言中采用Bert。

目前有数千种开源、免费和预训练的Bert模型可用于特定用例,如情感分析、临床笔记分析和有毒评论检测。

2.4 Falcon 180B

由阿联酋技术创新研究所于2023年9月发布的Falcon 180B正在接受1800亿个参数和3.5万亿个tokens的训练。凭借这种令人印象深刻的计算能力,Falcon 180B已经在各种自然语言处理任务中超过了LLaMA 2和GPT 3.5,Hugging Face表明Falcon 180B可以与谷歌的PaLM 2相媲美,后者是谷歌Bard的LLM。

尽管商业和研究用途是免费的,但需要注意的是,Falcon 180B需要重要的计算资源才能运行。

2.5 OPT-175B

2022年发布了Open Pre-trained Transformers Language Models(OPT)。

OPT包括一套仅用于解码器的预训练变压器,参数范围从125M到175B。OPT-175B是市场上最先进的开源LLM之一。预训练模型和源代码都向公众开放。

然而,OPT-175B是在非商业许可下发布的,只允许将该模型用于研究用例。

2.6 XGen-7B

越来越多的公司加入了LLM竞争,而Salesforce是最后一批进入该领域的公司之一,该公司于2023年7月推出了XGen-7B LLM。

根据作者的说法,大多数开源LLM专注于提供信息有限的大型答案(即几乎没有上下文的简短提示)。XGen-7B背后的想法是构建一个支持更长上下文窗口的工具。特别是,XGen的最高级变体(XGen-7B-8K-base)允许8K的上下文窗口,即输入和输出文本的累积大小。

效率是XGen的另一个重要核心点,XGen仅使用7B参数进行训练,比大多数强大的开源LLM(如LLaMA 2或Falcon)少得多。

虽然XGen的尺寸相对较小,但能提供不错的结果。该模型可用于商业和研究目的,但XGen-7B-{4K,8K}-inst变体除外,该变体已经过教学数据和RLHF培训,并在非商业许可下发布。

2.7 GPT-NeoX and GPT-J

GPT-NeoX和GPT-J是由非营利性人工智能研究实验室EleutherAI的研究人员开发的,是GPT的两个的开源替代品。

GPT-NeoX有200亿个参数,而GPT-J有60亿个参数。

这两个模型接受了来自不同来源的22个高质量数据集的训练,这些数据集使之能够在多个领域和许多用例中使用。与GPT-3相比,GPT-NeoX和GPT-J没有接受过RLHF的训练。

任何自然语言处理任务都可以用GPT-NeoX和GPT-J执行,从文本生成和情感分析到研究和营销活动开发。

这两个LLM都可以通过NLP Cloud API免费获得。

2.8 Vicuna 13-B

Vicuna-13B是一个开源对话模型,通过使用从ShareGPT收集的用户共享对话对LLaMa 13B模型进行微调来训练。

作为一款智能聊天机器人,Vicuna-13B的应用数不胜数,例如客户服务、医疗保健、教育、金融和旅游/酒店业。

推荐书单

《Python从入门到精通(微课精编版)(软件开发视频大讲堂)》

《Python从入门到精通(微课精编版)》使用通俗易懂的语言、丰富的案例,详细介绍了Python语言的编程知识和应用技巧。全书共24章,内容包括Python开发环境、变量和数据类型、表达式、程序结构、序列、字典和集合、字符串、正则表达式、函数、类、模块、异常处理和程序调试、进程和线程、文件操作、数据库操作、图形界面编程、网络编程、Web编程、网络爬虫、数据处理等,还详细介绍了多个综合实战项目。其中,第24章为扩展项目在线开发,是一章纯线上内容。全书结构完整,知识点与示例相结合,并配有案例实战,可操作性强,示例源代码大都给出详细注释,读者可轻松学习,快速上手。本书采用O2O教学模式,线下与线上协同,以纸质内容为基础,同时拓展更多超值的线上内容,读者使用手机微信扫一扫即可快速阅读,拓展知识,开阔视野,获取超额实战体验。

【半价促销中】购买链接:https://item.jd.com/13524355.html

精彩回顾

大模型时代,5个最顶级的向量数据库

大模型时代的向量数据库,入门、原理解析和应用案例

手把手教你用LangChain实现大模型Agent

30个数据工程中最常用的Python库(下)

30个数据工程中最常用的Python库(上)

SQL中常用的排序算法

长按关注《Python学研大本营》,加入读者群,分享更多精彩长按访问【IT今日热榜】,发现每日技术热点

相关推荐

  • 博后招募 | 香港理工大学姚岱教授课题组招聘人工智能方向博士后
  • 曾经火出圈的提示工程要死了吗?危!大模型能自己优化Prompt了
  • WWW 2024 | 港理工等联合提出线性时间图神经网络,适用于大规模推荐系统
  • 不会吧!还有人不知道小红书25届实习生招聘开始了吗!
  • 百度5款大模型上新,更小更便宜!还可1分钟零代码打造Agent应用
  • 游戏NPC“活”了,英伟达AI立大功
  • 开源AI掌机爆火,首批预售2.5小时抢光!
  • Sora复刻版来了,微软参与,华人团队打造
  • 为什么说GPU再火,AI平台也少不了强力的CPU
  • Nature重磅:AI击败最先进全球洪水预警系统,提前7天预测河流洪水,每年挽救数千人生命
  • Reddit IPO首日大涨48%,社交媒体卖用户数据第一股,股民追捧但Altman投资却差点亏本
  • Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂
  • 一口气读完《沙丘》 ,零一万物宝藏API正式开箱!酷炫Demo实测,多模态中文图表体验超越GPT-4V
  • Hinton痛悔毕生工作,AGI十年内降临或导致「奥本海默」灾难!图灵巨头联手中国专家为AI划红线
  • 内推 |【蚂蚁】蚂蚁网商银行智能引擎招聘
  • 一行代码极速部署:打造面向开发者的流计算平台
  • 风控也在用大模型了
  • 微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归
  • 苏妈现身北京,AMD喊出了AI PC Yes!
  • 吴恩达:AI智能体工作流今年将有巨大进展,可能超过下一代基础模型