Google 发布 CodeGemma:7B 力压 CodeLLaMa-13B

夕小瑶科技说 原创
作者 | 任同学
刚刚发布!Google 带来了新的 Gemma 家族成员,CodeGemma,这是基于预训练的 Gemma-2B 和 Gemma-7B 的代码生成模型。

其上下文窗口长度为8K,在另外 500 B 个主要由英语、数学和代码组成的 token 上进行了训练,改进了逻辑和数学推理能力,适合代码生成任务。

CodeGemma-7B 在 HumanEval 上的表现优于类似大小的7B模型,甚至还要超过 CodeLLaMa-13B

不过,在 DeepSeekCoder-7B 面前,CodeGemma 还是要稍逊一筹!

CodeGemma支持包括 Python、JavaScript、Java、Kotlin、C++、C#、Rust、Go 在内的多种编程语言。

CodeGemma包含三款模型:

  • CodeGemma 2B Base Model,专门针对代码生成进行训练,旨在快速生成代码,适合需要隐私或高性能代码生成的环境。

  • CodeGemma 7B Base Model,训练数据包括80%的代码和20%的自然语言,适合代码生成和理解。

  • CodeGemma 7B Instruct Model,微调版,适用于聊天,擅长代码生成和数学推理。

2B模型相比同尺寸模型更具有优势

作者使用了 HumanEval Infilling benchmarks 中的单行和多行指标进行评估。在表 2 中展示了与其他基于 FIM 的代码模型的性能对比。

2B 预训练模型在代码自动补全用例中表现出色,低延迟是一个关键因素。在推断过程中,它表现与其他模型相当。

而在许多情况下,速度几乎是其他模型的两倍。作者将这种速度提升归因于基于 Gemma 的架构决策。

不过在 7B 模型上,CodeGemma 的延迟对比并没有优势,反而性能还较大程度地弱于 DeepSeek Coder。

表2. CodeGemma的单行和多行代码完成能力与其它代码模型的比较。

7B模型多语言性能超越 CodeLLaMa-13B

作者在 BabelCode-translated HumanEval 和 Mostly Basic Python Problems (MBPP) 数据集上对比 CodeGemma 系列的多语言代码能力。

同时,bigcode-models-leaderboard 上也发布了更详细的性能对比。CodeGemma 在 7B 大小的模型中要优于除了 DeepSeekCoder-7B 的模型,对比 CodeLLaMa-13B 也提升了 5个点。

但是我们从训练数据上也能初窥端倪,对于 DeepSeekCoder 所使用的 2000 B 的数据量,CodeGemma 的 500 B 还是小巫见大巫了!

保留 Gemma 的对话能力!

作者评估了 CodeGemma 在各种领域的性能,包括问答、自然语言和数学推理。将两个 7B 模型的结果与 Instruct Gemma-7B模型的结果呈现在图3中。

图3.

可以看到,CodeGemma 保留了 Gemma模型中大部分相同的自然语言功能。

表5. CodeGemma和指令调优版本Gemma的语言性能比较。Gemma和CodeGemma都属于7B大小类。

最后

借网友的话一用:“开源模型的发布和改进真的太快了!!”

即便是 Google 这样的团队,我们也能看到它在大模型的浪潮下有点手忙脚乱,本来以为是碾压局的 CodeGemma,没想到还是感觉发布得略显匆忙。

以 Google 的手笔,能在 500 B 的数据量下将 7B模型提高到 CodeLLaMa-13B(2500 B tokens)的水平,居然还是没有超过 DeepSeekCoder-7B。

回顾Google这几个月的动向,Bard、Gemini、Gemini Advanced、Gemma 轮番上阵,但是都没有在各自的领域上获得足够的认可,不免让吃瓜群众也感慨呀!

参考资料

 [1]https://huggingface.co/blog/codegemma
 [2]https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdf
 [3]https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard

相关推荐

  • 黑科技 !AI届的“指环王”,已接入ChatGPT和Gemini!一个戒指可操控手机和智能家居,韩国公司研发
  • 超越GPT-4V,苹果多模态大模型上新!
  • 「视觉版」GPT-4 Turbo重磅升级!ChatGPT 40条消息限制或取消
  • 刚刚,Mistral AI最新磁力链放出!8x22B MoE模型,281GB解禁
  • 物理学再失伟人!94岁诺奖得主、「上帝粒子」之父希格斯离世
  • 谷歌向微软英特尔全面宣战!首款自研Arm CPU,最强大模型公测,AI视频对垒Sora
  • 今日代码大赏 | Java 使用递归反转句子
  • 又踩坑了,BigDecimal 的 5 个坑!
  • 好低调!字节Dreamina全面开放内测了,效果够惊艳吗?Ta眼中的“Sora女士”原来是这样!
  • 万变不离AI!直击 Google Cloud Next 2024 大会更多细节,不只Gemini 1.5 Pro !
  • Devin背后技术浮出水面!居然是OpenAI推出新版本GPT-4 Vision!网友:这视觉版本,正是我想要的!
  • 奖金丰厚!AI4S Cup系列比赛—“超声CT成像中的声场预测”报名启动
  • ​一个大模型建模所有图结构关系!港大等发布最新图大语言模型HiGPT
  • 马云内网发帖:肯定阿里一年改革动作
  • 天天用 antd 的 Form 组件?自己手写一个吧
  • 英特尔突袭英伟达H100,新AI芯片训练快40%,推理快50%,CEO蹦迪庆祝
  • 谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用
  • 开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单
  • AI算力提高,高能耗和难散热问题如何突破?
  • 离谱!AI超市「无人」收款,1000个印度人藏在背后……