阿里云发布通义千问2.5,中文性能全面赶超GPT-4-Turbo

国内很多网友觉得,我们的AI科技落后美国很多,但真相果真如此吗?
众所周知,AI大模型领域主要分为开源、闭源两大阵营,而近日国内大厂阿里云,在通义大模型发布一周年之际,接连在两大阵营报捷:通义千问2.5在中文语境下模型性能全面赶超GPT-4-Turbo,同时,最新开源的Qwen1.5-110B也击败 Llama-3-70B ,登顶 Open LLM Leaderboard。

据了解,通义千问2.5于今年5月9日发布,采用的是阿里云自研架构,并通过海量的数据训练,使模型的准确性和核心性能得到显著提升。
相比前一版本,通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%;相比海外以GPT-4为代表的超大参数量闭源模型,通义千问2.5也在中文语境的文本理解、文本生成、知识问答等众多方面实现了赶超。
在跑分和排行榜上,通义千问也是第一个在权威基准OpenCompass上追平 了GPT-4 Turbo得分的国产大模型。

不过,通义千问的革新意义不仅体现在硬核性能上,还体现在技术普惠上。
要知道,由于AI算力的高成本,不管是国内的WPS AI 、文心一言会员,还是国外的Claude Pro、Gemini Advanced、 ChatGPT Plus(GPT-4)等服务,都会对C端用户收取不少的费用。而通义千问,不仅对C端用户主打全功能“免费”,还坚持走开源路线,努力降低模型使用门槛,让国内海量中小企业更早、更快地用上前沿技术。
截至目前,通义千问已开源7B、14B、70B、VK、110B等全尺寸、多模态的模型,供不同需求开发者选择。

最新宣布开源的Qwen1.5-110B,还在MMLU、TheoremQA、ARC-C、GSM8K、MATH 和 HumanEval等基准测评中超越了Meta的Llama-3-70B模型。在HuggingFace推出的开源大模型排行榜Open LLM Leaderboard上,Qwen1.5-110B冲上榜首,击败Llama-3-70B,成为了最强开源大模型。

业内有一句话,“2023年是AI技术发展元年,2024是AI技术应用元年”,而通义千问作为国产大模型的翘楚之一,也正在加速落地。
据官方数据,目前,通义大模型已进入PC、手机、汽车、航空、天文、矿业、教育、医疗、餐饮、游戏、文旅等领域,通过阿里云服务的企业数量超过9万、通过钉钉服务的企业数量也突破220万大关,成为了国内B端领域中最受欢迎的大模型。
与此同时,海内外大量中小企业和开发者以下载开源模型的方式使用通义,在HuggingFace、魔搭ModelScope等开源社区,通义开源大模型的累计下载量超过了700万。
历经一年多追赶,国产大模型终于达到了全球第一梯队,甚至有望夺取AI领域的霸主地位,同时让人期待的是:随着通义千问等大模型的应用落地,AI能否给我们的生活带来真正颠覆性的改变,让电影中的科幻场景在近几年内成为现实?

相关推荐

  • 字节女员工:大厂被裁,带着260万存款回老家种地。每月利息4961.21元
  • 熬了快两个月,终于拿到了淘天offer!
  • 这款代码分享工具,爆了
  • 一行代码,把项目搞崩溃了!
  • 请大家拿下软考,现在!立刻!马上!!
  • CAA模式识别与机器智能专委会:首届深度学习模型压缩与部署技术会议
  • 选择需要的Token参与训练:微软重塑语言模型训练法则,准确率飙升30%
  • 实时数仓技术再升级:阿里云SelectDB版开启商业化
  • 大模型如何提升百度研发数据中台的业务效率
  • 【在职研究生】报考启动!本科可报!毕业拿硕士学位证
  • 蚂蚁多模态团队在视频多模态方向的技术探索
  • 前端第一可视化库、百度知名开源项目——ECharts创始人“下海”养鱼
  • Spring Boot实现多数据源快速入门
  • GPT-4o深夜炸场!AI实时视频通话丝滑如人类,Plus功能免费可用,奥特曼:《她》来了
  • 【机器学习】与机器学习相关的数学家,你认识几个?
  • 研究生答辩现场导师舌战群儒,网友:我负责嘎嘎,我导负责乱杀
  • 关于小程序如何做到强制更新
  • vue3 早已具备抛弃虚拟 DOM 的能力了
  • 有位大佬逐模块解析transformer结构
  • 大模型在图表代码生成及图表理解的两个评估工作:可看prompt设计及其评估框架思想