阿里云发布通义千问2.5，中文性能全面赶超GPT-4-Turbo

国内很多网友觉得，我们的AI科技落后美国很多，但真相果真如此吗？
众所周知，AI大模型领域主要分为开源、闭源两大阵营，而近日国内大厂阿里云，在通义大模型发布一周年之际，接连在两大阵营报捷：通义千问2.5在中文语境下模型性能全面赶超GPT-4-Turbo，同时，最新开源的Qwen1.5-110B也击败 Llama-3-70B ，登顶 Open LLM Leaderboard。

据了解，通义千问2.5于今年5月9日发布，采用的是阿里云自研架构，并通过海量的数据训练，使模型的准确性和核心性能得到显著提升。
相比前一版本，通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%；相比海外以GPT-4为代表的超大参数量闭源模型，通义千问2.5也在中文语境的文本理解、文本生成、知识问答等众多方面实现了赶超。
在跑分和排行榜上，通义千问也是第一个在权威基准OpenCompass上追平了GPT-4 Turbo得分的国产大模型。

不过，通义千问的革新意义不仅体现在硬核性能上，还体现在技术普惠上。
要知道，由于AI算力的高成本，不管是国内的WPS AI 、文心一言会员，还是国外的Claude Pro、Gemini Advanced、 ChatGPT Plus（GPT-4）等服务，都会对C端用户收取不少的费用。而通义千问，不仅对C端用户主打全功能“免费”，还坚持走开源路线，努力降低模型使用门槛，让国内海量中小企业更早、更快地用上前沿技术。
截至目前，通义千问已开源7B、14B、70B、VK、110B等全尺寸、多模态的模型，供不同需求开发者选择。

最新宣布开源的Qwen1.5-110B，还在MMLU、TheoremQA、ARC-C、GSM8K、MATH 和 HumanEval等基准测评中超越了Meta的Llama-3-70B模型。在HuggingFace推出的开源大模型排行榜Open LLM Leaderboard上，Qwen1.5-110B冲上榜首，击败Llama-3-70B，成为了最强开源大模型。

业内有一句话，“2023年是AI技术发展元年，2024是AI技术应用元年”，而通义千问作为国产大模型的翘楚之一，也正在加速落地。
据官方数据，目前，通义大模型已进入PC、手机、汽车、航空、天文、矿业、教育、医疗、餐饮、游戏、文旅等领域，通过阿里云服务的企业数量超过9万、通过钉钉服务的企业数量也突破220万大关，成为了国内B端领域中最受欢迎的大模型。
与此同时，海内外大量中小企业和开发者以下载开源模型的方式使用通义，在HuggingFace、魔搭ModelScope等开源社区，通义开源大模型的累计下载量超过了700万。
历经一年多追赶，国产大模型终于达到了全球第一梯队，甚至有望夺取AI领域的霸主地位，同时让人期待的是：随着通义千问等大模型的应用落地，AI能否给我们的生活带来真正颠覆性的改变，让电影中的科幻场景在近几年内成为现实？

阿里云发布通义千问2.5，中文性能全面赶超GPT-4-Turbo

相关推荐