一口气读完《沙丘》，零一万物宝藏API正式开箱！酷炫Demo实测，多模态中文图表体验超越GPT-4V

新智元报道

编辑：编辑部

【新智元导读】国产大模型独角兽送福利来了，千万token免费用！最近，零一万物API正式开放，三款模型都非常能打，开发者们赶快来开箱吧。

零一万物API开放平台，正式向开发者开放了！零一万物Yi大模型API开放平台推出后，更多开发者可以直接调用，围绕着Yi大模型，会发展出更加繁荣的生态，促成模型在更多应用场景的落地。

平台地址：https://platform.lingyiwanwu.com/playground而在此前，Yi系列模型凭借着国际SOTA的性能、训练成本友好和更懂中文等优势在全世界AI社区中名声大震，开源的Yi系列模型，已经是开源社区一股不可小觑的中国力量。开源模型、开放API、打造To C超级应用，零一万物正在一步步践行着CEO李开复博士的大模型商业化方法论。此次API开放平台，提供了以下三个模型——

Yi-34B-Chat-0205：支持通用聊天、问答、对话、写作、翻译等功能。
Yi-34B-Chat-200K：200K 上下文，多文档阅读理解、超长知识库构建小能手。
Yi-VL-Plus: 多模态模型，支持文本、视觉多模态输入，中文图表体验超过 GPT-4V。

目前，Yi大模型API名额已经开放，新用户申请成功即送60元体验。折算下来也有百万甚至千万token了。

去年底，零一万物就正式开源了Yi-34B大模型，具备了处理200K上下窗口的能力。这一次，性能更强的多模态模型，更专业的推理模型，和OpenAI API随意切换的兼容性，以及超低的价格，都让用户们惊喜无限。

多模态单挑OpenAI：中文图表体验出众，GPT-4V幻觉严重

这一次，针对实际应用场景，多模态模型Yi-VL-Plus能力得到了显著增强。比如Charts, Table, Inforgraphics, Screenshot识别能力，还可以支持复杂图表理解、信息提取、问答以及推理。举个栗子，找一张有些重影的图片，让模型去识别「这是什么店」。

Yi-VL-Plus准确给出了店名，并解释了这个店铺是做什么的。

而GPT-4直接识别成了「风水宝地鉴定中心」……

值得一提是，中文图表的体验，Yi-VL-Plus通常也优于GPT-4V。新升级模型在Yi-VL基础上进一步提升图片分辨率，支持1024*1024，明显提升了场景中文字、数字OCR识别准确性。下面这张图表中，表格内容繁杂，而且分辨率很低。若想准确识别图中信息，对于模型来说，确实是一个不小的挑战。

不过，当询问「暖通工程的人工单价是多少」，Yi-VL-Plus一眼就看出了33.054元/工日。

GPT-4V表示由于图像清晰度和视角问题，无法看出具体细节。

当然，Yi-VL-Plus的多模态能力，不仅仅局限于识别，还可以将图片中的内容，转换成你想要的格式。

要求模型将中文图表转成markdown格式。Yi-VL-Plus从表头到每列每行的文字，标点符号，甚至是英文期刊中一个空行，全部准确准换。

而GPT-4V又开始了自己的胡言乱语......

除了表格，Yi-VL-Plus还可以用中文来详细分析不同类型电池市场份额的饼状图。

而GPT-4V再次暴露了自己最大的缺点：无法正确认出饼状图中的中文字。

比起GPT-4V，Yi-VL-Plus对于折线图的分析更全面，数值也更精准。下面这张图，比较了GPT-4和New Bing在谷歌搜索量上的变化。Yi-VL-Plus十分精准地识别出：从2022年12月8日起，ChatGPT的百分比就开始随着时间推稳步增长，到2023年4月13日达到了7.2%的峰值。而代表Bing搜索的线，在同一天是百分比为3.5%，随后一直保持温和缓慢的增长，在2023年4月13日结束时，大约停在3.8%。

而GPT-4V读图的过程中就出现了重大错误，比如把ChatGPT 2022年11月所占的百分比识别为了1%。但实际上图表中的时间是从2022年12月开始的。而把Bing这段时间的百分比识别为了3%到5%，数字也不够精确。

200K超长多模态上下文

此次Yi-34B-Chat-200K的开放，让大模型应用彻底进入了长文本时代！无论是多篇文档内容的理解，海量数据的分析和挖掘，还是跨领域的知识融合，它都可以游刃有余地掌握。在业界知名的「大海捞针」测试中，Yi-34B-Chat-200K的准确率可以达到99.8%之多。

文能处理数十万字小说

文学爱好者们有福了，几十万字的小说，通过Yi-34B-Chat-200K就能马上掌握作品精髓。比如王尔德的经典名著《The Picture of Dorian Gray》（道林·格雷的画像），中文版长达20多万字。我们把296页的英文原著PDF扔进去，Yi-34B-Chat-200K立刻就给出了中文内容总结。

盘根错节的人物关系太过复杂？没关系，模型可以在通读几十万字后，帮你条分缕析地找出人物线索。

不懂就问，以后玩「剧本杀」，是不是就可以带着Yi-34B-Chat-200K来帮忙读剧本了？

理能读懂前沿技术报告

如此高端的上下文能力，当然还可以用在一些更正经的地方。比如，科研人员可以用它高效提取论文要点。举个例子，把Yi模型的26页报告输入进去，Yi-34B-Chat-200K就能立刻总结出模型有哪些亮点和优势。

并且，还能从如此长篇的报告中，总结概括出模型微调的8条关键经验：

轻松上手实践

知乎知名答主「苏洋」，直接用Yi-34B-Chat-200K和LLM应用开发平台Dify快速搭建了一个模型应用。前HuggingFace员工、前transformers核心贡献者Stas Bekman曾写了一本机器学习的书。而苏洋直接使用Yi-34B-Chat-200K，就让模型迅速地吐出结果了。

每篇内容大概只需要花费十几秒的时间，模型就能自动翻译出来了！

图源：https://zhuanlan.zhihu.com/p/686774859?utm_psn=1751239717650427904&s_r=0深圳超思维智能技术负责人近期也在测试大模型的知识库挂载操作，期望成为公司多模态开发中的一部分功能。此次他利用Yi-34B-Chat-200K进行了知识库挂载的操作，对非常复杂的表格数据和专业性极强的学术文档进行了长文本总结和关键信息提取！在这个过程中，模型的长文本输入、输出和总结以及关键信息提取的能力，都体现得淋漓尽致。具体来说，它可以对中英文混合的表格形文档进行信息筛选、内容总结。

它能对中英文混合内容进行准确分辨，还能处理表格形式的数据。比如总结出学术期刊列表中的A+级期刊和B级及以上期刊。

专业性非常强的学术文档，它也能提取出内容，比如Debian和Ubuntu系统使用说明下的主要内容。

而且，即使是文档内部小标题的详细内容，还是PDF图片中的文字内容，它都能有效地筛选和总结出来。

而Yi交流群中的AI大模型发烧友「闻」，尝试了200K API后，有了一些非常惊喜的发现。「闻」一直在尝试能否用AI模型来翻译关于古典音乐的英文。要知道，翻译古典音乐科普是一个巨大的挑战，尤其是当原文不只是英语的情况下。要翻译这种材料需要的不仅是英文好，也需要比较强的音乐专业背景。他尝试过市面上所有的大模型和API，而Yi-34B-Chat 200K的长文本表现，让他直呼惊艳！

仔细看翻译，Yi-34B-Chat-200K这种程度的准确度，对古典音乐知识的掌握已经到达了很专业的水准。

API使用指南

经过一波demo对零一万物开放模型的了解，许多人早已等不及上手一试。Yi大模型到底该如何使用？正如开头所言，目前已经全面开放API名额。现在，直戳零一万物API开放平台链接：https://platform.lingyiwanwu.com/

另外，Yi Model API与OpenAI API是完全兼容的。也就是说，你只需修改少量代码，即可实现平滑迁移。API开放之后，零一万物还将为开发者社区带来更多的惊喜，主要亮点包括：1. 发布一系列模型API，包括更大参数量、更强多模态、更专业数学推理代码模型。2. 突破更长上下文，从当前20万token扩展到100万token。支持更快的推理速度，显著降低推理成本。3. 基于模型拥有的长上下文能力，构建向量数据库、RAG、Agent架构在内的全新开发者AI框架。零一万物首批开放3款大模型API之后，开发AI 2.0的应用生态，就等你来创造。参考资料：https://platform.lingyiwanwu.com/playground