网易有道自研 RAG 引擎 QAnything 升级:发布纯 python 版本,首次支持在 Mac 运行

作者 | 凌敏

4 月 8 日,有道知识库问答引擎 QAnything 更新至 1.3.0 版本,该版本带来了两大主要功能升级:发布纯 python 的轻量级的版本,该版本支持在 Mac 上运行,也可以在纯 CPU 机器上运行;同时支持 BM25 + embedding 混合检索,可以实现更精准的语义检索和关键字搜索。本次更新后,QAnything 能为开发者探索大模型落地提供更强大的技术支撑和更流畅的用户体验。

QAnything 系统架构图

QAnything 是网易有道自研的 RAG(Retrieval Augmented Generation) 引擎。该引擎允许用户上传 PDF、图片、Word、Excel、PowerPoint 等多种格式的文档,并实现类似于 ChatGPT 的互动问答功能,其中每个答案都能精确追溯到相应的文档段落来源。该引擎支持纯本地部署,上传文档数量无上限,问答准确率很高。

GitHub 地址:
https://github.com/netease-youdao/QAnything

自今年 1 月开源以来,QAnything 迅速吸引了开发者社区的广泛关注,并多次登上了 GitHub trending 榜单。截至目前,在 GitHub 上 QAnything 已经积累 7000+ 个星标,这反映出了用户对其价值的高度评价。

QAnything 登上 GitHub trending 榜单

此外,QAnything 下载次数已达数万次。其中,语义嵌入排序模型 BCEmbedding 更是每月可达超 60 万次下载。

值得一提的是,QAnything 采用了自研的 BCEmbedding 模型(RAG 系统关键模块)。有道发现,在客服问答以及一些 toB 客户的场景中,OpenAI 的 Ada2 BCEmbedding 检索准确率只有 60%,而其自研的 BCEmbedding 检索准确率可以达到 95%。该模型具有中英双语跨语种能力和多领域覆盖两大特色。

据悉,QAnything 收集了包括教育、医疗、法律、金融、百科、科研论文、客服、通用 QA 等场景的语料,使得模型可以覆盖和支持尽可能多的应用场景,为商业化落地提供了便捷。

目前,QAnything 已在有道多场景中落地。如“有道领世”在 QAnything 的帮助下,凭借海量的升学资料数据,打造出一个“私人 AI 规划师”,能为每个家长和学生提供个性化的服务,展示更加全面、专业、及时的升学规划。面对高考政策、升学路径、学习生活以及职业规划等各类问题,该系统的解答准确率超过 95%。未来随着数据补充和更新,准确率会一直上涨。

与此同时,子曰教育大模型最新应用成果“有道速读”,其核心功能文档问答、文章摘要、要点解读、引文口碑和领域综述,背后驱动也是 QAnything。在其加持下,用户快速理解文档、定位要点等诉求得以快速实现,短短一分钟,万字长文就能拆解得明明白白。除赋能自身业务外,开源后的 QAnything 不断拓宽“朋友圈”。目前已累计为近百家企业赋能,以期让 AI 应用真正进入医疗、物流、办公等多元化场景,为企业、组织和个人带来生产效率的大幅提升。

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

逃离 Windows!德国又宣布迁移到 Linux,涉及数万系统、3 万余人,官员吐苦水:Windows 对硬件要求太高了

走进 AI 高薪族:小而美团队成主流,博士生招聘需求飙升 430%!

用 100 年前的架构和淘汰的软盘技术,美国列车系统升不了级:要花费十年、上百亿美元,“风险太大!”

谷歌、英伟达联手打造 AI 超级计算机架构,Agent 业态初显且已商业化,谷歌的基础设施太全面了

相关推荐

  • InfoQ 2024 年趋势报告:架构与设计篇
  • 致敬数据库大师,有28岁英年早逝,有80岁还重新创业
  • 李彦宏:大模型开源意义不大;腾讯云后台崩了;离开百度7年后,吴恩达官宣加入亚马逊董事会 | Q资讯
  • 西部最强211、华为校招第一来源,落户广州!
  • 为什么要使用 API 网关?
  • 综述:一文详解50多种多模态图像融合方法
  • 【字节跳动重拳出击】23 人移送公安机关,136 名员工惨遭开除!!!
  • 改造 console.log!也能提高团队开发效率?
  • 神仙接私活神器,牛到不行,绝了!
  • 薪资倒挂严重!我毅然求助了我10个朋友。
  • 何凯明: 扩散模型的解构研究
  • BI岗位就是数据可视化?我被老板骂了一顿
  • [开源]一款面向中国开发者生态的 Jenkins 流水线简化自动化框架
  • 云天励飞“云天天书”大模型技术负责人余晓填:多模态大模型技术演进与落地应用探索 | GenAICon 2024
  • 狂飙500天,国产大模型如何突破商业化之困?
  • 今春最燃生成式AI盛会!55位重磅嘉宾集结,完整议程公布,4月18-19日北京见
  • 瑞·达利欧最新万字观点:塑造2024的五大力量(附全纪录+视频)
  • Unet++(pytorch实现)
  • 这是雷军的简历,落魄时卡里只有冰冷的40亿...
  • 分布式事务场景、概念和方案整理