姚班斯隆奖马腾宇创业:大模型+顾问李飞飞

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

清华姚班校友、斯坦福助理教授马腾宇,正式宣布大模型创业!

马腾宇透露,他带领团队打造了目前最好的嵌入模型,比OpenAI的还要好。

此外,还会提供专注于某个领域或企业的定制化模型。

马腾宇将这个项目命名为Voyage,是针对RAG(检索增强生成)专门优化的嵌入模型。

根据Voyage官网显示,斯坦福人工智能实验室主任Christopher Manning、AI领域著名华人学者李飞飞等三名教授都担任了Voyage的学术顾问。

Voyage最重要的特点就是高检索精度,在HuggingFace提出的MTEB数据集上的评分超过了OpenAI,成为SOTA。

Voyage还与知名开源框架LangChain合作,同事提高了其聊天机器人的检索和回复质量。

对于嵌入模型,有人评价到与大语言模型相比“需要的算力、数据和行业经验都少的多”,似乎是个创业的好方向。

Voyage具体是什么样的产品,下面就来了解一下。

嵌入模型SOTA

在ChatPDF等RAG应用中,嵌入模型(Embedding Model)负责将文本向量化的环节。

嵌入模型与生成式模型有一定相似之处,但更加侧重于语义理解,通过神经网络(通常是Transformer)架构来对语义上下文进行捕获和压缩。

难度上,训练嵌入模型和生成式模型一样困难——训练高质量的嵌入模型需要在架构、数据、损失函数等许多方面进行反复实验。

Voyage团队介绍,他们选择创业的一个重要原因是认为业界对嵌入模型的重视程度远远不够。

他们用了5年时间,收集了海量训练数据和预/后处理方法,最终打造出了这款SOTA的嵌入模型。

测试成绩方面,Voyage在常用于测试嵌入模型的MTEB数据集中取得了SOTA的成绩,比OpenAI高了0.5个百分点。

在工业领域数据集上,Voyage相对OpenAI的优势就更加明显了。

不过Voyage的通告中也说,MTEB这个数据集因为应用过于广泛,有时会被拿来专门训练。

在承诺没有在MTEB上“作弊”的同时,Voyage还提出了9个“真实世界”数据集,内容涵盖了技术文档、新闻,甚至是餐馆评价等多个方面。

结果在这9个数据集上,Voyage全部取得了最好成绩,其中还有几项取得了碾压式的结果。

技术上,Voyage使用了全新的自监督损失函数,以及涉及多个领域、针对RAG和搜索量身定做的训练数据。

同时,Voyage还采用了新的微调技术,无需人类标注就能完成。

使用方式上,可以通过API或者安装Python库来调用,窗口长度为4096token。

目前,Voyage推出了标准版和轻量版两个版本,未来还将推出XL规模以及代码和金融领域版本。

价格方面,标准版和轻量版都是每100万token0.4美元,新用户可以免费体验5000次输入(查询或文档)。

那么,Voyage的创始人兼CEO马腾宇是谁呢?

保送清华姚班,和陈丹琦同学

马腾宇现任斯坦福大学助理教授,研究方向包括机器学习、算法等多项内容。

2008年,马腾宇被保送进入清华姚班,和陈丹琦是同班同学。

马腾宇博士就读于普林斯顿大学,导师是理论计算机科学家、两届哥德尔奖得主Sanjeev Arora教授。

读博期间,马腾宇获得了理论计算机方向的西蒙斯奖等诸多奖项,被导师夸赞“比自己还聪明”。

博士毕业后,MIT、哈佛、斯坦福等顶尖高校都给了他助理教授的Offer,马腾宇最终选择了斯坦福。

2021年,马腾宇获得了具有“诺奖风向标”之称的斯隆奖,成为继鬲融之后清华姚班又一名获此奖项的校友。

参考链接:
https://blog.voyageai.com/2023/10/29/voyage-embeddings/

《2023年度十大前沿科技报告》案例征集

量子位智库《2023年度十大前沿科技报告》,启动案例征集。诚邀顶级研究机构、一流投资大咖、前沿科技创新公司,参与共创,分享案例。

扫描图片二维码参与前沿科技案例征集。了解更多细节可联系报告负责人:郑钰瑶(微信:CarolineZheng_,请备注企业+姓名)。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

相关推荐

  • 单点端到端文本检测识别框架速度提升19倍!华科、华南理工等联合发布SPTS v2
  • 专攻芯片设计,英伟达推出定制版大语言模型ChipNeMo!
  • EDA顶会ICCAD放榜!陈怡然团队摘得「时间检验奖」,表彰十年前论文
  • DeepMind曝新一代AlphaFold,预测准确率暴涨近10%!DNA和RNA的AlphaFold时刻来了
  • 图灵三巨头激战持续升级!吴恩达痛批美国AI禁令扼杀开源,马斯克都下场了
  • ICCV 2023 | 首个用于目标检测任务的直接训练脉冲神经网络
  • 交叉熵损失的“替代品”:基于最优传输思想设计的分类损失函数EMO
  • 四万字详解AI对齐:北大联合多高校团队发布对齐全面性综述
  • GPT-4写代码,DALL·E 3+MJ搞定画面,AI版「愤怒的南瓜」来袭
  • 吴恩达加入图灵奖得主讨论:「AI灭绝论」弊大于利
  • 斯坦福马腾宇创业,大模型方向,Manning、Chris Re等是顾问
  • 全球最强长文本大模型,一次可读35万汉字:Baichuan2-192K上线
  • 杨成虎:存储&计算是过去,记忆&推理才是未来
  • Python脚本打包exe,auto-py-to-exe来帮你!
  • 我也入局了。。。
  • 用 AI 设计表结构,这款在线工具太效率了
  • 前端流程图插件对比选型
  • 卧槽!红警源代码居然开源了
  • 想让你的代码简洁,试试这个 SimpleDateFormat 类高深用法
  • 代码是上午写的,人是下午被开除的