实习期间创下 Transformer，Gomez：当年整个 AI 圈都无法预见我们今天的高度

来源：AI 科技大本营（ID：rgznai100）

整理：王启隆

原文：https://www.youtube.com/watch?v=ZFmapxYBafY

写出 Transformer 论文的那八个人，如今都在干什么？

在今年三月的英伟达全球技术大会（GTC）上，黄仁勋曾经把「Transformer 八子」中的七位（Niki Parmar 未出席）拉来凑了个圆桌，和这几位对整个 AI 界带来深远影响的科学家们同台聊了聊。但是，就连老黄都没能成功集齐八人，可见实现“八人同框”的难度究竟有多大。

最近，我们也是终于盼来了“八子之一”的 Aidan Gomez 最新采访，他在最近接受 CNBC 采访时表示：“当时在这个领域内的任何工作者，都无法预见我们如今在技术能力上所达到的高度。”“模型正在做的事情，是我个人原本以为可能要等到职业生涯晚期（40 年后）才能见证的。”

Gomez 出生在加拿大，他早年对计算机科学产生浓厚兴趣，并在多伦多大学和牛津大学深造，后者的影响尤为深远，使他在国际舞台上崭露头角。在完成他的博士学位之前，他就加入了 Google Brain 团队成为实习生，参与了开发 TensorFlow 模型框架的工作。

2017 年，Gomez 在 Google 的实习期间合著了奠定 Transformer 架构基础的论文《Attention Is All You Need》。这篇论文首次提出了一种全新的机器学习架构 —— Transformer。在此之前，大多数 NLP 模型依赖于循环神经网络（RNN）或卷积神经网络（CNN），而 Transformer 的出现彻底改变了游戏规则。

在我们最近整理的《Perplexity CEO 最新四万字访谈：杀死谷歌，成为 AI 时代的搜索皇帝！》中，Perplexity CEO 埃拉文德花了很长的时间回忆他在谷歌担任实习生时所经历的 AI 发展史，完整阐述了 Transformer 的前世今生。

离开 Google 之后，Gomez 和他在多伦多大学的校友 Ivan Zhang 和 Aidan Gomez 共同创立了 Cohere 公司，担任 CEO。2023 年 6 月，Cohere 以 22 亿美元的估值从 Salesforce 和 Oracle 等投资者手中筹集了 2.7 亿美元。Cohere 高管甚至参加了白宫的人工智能论坛。

Gomez 表示，直到最近，“所有工作都是由大约 5 个人完成的。” Cohere 现在拥有约 400 名员工，并且正在迅速壮大其销售团队。本次采访，Gomez 也透露了他离开 Google 的真实原因：Google 的重点是 ToC，而他们更想要侧重 ToB。

Aidan Gomez

接下来，一起来看看 Gomez 这次难得的露面都聊了什么，以及他最近究竟在忙些什么。

AI 模型的成功源于对 Scaling Law 的狂热崇拜

采访者：今天，我们有幸邀请到 Cohere 公司的首席执行官兼联合创始人 Aidan Gomez。自 AIGC（生成式人工智能）诞生以来，他就一直是这一领域的关键人物。

2017 年，Aidan 在谷歌实习时，参与撰写了一篇开创性的论文，首次提出了 Transformer 的概念。正是这项技术，让 AIGC 成为了现实。如今，他的关注点转向为公司量身定制 AI 产品，并确保它们能够带来商业回报。下面，就让我们开始今天的对话吧。

Aidan，非常感谢你抽空接受我们的采访。首先，我想谈谈你早年在 Google 的工作经历，尤其是你在 Transformer 项目组的经历。能否跟我们分享一下，当时你们团队的初衷是什么？你们都在做哪些工作呢？

Aidan Gomez：当然，最初我们的目标是提升 Google Translate（谷歌翻译）的性能。这其实是个由来已久的问题，我们团队的任务就是优化其翻译质量。令人惊喜的是，原本仅为了改进翻译技术而研发的 Transformer，最终却产生了如此深远而广泛的影响。

采访者：你们当时有没有预料到它会发展到现在的样子？

Aidan Gomez：就我个人而言，我完全没料到会有这样的结果。但我记得，在我们刚刚完成项目时的一个场景。那是凌晨两点左右，我们正忙着向学术会议提交论文。我躺在 Ashish（Transformer 一作）旁边的沙发上，我说：“我们成功了，任务完成了。” 他转头看我，说：“这件事将会产生巨大影响。”

那时我还是一名实习生，所以这是我参与的第一个研究项目。我当时心想：“他什么意思？研究不都是这样的吗？”

有趣的是，从那以后，技术进步的速度反而越来越快。在过去的七年里，我认为直到现在，当时在这个领域内的任何工作者，都无法预见我们如今在技术能力上所达到的高度。模型正在做的事情，是我个人原本以为可能要等到职业生涯晚期才能见证的。我曾以为，也许四十年后，我们才会看到类似的现象，但这一切仅仅用了不到十年的时间，甚至仅仅几年而已。

采访者：所以 Google 在这方面有些保守，正如你所说，包括你的同事在内，很多人都没有预料到它会发展成现在这样。那么，他们本该预料到这种情况吗？目前的舆论认为，Google 被 ChatGPT 的发布弄得有些猝不及防。你认为这是事实吗？还是你认为 Google 有理由不公开发布研究成果？你对此有哪些看法？

Aidan Gomez：我认为，要真正预见未来，可能需要对 Scaling Law（规模效应）保持一种近乎疯狂的信念，这种信念未来将继续存在。如果让这些模型更大，用更多的数据训练它们，赋予它们更多的计算能力和存储空间，它们会持续变得更为智能，而且这一趋势不会停滞。

在那个时期，我们训练的模型规模仅相当于现在的一千分之一。因此，要坚定地宣称：“我们将付出一千倍的努力来持续扩大规模，期望它们能持续变得更加聪明”，这无疑是一场巨大而冒险的赌博。我很庆幸我们做出了这个选择。随着时间的流逝，这一决策已被证实是正确的，并且我相信它将持续得到验证。

采访者：你认为自己是这项技术的开创者吗？当人们提到你是这项技术的起始人时 —— 虽然他们可能不会直接用“开创者”这个词，而是说：“嘿，是你开启了这一切。” 听到这样的评价，你会有何感想？

Aidan Gomez：我绝不会自封这样的称号。绝对，绝对不会。

采访者：那如果我这么称呼你，你会有哪些感想？

Aidan Gomez：这让我感到有些压力，我觉得这种赞誉太过分了。事实上，我们所见的技术进步，是成百上千人的共同努力，他们全心投入，推动着技术向前迈进。这一切是由无数的小创意汇聚而成的，这些创意被采纳并融入其中，共同造就了我们今日所处的世界。人类总是倾向于把功劳归于某个人。我们总爱说，“就是那个人做到了。”

采访者：比如，经常有人说阿尔·戈尔发明了互联网。

阿尔·戈尔并未发明互联网，但在当时作为参议员，他推动了 1991 年的《高性能计算法》，促进了互联网的发展。1999 年，他在一次采访中表达了自己的贡献，被媒体误解为宣称“发明”了互联网，从而产生了这一流传甚广的谣言。实际上，互联网的基础技术始于 1960 年代末的 ARPANET（阿帕网）项目。

Aidan Gomez：确实。但对于这项技术，尤其是整个 AI 领域，我真的不敢苟同这种说法。

采访者：对于那些声称 AI 终将失控，毁灭全人类的悲观论调，你怎么看？比如埃隆·马斯克曾说这种情况明天就可能会发生，概率高达 20%。你对此有何感想？

Aidan Gomez：我能理解这种担忧背后的情绪。关于电脑或 AI 接管世界、带来末日的科幻情节已经流传了几十年，这种想法早已深植于我们的文化中。这类话题容易引发轰动，成为新闻头条，因其冲击力而广受关注。我明白人们为何会感到恐慌，甚至明白有人为了引起注意而散布此类言论的原因，但这并不反映 AI 技术的真实面貌。它基于一种假设——技术将持续以指数级速度发展，但这显然不符合事实。事情并非如此简单。

技术的发展过程中充满了阻力和复杂性。模型的智能水平受限于创造它们的人类，因为模型的学习依赖于人类的数据和知识。因此，模型的智能不可能无限制地呈指数级增长。对此，我持强烈质疑态度。我认为，这种说法大多是一种营销手段，目的是吸引更多眼球。这是在散播恐慌。

然而，我认为我们应该正视的是，这项技术确实存在风险。但这些风险并非科幻电影中机器人统治地球的情节。真正的风险在于，当我们在错误成本极高的场景下部署这项技术时：比如医疗领域，如果现在就让模型开具药物处方，它们尚未具备这方面的能力，而一旦出错，后果可能就是失去生命。因此，我们不应将这些模型应用于高风险的应用场景。这才是我们应该审慎对待和展开深入讨论的问题所在。然而，人们往往更倾向于关注那些惊世骇俗的科幻情节。

采访者：当前有大量资金在涌动。我们是处于行业发展的初期，还是正站在泡沫边缘？你如何看待这个问题？

Aidan Gomez：我认为我们依然处于非常早期的阶段。我们仅仅刚触碰到这个领域的冰山一角。现在，我们正处在一个转折点。当技术初现的时候，人们在震惊之余，开始思考 AI 对自己业务的意义，以及应该如何具体行动。如今，大家对技术有了更深入的理解，熟悉了它的应用领域，明确了自己希望将技术应用于哪些场景。

所以，现在关键在于如何将技术融入现有的工程实践中。我认为，在接下来的两年里，技术的普及速度将显著加快。对企业员工而言，这项技术将逐渐成为日常工作的组成部分。对消费者来说，他们将在日常使用的各种产品和服务中体验到这项技术的存在。它将成为我们生活中不可或缺的一部分，与这些智能模型的交互将成为常态。

离开谷歌是为了从 ToC 转向 ToB

采访者：你在写关于 Transformer 的论文时，还是 Google 的实习生，那时候你还是学生，对吗？

Aidan Gomez：是的。

采访者：对于那些正在学习计算机工程或其他相关学科的学生，特别是那些有志于加入 AI 领域的学生，你有什么建议或鼓励的话想对他们说吗？

Aidan Gomez：我只能分享自己的亲身实践和经验，那就是我对 AI 产生了强烈的兴趣。我总是在阅读最新的研究论文，无论走到哪里，背包里都装着一堆最新的研究文献。甚至在健身房锻炼的间隙，我也会抓紧时间读论文并做笔记。

起初，这确实是个挑战。读完一篇论文可能需要我两周的时间，因为我对很多术语都不熟悉，需要通过网络查询来理解它们。我认为起步阶段的确会遇到困难。但现在，你可以（通过 AI 翻译）在 30 秒内快速浏览一篇论文并理解其核心内容，但你需要付出努力才能达到那个水平。突破难关，保持坚定，保持热情。真正追寻你的热爱。如果 AI 不是你的兴趣所在，不妨寻找其他领域。我认为并非每个人都应投身 AI，但如果 AI 点燃了你的激情，如果这项技术令你着迷，那就应该全力以赴，全心投入。

采访者：谷歌一直以鼓励员工开展副项目而著名。正是这种企业文化让你和同事们有机会构思出了那篇论文吗？

Aidan Gomez：没错。Google Brain（谷歌大脑）是一个完全自主研究的组织，它就像一个由相互了解的人组成的实验室，大家在里面分享思想，有共同兴趣的人会聚集在一起，围绕一个可能持续三到六个月的项目展开工作。项目要么取得成功，要么就会失败，然后我们再转向下一个项目。

所以，我认为这正是谷歌能遥遥领先于其他公司的关键。它简直就是研究者的梦想之地。如果你是一名研究者，这样的工作环境绝对是你的理想选择。

这种文化可能在构建这项技术的工程师和研究人员中发生了变化。现阶段，人们不再仅仅为了研究而研究，他们想要的是影响力，他们渴望创造出真正能被人们使用的技术，能在现实世界中产生作用。长久以来，AI 仅仅被视为纯研发项目，你很难通过它为世界带来显著的价值。而现在，它终于跨过了一个临界点，其实际效用已被广泛感知并投入使用，这就是为什么消费者和企业都在疯狂接纳这项技术的原因所在。

采访者：即使在 ChatGPT 问世之前，谷歌内部的 AI 团队就已经出现了一系列高层离职和争议。你对此有什么看法？是否有一种企业文化上的转变促使了包括你自己在内的众多人选择离开？

Aidan Gomez：我觉得谷歌在人工智能领域的表现依旧非常卓越。他们研发的模型令人赞叹不已。他们仍拥有一流的人才储备。我的许多好友和导师至今仍留在那里。虽然他们在媒体上遭受诸多非议，但事实上，正如我之前所提及的一样，我认为向大规模扩展投入资源是一个充满不确定性的决策。对此，我并不对他们过多指责。我庆幸有人敢于承担这份风险，庆幸有人敢于做出这份投资，让我们得以见证未来的实现。在我看来，谷歌仍旧是一家令人瞩目的公司，是杰出的技术创新者，我对他们所做的工作深感敬佩。

采访者：那么，究竟是什么驱使你选择离开呢？

Aidan Gomez：对我而言，这关乎于实现 Nick Frosst、Ivan Zhang（两位皆是 Cohere 的联合创始人）和我共同抱有的愿景。我们渴望将这项技术普及至全球每一个角落，但在谷歌的框架内难以达成这一目标，而创立 Cohere 则为我们提供了最佳的实现路径。我们追求的是打造一家服务于企业的公司。我们希望建立一个平台，让各类企业都能采纳并应用这项技术。然而，谷歌是一家消费者导向型的公司，在这种环境下，我们的愿景难以实现。于是，我们离开了谷歌，创立了 Cohere，正是为了实现这一目标。

采访者：当 ChatGPT 横空出世，瞬间引爆全球关注时，你是否感觉那是一个错失的良机，还是说这一切超乎你的预期？

Aidan Gomez：在我和 OpenAI 的员工交谈之后，发现他们同样对 ChatGPT 引发的轰动效应感到诧异。所以我认为整个市场对此都感到出乎意料 —— 我的意思是，这项技术本身并不令人惊奇，毕竟我们内部也有自己的聊天机器人，一直在探索将聊天作为接入语言模型的界面。真正令人惊讶的是群众对它的热爱程度。他们让这项技术变得实用，使之充满乐趣。

而最大的惊喜莫过于发现这项技术已经成熟，足以应对世界的挑战。这对所有从业者来说都是一个极为积极的事件，这意味着我们每个人都拥有了一个全天候在线、无所不知的智能助手。

对于企业而言，这也是 Cohere 目前专注的方向，它带来了推动自动化进程和革新产品体验的巨大机遇。如今，计算机能够与我们进行真正的对话。我们用来交流和存储信息的知识模式，现在已经被机器所掌握。这意味着我们创造了一个崭新的界面，可以无缝连接到机器内创造的每一款产品、每一项服务。

Cohere 的策略与现状：

400 人只有 5 人干销售；传统投资才是正道

采访者：现在让我们具体聊一聊 Cohere，因为你曾提到这家公司对企业的重视。那么，Cohere 是什么？你们具体做什么？你们的产品和服务如何销售？又如何实现盈利？

Aidan Gomez：我们是一家专注于模型开发的公司，致力于模型的构建。但我们的业务重心并不在个人消费者市场。我们搭建的是一个平台，旨在帮助企业采纳和运用这项技术。

我们的首要考量是隐私保护，确保客户能够完全自主地部署系统，添加自身数据，且所有数据均存储在客户自己的硬件设备上，我们无法接触到任何信息，真正做到了安全无忧。其次，我们秉持云中立原则，不会绑定于任何一个特定的云服务商。客户无需担心购买的技术仅限于某一云平台使用，相反，无论是在云端还是本地部署，我们的技术都能无缝对接，实现广泛适用。

最后，在技术研发方面，我们专注于那些对企业至关重要的应用场景。我们的目标不是“帮我完成作业，让我们聊聊新闻”这种水平的任务，而是助力解决实际工作中的难题，成为你高效工作的得力助手。

采访者：我接触过一些负责为公司采购这类 AI 产品的人员，他们其实不一定认同这种观点。比如像微软 Copilot 这样的产品，他们就认为其功能过于宽泛，提升生产力的效果不明确，而且价格高昂。Cohere 提供的产品有哪些独特之处？你们的定位是否更精准？具体而言，企业在日常中要如何运用 Cohere 的工具？

Aidan Gomez：我认为存在两大主要应用场景。

首先，是面向外部的创新应用，这可能涉及为你的产品引入新功能，以此提高效率，为用户提供新颖的互动体验。
其次，是组织内部的应用，旨在提升工作效率，为不同部门和员工提供定制化辅助。我们与 Oracle 建立了合作伙伴关系，为 Oracle 的 Fusion 应用程序提供了数十项新特性。这些软件支撑着人力资源部、客服部等多个部门的运营。正有大量新功能不断涌现，旨在简化工作流程，促进自动化。

MIT 和哈佛大学目前有一项关于提升生产力的研究，他们的目标是让你可以量化地测量生产力的提升效果。比如让知识工作者坐在这些模型旁边，教会他们如何使用模型，如何使其对自己有益。他们需要学会如何运用这项技术，而一旦熟练掌握 AI，这些工作者就能提升约 40% 的效率。这不仅仅是工作量的提升，还包括质量的提升，而这是由他们的管理者评判的。获取这项技术面临一些障碍，首先就是隐私问题。目前确实存在潜在风险，比如员工将敏感文件发送到消费者服务，可能会导致数据泄露。随后，数据会被用于训练模型，从而暴露给模型的所有未来用户。采访者：比如在工作场合使用免费或个人版 ChatGPT 的员工，他们会往 OpenAI 上传公司文件。Aidan Gomez：如果你不给予他们安全的访问权限，他们就会通过使用消费者服务获得不安全的访问权限。当然，数据隐私是其中一个阻碍因素。正如你所提到的，成本也是一个问题。这些模型规模庞大。Cohere 一直致力于优化模型压缩技术，而非单纯追求构建最大规模的模型，因为后者并不符合市场需求。实际上，那种超大规模模型本来也无法顺利应用于生产环境。我们专注于研发一类体积更小、更易于扩展的模型，这类模型具备完全私密性，且成本更低。采访者：你能简单介绍一下你们公司的规模吗？比如员工人数有多少，办公地点都在哪里？Aidan Gomez：我们公司是在疫情期间成立的，实行的是远程工作模式。我们在多伦多、纽约、旧金山、伦敦以及全球各地都有员工。目前大约有 400 名员工，但我们预计会迅速扩张，特别是在市场拓展方面，我们一直都很需要人手。采访者：你是指建立像 Salesforce 那样的销售团队吗？就是那种积极推销的团队。Aidan Gomez：是的，到目前为止，我们的业务都是由一个大约只有五个人的小团队完成的。采访者：我明白了。Aidan Gomez：在这方面，我们感到相当满意。采访者：微软在销售这类产品时，可不止五个人，对吧？Aidan Gomez：他们的团队确实比我们大很多。是的，我听说过。我们很幸运能与 Oracle、麦肯锡和埃森哲这样的大公司建立了紧密的合作关系，他们的销售团队比我们大得多，这让我们能够借助他们的力量扩大业务。不过，我们也需要构建自己的销售体系，这是我们接下来一年重点投资的方向。采访者：我看 Cohere 目前的估值，至少截至一年前已经超过了 20 亿美元。显然，你们正在筹集资金，但投资者们都在期待着回报。AI 技术的运行、运营和建设成本都非常高昂，那你要如何向他们解释何时能看到回报，为何能看到回报，以及如何实现回报？Aidan Gomez：我认为 2023 年是人们真正认识到这项技术的一年。这一年可以称为概念验证之年。当时，只有少数团队，比如五到十人的小团队，在构建、摸索，熟悉 AI 技术。如今，情况正在发生变化。技术正逐渐走向实际应用，那些概念验证项目逐渐显现出成果。他们开始说：“我喜欢我构建的产品，我想要将其推向市场。” 这时候，我之前提到的摩擦点开始显现。概念验证项目还在五人的时候，成本并不会很明显。可扩展性成本在小范围内并不关键，因为你实际上并未将其大规模部署。然而，当他们说，“概念验证成功了，让我们将其推向大规模应用。这需要多少成本？” 这时，成本问题就凸显出来了。所以，我们正试图通过构建更快、更经济的技术来解决这一问题。我们为 Cohere 筹资的方式并不是从云服务商那里接受巨额支票，然后又将这些资金回流给它们用于计算资源来构建模型。我们的投资者，他们期望得到投资回报率（ROI）。为了获得他们的投资，我们必须达到极高的标准。我们追求的是一个充满竞争、正规且务实的公司建设过程。这是创建成功公司的正确路径，是构建成功业务的方式。采访者：你提到了从云公司获取资金的问题。深入探讨这个话题，OpenAI 现在与微软有协议，规定 OpenAI 的所有业务必须在微软 Azure 上运行。我们可以看到 Anthropic 与谷歌和亚马逊也有类似协议，要求它们在各自云平台上运行一定比例的业务。顺便说一句，这些公司并非直接支付数亿美元现金，很多投资是以云服务信用的形式提供的。
那么，这种模式是否存在问题？因为你们没有采用这种方式。你们选择的是更为传统的方法，即“请投资者给我们写张支票，将来我们会给你回报”。Aidan Gomez：确实如此。我不想对竞争对手的融资策略发表评论，但我可以说，Cohere 致力于构建真正的业务，一个面向世界的独立新公司。我们明白，没有捷径可走。我们需要说服那些在未来几年内寻求回报的投资人，让他们为我们提供资金。这就是我们的做法。我们认为，这始终是建立一家健康的企业的正确途径。这不应被视为一种另类策略，而是从零开始创立公司的正确方式。采访者：最后，由于 Cohere 的业务性质，你肯定与众多企业有过交流。对于非科技公司来说，尽管它们都在运用技术，但它们的商业模式正发生怎样的变化？或者说，它们如何思考利用人工智能来变革自己的商业模式，无论是你所提供的产品，还是竞争对手的做法。Aidan Gomez：我认为它们正将 AI 技术视为取得竞争优势的关键。采访者：能否具体说明一下？Aidan Gomez：举个例子，我们曾与一家专注于自然资源项目（如石油管道、矿山）保险的公司合作。当矿业公司计划启动新项目时，通常会发布保险需求的招标通知。这实际上变成了一场竞标赛。率先提交合理报价的保险公司往往能赢得合同。
我们与该公司合作，为负责项目研究、风险评估及定价的精算师提供了支持。我们引入了一个模型，它能够访问所有精算师制定报价时参考的数据来源。这极大地提升了精算师的工作效率，使得公司能获得更多的合同机会。我从未想象过一家专注于自然资源项目的保险公司会采用大型语言模型，但他们确实在这么做，因为他们致力于提升业务竞争力。他们的竞争优势就在于速度。这就是他们投资的焦点，而他们也确实取得了卓越的成果。这直接转化为生产力的显著提高。

往期精彩回顾




        
         适合初学者入门人工智能的路线及资料下载
         (图文+视频)机器学习入门系列下载
         机器学习及深度学习笔记等资料打印
         《统计学习方法》的代码复现专辑

```
交流群
```

欢迎加入机器学习爱好者微信群一起和同行交流，目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群，请扫描下面的微信号加群，备注：”昵称-学校/公司-研究方向“，例如：”张小明-浙大-CV“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~（也可以加入机器学习交流qq群772479961）

实习期间创下 Transformer，Gomez：当年整个 AI 圈都无法预见我们今天的高度

相关推荐