今天,一家名为 Cognition AI 的初创新企业发布了他们的最新项目:全球首个 AI 软件工程师 Devin。
在他们的宣传中,Devin 能够将用户的提示词直接转化为网站或者电子游戏。它能自主下载代码、搭建环境、执行代码、修复 bug 并完成任务,而且完成这些端到端的任务只需一个指令。
在 SWE-bench 基准测试中,Devin 能够解决 13.86% 的问题,而 GPT-4 仅能处理 1.74% 的问题。更重要的是,Devin 无需人工干预,而 GPT-4 则需要人工提示指定处理文件。
Devin 一发布,便引爆了整个科技圈。但在此之前绝大多数人可能根本没听过这家公司,毕竟他们两个月前,才真正在公众面前亮相。然而这家仅有的 10 名员工的公司,从 Peter Thiel 的风险投资公司 Founders Fund 及其他资方(包括前 Twitter 高管 Elad Gil)处成功筹集到 2100 万美元。而他们所看中的,正是 Cognition AI 的创始团队及其主要成果 Devin。
Devin 是一款类似于 Copilot 的软件开发助手,但不同于由 GitHub、微软和 OpenAI 联手推动的后者,Devin 身上更有下一代 AI 编程方案的气质。Devin 不仅能够提供编码建议并自动完成部分任务,甚至可以独自承担并完成整个软件开发流程。其使用方式也相当简单,只需提交一项任务——比如创建一个网站,展示悉尼市所有意大利餐厅的地图——该软件就会执行搜索来查找餐厅、获取相应地址与联系信息,而后构建并发布显示信息的站点。在运行期间,Devin 还会列出它正在执行的所有任务,甚至在编写代码时持续测试,自行查找并修复 bug。
Devin 能做什么?那么,如此强大的 Devin 都能做些什么?
总体而言,Devin 可以规划和执行需要数千个决策的复杂工程任务。Devin 可以回忆起每一步的相关背景,随着时间的推移学习并修复错误。
研发团队还为 Devin 配备了常见的开发人员工具,包括沙盒计算环境中的 shell、代码编辑器和浏览器,以及人类开发者完成工作时所需的一切其他工具。
最后,研发团队还赋予了 Devin 与用户积极协作的能力。Devin 能够实时报告协作进展,接受反馈,并根据需要与用户一起进行设计选择。
下列是 Devin 可以执行的操作示例:
Devin 可以学习如何使用不熟悉的技术。
下列视频演示了 Devin 在 Modal 上运行 ControlNet,为 Sara 生成带有隐藏消息的图像。
Devin 可以端到端地构建和部署应用程序。
Devin 制作了一个模拟生命游戏的互动网站,它逐步添加用户请求的功能,然后将应用程序部署到 Netlify。
Devin 可以自主查找并修复代码库中的错误。
Devin 帮助 Andrew 维护和调试他的开源相关编程书籍。
Devin 可以解决开源存储库中的错误和功能请求。
只需提供 GitHub 问题的链接,Devin 即可完成所需的所有设置和上下文收集。
虽然 Devin 能够出色地完成上述工作,但想要更清楚地了解其性能,研发团队在 SWE-bench 上评估了 Devin ,这是一个具有挑战性的基准测试,要求 Agents 能够解决 Django 和 scikit-learn 这类开源项目中真实存在的 GitHub issue 问题。
Devin 能够完全解决 13.86% 的问题,远远超过了之前最先进的 1.96%。即使给出了需要编辑的确切的文件,之前最优秀的模型也只能解决 4.80% 的问题。
Devin 的评估是在数据集的随机 25% 子集上进行的。Devin 是没有辅助的,而其他所有模型都是在辅助下进行的(意味着要告诉模型哪些文件需要编辑)。
大家怎么看?前特斯拉人工智能总监,OpenAI 的创始团队成员 Andrej Karpathy 认为这种自动化软件工程有点类似于自动驾驶技术。AI 做得越来越多,人类做得越来越少,但人类仍需提供监督。在软件工程中,进程正在形成类似下面的趋势:
首先,人类手动编写代码
然后,GitHub Copilot 自动完成几行代码
接着,ChatGPT 编写代码块
最终,代码差异会变得越来越大
Karpathy 强调,在 AI 部分之外,还有很多工作需要人类完成,尤其是在 UI/UX 方面。人类如何提供监督?他们关注的是什么?他们如何引导 AI 走向不同的路径?他们如何调试出错的地方?我们很可能会不得不大幅改变代码编辑器。
无论如何,软件工程即将发生重大变化。它将看起来更像是在监督自动化,同时提供高级命令、想法或进展策略。
OpenAI 员工 Jimmy Apples 对 Devin 的出现感到震惊,他表示:“原以为这项技术会再有个两三年才能出现,没想到到来的如此之快,现在才 3 月。”
Devin 的出现让更多人意识到,没有什么工作是一定安全的,他们都有可能被 AI 替代。
有用户在 X 上发文称:“现在没有任何工作是安全的。如果你学习了三年,可能最终你还是无法找到工作。甚至在两年后,可能不再需要新的工人,因为一个工人加上 AI 可以一次性完成 10 到 100 个人的工作。可能现在已经完全自动化了。”
获得 10 块金牌的创始人,以及他们的独特技术方案Cognition AI 公司拥有三位创始人,首先是 CEO Scott Wu,其二是担任 CTO 的 Steven Hao,而后是首席产品官 Walden Yan。Hao 此前曾担任 Scale AI 的顶级工程师,这同样是一家价值可观的初创企业,专司 AI 系统的训练工作。Yan 则刚刚从哈佛大学退学,他要求对此事保密,因为自己还没跟父母通过气。
今年 27 岁的 Wu 是 Neal Wu 的兄弟,Neal Wu 同样供职于 Cognition AI 公司。两兄弟都拥有极为出色的编程能力。Scott Wu 自述自己 9 岁起开始编程,并且非常热爱将自己的想法变成现实的感觉。
还有人挖出了 Scott Wu 在 14 岁时参加 MathCounts 比赛的视频,在比赛中,Scott Wu 回答奥数问题基本不需要多少思考时间,主持人念完问题,Scott Wu 马上能报出答案。
另外,创始人自述团队共有 10 枚 IOI 金牌。
Scott Wu 表示,这样的背景也让这家年轻的初创公司在 AI 市场上占据了优势。他解释称,“指导 AI 成为一名程序员,实际是一个极具深度的算法问题,要求系统做出复杂决策、把握接下来的多个步骤,正确判断应当选择哪条路线。其实我们多年来一直会在脑中推衍这类问题,现在终于有机会把相关思路编码到 AI 系统当中。”
Cognition AI 在设计 Devin 时的一大亮点,就是该公司在计算机推理能力方面取得了突破。从 AI 的角度来讲,推理意味着系统不仅能够预测句子中的下一个单词或者一行代码中的下一片段,更能够以近似人类的方式思考并找到合理的问题解决方法。AI Land 认为推理是驱动行业发展的下一波大势,不少初创企业也都在着力展示自己在这方面的技术能力。
从多个方面来看,Devin 似乎的确远远领先于其他编码助手。用户可以要求它直接处理自然语言命令,Devin 则能够正确理解并完成这些工作。在运行过程中,Devin 还会展示它的开发计划、当前使用的命令和代码。如果有些事情看起来出了问题,开发者可以输入进一步提示以引导 AI 解决问题,Devin 则持续调整并接收反馈。目前大多数 AI 系统在此类长周期工作中都很难保持连续性与任务专注性,但 Devin 却能在不偏离轨道的情况下一口气完成数百甚至上千个任务。
在一些网友的个人测试当中,Devin 的确能够在 5 到 10 分钟内从零开始构建起网站,也可以在大致相同的时间内开发出基于 Web 的 Pong 游戏。期间虽然也需要人类介入过几次,通过提示改善游戏中小球运动的物理轨迹,此外还对网站外观做出一点调整,Devin 则始终保持着礼貌的态度并顺利满足了测试人员的新要求。
Silas Alberti 是一位计算机科学家,也是另一家秘密 AI 初创公司的联合创始人。他体验过 Devin,并盛赞其代表着一次技术飞跃。在他看来,Devin 的表现不像是 AI 助手在编写代码,而更像是有真人在处理手头的工作。“这种感觉有很大区别,Devin 是一套能帮我们做事的自主系统。”
Alberti 还提到,Devin 比较擅长项目原型设计、修复 bug 并以图形方式显示复杂数据。“大多数其他助手在四、五个步骤后就「断片」了,但 Devin 在整个工作流程中能够轻松自如地保持住思维主线。”
至少对外人来说,Cognition AI 在如此短的时间内取得重大突破的方式仍然是个未解之谜。Wu 拒绝透露太多关于该技术的底层细节,只表示他的团队找到了将 OpenAI GPT-4 等大语言模型(LLM)与强化学习技术相结合的独特方法。“很明显,AI 领域的从业者们长期以来一直在为此而努力。而正确的路线很大程度上取决于模型和方法,特别是怎样让各种要素恰到好处地协调一致。”
Cognition AI 公司并不是唯一一家致力于构建 AI 编码工具的企业。就在上个月,初创公司 Magic AI 刚刚从 Daniel Gross 和 Nat Friedman 等人的风险投资团队处筹集到超 1 亿美元,旨在打造 Gross 宣称的“超级软件工程师”。与那些建立在 OpenAI、Anthropic 等大语言模型之上的公司不同,Magic AI 选择从零开始设计自己的模型和其他底层技术,希望借此保障业务独立性。这家初创公司尚未对外展示其 AI 系统,因此我们很难将其与 Cognition AI 的产品直接比较。
Cognition AI 方面则拒绝透露 Devin 在多大程度上依赖于其他现有大语言模型,所以哪怕是在具体实现方法上,我们也没法将二者进行对比。
无论出自哪家企业之手,软件开发人员都想知道这些新技术会不会威胁到自己的谋生饭碗,而行业观察者们则好奇 AI 的介入能否颠覆整个软件开发体系。我们有理由认为,这些编程助手能够把开发人员从繁琐枯燥的重复性任务中解放出来,让他们专注于更具创造性的工作。此外,脑袋里灵感不断、但苦于缺乏编程技能的朋友们则可以借此开发自己的网站、服务和应用程序。可话说回来,这些编程助手也可能消灭大量高薪开发者岗位,彻底重塑整个软件行业的商业逻辑。
对于 AI 参与厂商及其投资方来说,Cognition AI 的横空出世也不一定就是一家独大的前兆。我们正处于探索 AI 编码能力及其技能将如何影响传统程序员们的早期阶段。可以想见,这将是一个充满激情与突破的活跃领域,而 AI 编码也凭借其光明的前途与巨大的想象空间吸引到了全球许多最优秀、最睿智的头脑。
参考链接:
https://www.cognition-labs.com/blog
https://twitter.com/karpathy/status/1767598414945292695
https://twitter.com/ScottWu46/status/1767555214104539508
今日好文推荐TikTok 拼死一战:弹窗 1.7 亿用户强势反击,国会 1 分钟 20 个电话被打爆
微软 Copilot 生成暴力色情图且拒不更改,内部工程师绝望举报至政府!
奥特曼无罪重返董事会!谷歌华人工程师被捕:号称自己能力“全球仅10个”;美国要求字节跳动半年内剥离TikTok | Q资讯
谷歌:不建议未成年人接触 C++,太过危险!Yann LeCun 和马斯克看到都笑了
活动推荐探索软件开发的新境界!QCon 全球软件开发大会迎来全新升级,现已华丽转型为【QCon 全球软件开发大会暨智能软件开发生态展】。这不仅是一场技术盛宴,更是深度交流与创新展示的交汇点。我们诚邀您于 2024 年 4 月 11 日至 13 日,莅临北京·国测国际会议会展中心,共同见证并参与这场融合技术分享、深度研讨与前沿展览的综合性盛会。让我们携手开启智能软件开发的新篇章!
QCon 精华内容上线 85%,全面覆盖“人工智能 +”的典型案例!联系票务经理 17310043226 。查看「阅读原文」可了解大会最新日程,期待与各位开发者现场交流。