全球首个AI程序员诞生,码农饭碗一夜被砸!10块IOI金牌华人团队震撼打造,996写代码训练模型


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自 | 新智元

就在刚刚,世界上第一位AI程序员Devin诞生。一家叫Cognition的10人初创公司,才成立不到2个月,就给了全世界亿点点震撼。刚一放出,Devin就刷爆了全网。它掌握了全栈技能,能自主学习不熟悉的技术,端到端地构建和部署应用程序,自己改bug,甚至还能训练和微调自己的AI模型!在SWE-bench上,它的表现远远超过Claude 2、Llama、GPT-4等选手,取得了13.86%的惊人成绩!也就是说,它已经能通过AI公司的面试了。就在前不久,英伟达CEO黄仁勋表示,自己相信就在不久的将来,人类再也不需要学习如何编码了,孩子们应该停止编程课。谁能想到,才短短数月,他的预言就成真了!更令人震惊的是,Devin背后拥有一支强大的金牌程序员团队(规模不大,人才济济)。据介绍,仅创始团队已经狂揽了10个IOI金牌!首席执行官Scott Wu和弟弟Neal Wu获奖情况Cognition AI的首席执行官Scott Wu称,自己从9岁开始学习编程,便爱上了将想法变成现实的能力。现在,这个梦想居然真的实现了。

网友惊呼:码农不存在了!?

看到Devin如此无敌的能力,网友惊呼,一切都完结了!Devin会抢走我的饭碗吗?德扑AI之父,OpenAI的研究科学家Noam Brown表示,「2024年将是人工智能令人兴奋的一年」。计算机科学家,AI创业公司CEOSilas Alberti评价到:
它是一个能够独立完成任务的自主系统,在快速原型设计、修复bugs和复杂数据的可视化上表现卓越。大部分其他助手在进行四五步操作后就会偏离任务轨道,但Devin能够在整个任务过程中准确地保持它的目标和方向不变。
投资了Cognition AI的硅谷大佬Peter Thiel更是认为,Cognition AI与Founders Fund之前投资过的DeepMind,现在的AI巨型独角兽OpenAI,Scale AI等公司处于同一水平。AI初创公司Unify创始人称,Devin不仅抢走了我的工作,还抢走了我的名字,简直是雪上加霜。美国著名开发者Brian Roemmele表示,自主编码智能体Devin已现AGI雏形!它能在几分钟内自主编写整个应用程序。这是真正无代码未来的开始。Spotify工程师表示:「目前尚不清楚智能体会在几年内取代软件开发人员,但免费午餐已经不复存在。」「从为期8周的训练营毕业,然后找到一份价值 20 万美元的工作,这样的日子已经一去不复返了。做好磨练和深入学习的准备。熟练地引导人工智能取得好的结果可能才是未来程序员能体现出来的价值。」

世界首位AI软件工程师Devin

AI软件工程师Devin的影响力,简直堪比2023年全网炸锅的智能体——AutoGPT。Devin究竟有多强大?Devin可以规划和执行需要数千项决策的复杂工程任务。并且,它可以在每一步回忆相关的上下文,随着时间的推移学习,并纠正错误。研究人员还为Devin提供了常见的开发工具,包括shell、代码编辑器、以及浏览器——皆是人类完成任务最需要的工具。此外,Devin还具备主动与用户协作的能力。比如,实时报告进度,接受反馈,并根据需要与你一起完成设计选择。目前,Cognition AI还推出了一个Devin定制的Chrome插件——Tab Switcher。而Cognition的开发者们纷纷分享出了自己使用Devin的示例,简直不要太惊艳!

学习如何使用陌生的技术

当你发给Devin一篇博文后,它会在几分钟内完成自主学习,从阅读文章,运行代码。可以看到,Devin在Modal上运行了ControlNet,在写代码过程中,还会自我debug。最后,人类程序员Sara想要带有自己名字的桌面壁纸,就立刻生成了。

构建和部署端到端的应用程序

当你想要玩一个「生命游戏」(the Game of Life),交给Devin做就好了。Devin首先会用工具Shell,创建一个新的react应用程序,然后开始通过编辑器编写代码。代码完成后,它还会将应用自动部署到Netlify,一个初步的「生命游戏」就做好了。这个过程中,Devin还可以逐一根据用户请求,完成功能的添加。比如在初始屏幕上加上像素化的「Devin」一词,然后希望这个字体再大一些,帧速率更快。与此同时,人类程序员要求Devin修复一个bug——屏幕在3秒后冻结的错误。下一步,让Devin在10秒后提高帧速率,让网站能适应不同的窗口大小。同时,一个游戏还得需要交互性,即在某处点击鼠标时,应该生成一个新块。接下来,就是见证奇迹的时刻了!

自行查找代码库错误,自行修复

这个名叫Andrew的开发者表示,自己维护了一个大型开源存储库,其中包含许多不同的算法,用于竞争性编程。不久前有朋友告诉他:其中一个实现中有bug。Andrew插入了一个快速修复,但并没有测试它,因为没能抽出时间来编写测试用例。既然如此,就给Devin来试试看!小哥给了Devin存储库,让它来检查和处理这个存储库。然后,Devin就找到了正确的存储库,检查了所有文件。接下来,在小哥的要求下,Devin还很轻易地就把测试写了出来——只是看了一下测试应该是什么样,接口是什么样,就完成了这项任务。挑战还没完,接下来,小哥要求Devin将对所有输入进行测试,而不仅仅是测试这个输入,也就是自己常用的「暴力测试」。于是,Devin重写了测试函数,使用了四个嵌套的循环,这一次,它发现了一个bug。接着,Devin开始调试。它在这里添加了一个print语句,来调试输入和输出,然后重新测试,发现了错误:代码不应该返回负值。于是Devin查看了正在测试的代码,然后添加进了这行代码,确保返回值是非负的。现在Andrew可以确信,自己的代码是完全正确的了!

训练和微调AI模型

Devin能力也在一步一步进阶。最让人兴奋的是,它可以自己训练、微调模型,AI训AI成真了!首先,给智能体Devin提供一个GitHub库的链接(比如QLoRA——一种量化大模型的微调方法)。Devin所做的就是,微调7B Llama模型。接下来,就是献技的时刻,Devin克隆了GitHub库,了解如何使用readme运行,设置好所需pip的要求,查看所有的脚本语言,并开始运行。训练过程中,Devin还遇到了Cuda问题(这是在开源库中可以预料到的)。不过这可难不倒Devin。它会自主查看英伟达环境,并找出如何重新安装软件包让其成功运行。接下来,模型训练开始进行了。可以看到损失率正在下降,程序员给出Devin正向反馈:「做的不错」!大约1小时后,Devin已经顺利完成几百步训练,仍在进行中...

解决开源代码库中的错误和功能请求

只要给出一个指向GitHub问题的链接,Devin就会执行所需的所有设置和上下文收集了!这位叫Tony的工程师,想一次运行一堆命令,并且希望在一个屏幕上跟踪它们的状态,于是他找到了一个名为impro的开源工具,希望执行这个操作。看起来虽然impro完成了任务,但状态太模糊了。根本看不出来究竟哪些命令失败了。Tony想改进这里的用户体验,但是自己根本不熟悉代码,于是他想到去求助Devin。他发现网上有人面临同样的问题,所以他把这个问题的链接给了Devin,让它修复这个问题。在右边,他很清晰地看到,Devin从一个工具跳转到了另一个工具。它首先使用了Shell Deon CLS存储库,然后阅读了自述文件和编辑器,了解了子代码,然后,它返回Shell,安装了所需要的依赖项。另外,Devin还打开了一个Web浏览器。然后,Devin就开始编码了!在这个过程中,它甚至打开了一些R文档来调试编译器错误。最后,完成了任务,出了一份自己做了哪些改进的总结报告。所以,Devin的更改有效吗?Tony发现,它成功了!第三个命令是成功的,他甚至可以看到状态码。以下是完整视频:

为成熟的生产存储库做贡献,修复系统错误

下面这个示例,是SWE-BENCH基准测试的一部分。Devin解决了Python代数系统中的一个错误。它会自行设置代码环境、复制错误、自行编码、测试修复程序!这位叫Neil的开发者,分享了Devin帮自己改bug的示例。他一直在用这个名为Senpai的存储库,它是一个用Python编写的代数系统。但Neil发现,取分数的对数时,我们会得到一个无穷大的Zoo,这是绝对不可能的。于是,他试着让Devin来解决这个问题。Devin在存储库中复现了Zoo的问题后,随后,它找出了代码中正确的那部分,添加了print语句,以便找出问题原因。可以看到,原因就在于,整数除法会得到0,就导致之前取了0的对数。因此,Devin用true除法替代了整数除法。随后,它开始测试,确保没有其他问题。就这样,Devin帮Neil节省了大量的时间。

胜任自由职业平台Upwork的工作

Cognition的开发者You还试着在全球最大的综合类自由职业平台Upwork上,为Devin提供真正的工作。没想到,它竟可以完全胜任,看来智能体也能出来做副业了......在Upwork上,他首先挑选了一个「用计算机视觉模型做推理」的工作。先来看看这个任务的要求:- 我希望利用该资源库中的模型进行推断。(https://github.com/mahdi65/roadDamageDetection2020)- 你的交付成果将是关于如何在AWS的EC2实例中进行操作的详细说明。- 请提供你完成这项工作的评估报告。我不会回复没有评估的报告。看起来很简单一个任务,但开发者You表示,自己也不知道如何开始做。但是交给Devin,这件事就变得容易得多了。Devin收到请求后,先开始设置了存储库。然后运行中发现了版本控制问题,Devin自主处理并更新了代码。然后,Devin继续加载并导入软件包。它还从互联网上下载了图像,并运行模型。接下来,Devin再次遇到了问题——关于打印调试,它自主修复了代码。最后,Devin对数据结果进行抽样,并编写出一份报告。它会一些标有损坏道路样本的图像,以及详细的text文档。

13.86%正确率,Devin碾压GPT-4/Cluade 3

SWE-bench是一个要求AI智能体解决开源项目(例如Django和scikit-learn)中实际GitHub问题的测试。在评估中,Devin能够完整地正确处理13.86%的问题,这一成绩大幅领先于之前技术水平的1.96%。即便是在提供了具体需要修改的文件情况下,先前最优秀的模型也仅能处理4.80%的问题。

华人金牌程序员团队

Cognition AI这家正在改变世界的公司,才正式成立不到2个月,仅有10名员工,分散在纽约、硅谷,以及世界各地的Airbnb民宿中。就这样一个连正式办公场地都没有的团队,却已经从硅谷大佬Peter Thiel领投的Funders Fund和其他知名的投资机构那里获得了2100万美元的投资,其中还包括前推特高管Elad Gil。在如此炸裂的产品的背后,团队成员背景更是夺目耀眼。Cognition AI的核心创始团队包括3人:CEO Scott Wu,CTO Steven Hao,CPO Walden Yan。联合创始人兼首席技术官Steven Hao,在AI系统方面有着丰富经验,他于2018年本科毕业于MIT计算机和数学专业。2018年加入由Alexandr Wang创办的Scale AI,是一名资深的AI系统工程师。联合创始人兼首席产品官Walden Yan,在加入Cognition AI之前他还是哈佛大学的一名在校大学生。作为计算机和经济专业本科大四在读的学生,理论上应该今年本科毕业。但实际情况却处在「保密状态」,因为他还没有告诉父母自己辍学的事情。(手动狗头)他在个人网站上,列出了3个自己认为最为重要的成就:- 是MIT PRIMES Research团队的成员- 得过IOI金牌- 创立DeepReason并开发了一款智能区块链审计工具联合创始人兼首席执行官Scott Wu,是一名连续创业者。在成立Cognition之前,他曾经创立了一个用AI驱动的社交网络平台Lunchclub,并且也曾就读于哈佛大学。他的弟弟Neal Wu,也是公司的员工。在加入Cognition AI之前也在包括谷歌等多家公司工作过,是一名经验丰富的软件工程师和销售。本科同样毕业于哈佛大学计算机专业。他们兄弟俩在非常青年时期就参加了很多国际编程比赛和科学奥赛,获奖无数。不仅如此,团队的其他成员,也都是大佬级的存在。还有一个nobody。其中,Andrew He从6年级开始,参加了各种数学竞赛。在2014年和2015年的国际信息学奥林匹克大赛上获得了2枚金牌。他就读于MIT,并于2019年毕业,获得了数学和计算机科学学士学位。如此丰富的编程竞赛经历,对于他们开发这个编程AI智能体有着非常大的帮助。众所周知,编程竞赛的核心就是要迅速准确地解决编程难题,强调快速解决复杂问题的能力,而且对于创新的解决问题的思路有着很高的要求。在CEO Scott Wu看来,团队独特的背景让他们在这个领域有非常强大的优势。
将AI培养成程序员,实际上是一个复杂的算法挑战,这需要AI系统能够做出复杂的决策,并能预见未来几步,从而选择正确的路径。这几乎就是我们多年来一直在大脑进行的一场场比赛。现在,我们需要用AI系统来参加这些比赛。
Cognition AI首款产品Devin的最大突破在于大大提升计算机推理和规划能力。它要求AI系统不仅要预测句子中的下一个词或代码行的下一个片段,还能像人类一样进行思考,获得解决最终问题最为合理的方法和路径。而行业共识也认为,AI的推理和规划能力将是AI下一步产生最重要突破最有可能的方向。Devin在接受用户用自然语言提出的任务之后,不仅能够自主开始工作并完成任务,还会向用户报告其计划,并实时展示正在使用的命令和代码。如果用户发现过程中的问题,可以即时提供反馈。它会在任务进行中立即调整。而Devin最大的亮点在于,大多数现有的AI系统在处理这类长期任务时往往难以保持一致性和专注,但它能够在完成数百上千任务时始终不偏离目标。其他计算机科学家或者资深程序员在试用过Devin之后认为,它已经不仅仅是一个编程助手,简直是一个可以独立工作的员工。CEO Wu并没有详细说明他们的智能体背后使用的AI技术,只是笼统地解释说,团队找到了将大语言模型(例如OpenAI的GPT-4)与强化学习技术相结合的独特方法。参考资料:https://www.cognition-labs.com/bloghttps://www.bloomberg.com/news/articles/2024-03-12/cognition-ai-is-a-peter-thiel-backed-coding-assistant
技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向(如:小张-哈工大-对话系统)即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。


相关推荐

  • k8s 到底是什么,架构是怎么样的?
  • 我想遇见一群这样的人
  • 用 PrettyError优雅的处理Python错误信息
  • [开源]企业级快速开发框架,低代码、跨平台、简单快捷、开箱即用
  • 通用AI Agent里程碑!谷歌打造游戏“神队友”,操作像人,会600项技能
  • Sora将于年内推出拟增加语音功能
  • OpenAI机器人活了!说话做事太像人,2分半视频震撼世界
  • 透过科大讯飞的“AI+”行业实地战,看中国新质生产力变革的未来之路
  • 文献回顾与文献综述的区别是什么?
  • 小红书女装投放,这个玩法朴素,但也能投20万,收回来400万
  • 关于粉丝迁移至本公众号的说明
  • 五星门店小程序性能优化实践
  • ECMAScript 2024(ES15)将带来这些新特性,超实用!
  • UC伯克利:用大模型预测未来,准确率超越人类!
  • 今日arXiv最热NLP大模型论文:大模型把《算法导论》学明白了!
  • Open AI 八年前的设想被谷歌突破啦!DeepMind官宣SIMA,动动嘴就能完成复杂游戏任务
  • AI和人类的共同进化:ChatGPT负责人OpenAI副总裁现场访谈 | 精华与全文
  • Meta公布Llama 3训练集群细节!储备60万块H100迎接AGI
  • 首次攻克「图基础模型」三大难题!港大开源OpenGraph:零样本学习适配多种下游任
  • 4万亿晶体管5nm制程,全球最快AI芯片碾压H100!单机可训24万亿参数LLM,Llama 70B一天搞定