怀疑Demo只是演示?实测全球首款AI工程师Devin:缺点还不少,砸不了程序员饭碗!周鸿祎暂时胜利!

编译 | 言征
就在李彦宏和周鸿祎就“AI是否会取代程序员”争吵的第二天晚上,一款号称“全球首款AI软件工程师”的Devin被社交媒体疯传了起来。
Devin(英文中寓意:神秘、完美,Godlike),脱颖而出的地方在于,跟以往的Github Copilot等编码助手不同,它能够独立地、端到端地、处理整个软件项目。而它的公司Cognition Labs, 已经获得了2100万美元的投资支持,其中包括彼得·泰尔的Founders Fund,人气陡升。
如果Devin成功,这将会显著影响软件开发行业,可能会在某些项目上减少对人类开发者的需求。
具体能力数字方面,Devin在SWE-Bench基准测试(用于评估AI模型在软件工程任务)中取得了13.86%的准确率,也就是说它能独立解决每100个问题中的近14个,虽然这一成绩远远超过了之前最好的模型Claude 2的1.96%的无辅助准确率和4.80%的有辅助准确率。
这是生成式AI在自主理解和解决软件开发问题能力显著提升的重大事件,坚定了选择GenAI+Coding赛道的从业者的信心。
Demo视频很震撼,不如实测一番
但李彦宏和周鸿祎的那个争论,似乎并不会随着Devin的出现而迎来答案。
因为,Devin非常有创造性,但实际表现并不会让程序员们担心丢掉饭碗。正如Cognition放出的视频,可以看出整个过程仍需要人工辅助参与,即便不需要人,我们会发现AI能完成的任务,实在太过简单。
另外,Demo演示视频难免让人怀疑实际效果,一位酷爱开发的网友 Andrew Kean Gao第一时间申请了测试使用Devin。正如上文所说,有些任务如果没有人为干预的话,就会运行失败。

“Devin给人的第一眼的印象在于UI/UX(界面和交互),而并非是GenAI”,他表示,AI是核心组件,但真正引人注目的是他们构建的周边基础设施。

此外,Gao还表示,这个产品感觉相当成熟,并不是之前以为的一个演示版本。“他们构建了诸如自动部署到Netlify、API密钥保护、智能中断方式以免真的打断流程、为人类量身定制的良好用户界面,以及连接LLM和人类开发者的桥梁,还有一个可以回溯时间的滑块,”他补充说,一点点揭开事物的面纱很有趣。

最大的缺点是速度慢,”Gao说,他形容网站感觉有点慢。然而,他说这也可能是因为他使用的是1Mbps的Starlink连接。所以这部分可能是他自己的问题。
Gao还提到,你不能编辑Devin生成的代码。“它还没有达到协作的程度。”
Ryan Carniato,SolidJS UI库的作者以及MarkoJS核心团队成员,表示到目前为止,Devin在正确选择用于简单任务的库方面,尚存在困难,比如构建一个“todo-list”应用程序。Devin竟然选择复杂库而不是像Lit这样的现代轻量级库来构建网络组件,有些让人咋舌。
在HackerNews上以dakiol为名的用户说:“我工作中的90%并不是编写代码(作为一名高级软件工程师),而是要将复杂的要求去混淆并分解成明确的块,找出要求中的空白或漏洞,以便我只需编写最少的代码,理解代码库以便实施能够很好地契合。”这段话突显了Devin的局限性。

Devin 砸不了程序员的饭碗

Devin的显著能力提升在社交媒体上引发了关于编程工作未来以及人工智能在软件开发中角色的讨论。不出意外,又是两派:一些开发者对工作被取代表示担忧,而另一些人则将Devin视为提高生产力、专注于更高层次任务的工具。
令人惊讶的是,对于开发者工作的总体前景仍然保持积极。据美国劳工统计局预测,从2019年到2029年,软件开发人员的就业机会将增长22%,这一增长速度远远超过所有职业的平均增长率。
“AI系统如Devin将降低非技术创始人进入技术领域的门槛。它将使软件工程大众化,”AI科学家Saurabh Shukla说,他强调了Devin的积极面,以及它将如何(不)取代软件工程工作。
谷歌的工程经理Vineet Joglekar表示:“如果你是一个仅仅写代码的人,你需要开始以不同的方式思考。”他说,由于在故障排除、策略思考和人类驱动的创新问题解决中持续需要人工监督,Devin还没有准备好取代所有的开发者工作。
最后多说一嘴,近期代码编写Agent类的产品值得大家关注,虽然它暂时还取代不了人类!毕竟的确可以提升不少效率。当然,周鸿祎目前看是赢了!

——好文推荐——
万维网之父罕见发声:某家巨头公司将被分拆、人无需上网,下一代互联网将由AI代劳,数据不再归平台所控制
不公开!不会音视频一锅出!Sora团队最新采访透露了一个训练细节

相关推荐

  • 一个进度条还能玩这么花?
  • 刚刚,北京最火独角兽又融资了
  • 知识图谱最大的敌人,是自己
  • 流图计算在蚂蚁数仓加速场景的应用
  • 如何克服 LLM 的工程挑战?GTC 2024 带来新惊喜!
  • 一文了解傅立叶变换在机器学习的应用
  • 1.5k star,这款低代码平台完全开源,诚意满满!
  • 速来!体验阿里通义灵码,抽AI盲盒赢大奖,100%中奖,永不落空~
  • 大模型的DenseNet时刻!华为诺亚新作让Mamba和RetNet精度显著提升
  • 全面解析LoRA、QLoRA、RLHF,PPO,DPO,Flash Attention、增量学习等大模型算法
  • iOS程序员失业,老婆威胁要堕胎,怎么办?
  • Firestore 多数据库普遍可用:一个项目,多个数据库,轻松管理数据和微服务
  • 中国工商银行软件开发中心自建广告智能投放平台的技术思考
  • 智谱、月之暗面、阿里、字节、vivo、达观数据等专家深入剖析 RAG 技术及其应用,AICon 邀你共鉴前沿
  • QCon 大会偶遇大佬,聊聊 ZingJDK 和 JVM
  • “微软已经沦落为 OpenAI 的一个 IT 部门”!资源倾斜引发微软内部员工不满、高管离职
  • Java程序员必备咖啡杯
  • 程序员逆袭CEO总共分几步?
  • 微信全新Linux版本开放下载——基于原生跨平台方案重构
  • 没事别想不开去创业!