发布日期:2023-12-16 09:38 点击次数:122
一个「无Agent」的有策画竟得回了SWE-bench基准测试的最好成绩!
关于复杂的软件工程问题,传统念念路齐在商讨怎样打造更弘大的Agent,但一个去Agent 的有策画却反治其身,用了一个 苟简到弗成再苟简的有策画打败了总共敌手。
这个名为「 Agentless」的有策画,不仅在SWE-bench基准测试中 打败了总共开源Agent有策画,每个问题的平均资本更是低到了 惊东谈主的0.7好意思元!
这个资本比其他基于Agent的有策画低了快要 90%!
苟简奸诈才是王谈
张开剩余87%与其他复杂的Agent有策画不同,Agentless禁受了一个出东谈主预料的苟简经由。
它当先会对通盘代码仓库进行扫描,生成一个竣工的树状结构,就像给代码作念了一次「 全躯壳检」。
在这个基础上,它会蚁集问题形色,运用指示词和镶嵌技巧来定位可疑文献。
这就像是一个训戒丰富的医师,简略凭据症状快速找到病灶场合。
不外Agentless并不会贸然入手,它会先仔细商讨这些文献的「骨架结构」,也即是类和函数的框架,终末才精详情位到需要「动刀子」的代码行。
定位到问题后,Agentless并不会像其他用具那样平直重写整段代码。
相背,它会 禁受一种更严慎的格式:生成多个搜索/替换式的补丁。这就像是在进行「微创手术」,只修改必要的部分,大大缩短了出错的风险。
测试才是硬真义
在成长的岁月里,周士褀对中医的兴趣并未因时间的流逝而减退,反而如同陈年老酒,愈发醇厚。她常常翻阅古籍,沉浸在那些古老而神秘的文字间,试图解开中医博大精深的奥秘。然而,真正的转折点出现在2010年,那是一个需要勇气与决心的时刻。面对稳定却略显平淡的工作,周士褀做出了一个令周围人惊讶的决定——辞去工作,全身心投入到中医的学习与探索中。这一决定,不仅是对个人梦想的执着追求,更是对中医文化传承的一份责任感与使命感。
光是修改还不够,Agentless还会严格把关。
它会自动创建测试用例来考据bug是否确切被建造了,同期脱手现存的总结测试,确保新的修改不会闭塞原有的功能。
这个严格的测试机制带来了显耀的成果:
在使用Claude 3.5 Sonnet当作底层模子时,Agentless在SWE-bench lite和verified测试集上分裂达到了 40.7%和50.8%的责罚率。
这个成绩仍是远远逾越了总共现存的开源Agent有策画。
更令东谈主诧异的是,通过蚁集镶嵌和指示检索技巧,Agentless还进一步培植了准确性。
资本上风惊东谈主
在性能培植的同期,Agentless还在资本规定上创造了名胜。 每责罚一个问题仅需0.7好意思元,迪士尼彩乐园北京赛车这比传统Agent有策画动辄几好意思元致使十几好意思元的资本低了一个数目级。
这种惊东谈主的资本上风主要收获于它的苟简想象。
通过禁受搜索/替换互异而不是竣工的代码重写,Agentless大大减少了API调用次数,当然也就缩短了资本。
苟简即是好意思
Agentless的告捷讲授,在软件开采限制, 复杂的有策画不一定是最好的采用。
传统的Agent程序诚然看起来很酷炫,但内容上增多了好多无须要的复杂性,反而收尾了其内容成果。
恰是因为看到了这少许,OpenAI采用在其最要紧的模子——GPT-4o、o1和o3中禁受了这一有策画。这不仅讲授了Agentless的实力,也证据了 在AI限制,或然辰「少即是多」。
论文见:https://arxiv.org/pdf/2407.01489
何况,这个表情仍是在GitHub上开源:
https://github.com/OpenAutoCoder/Agentless
面临如斯优秀的「苟简有策画」, 你合计这会成为将来软件开采的新趋势吗?
以及, 传统的Agent 有策画照旧最好长进吗?
👇
👇
👇
👇
本文同步自常识星球《AGI Hunt》
星球及时收集和监控推特、油管、discord、电报等平台的热门AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条音信,可从简略800+ 小时的阅读资本;
每天挖掘出10+ 热门的/新的 github 开源 AI 表情;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
每天约监控6000 条音信,可从简略800+ 小时的阅读资本;
每天挖掘出10+ 热门的/新的 github 开源 AI 表情;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。订价99元/年,0.27元/天。(每+100东谈主,+20元。元老福利~)
一是脱手有资本,我但愿它能自我闭环,这么智力永久领略运转;
二是对东谈主的挑选,鱼龙搀和不是我想要的,但愿找到温煦和嗜好 AI 的东谈主。
一是脱手有资本,我但愿它能自我闭环,这么智力永久领略运转;
二是对东谈主的挑选,鱼龙搀和不是我想要的,但愿找到温煦和嗜好 AI 的东谈主。
迎接你的加入!迪士尼彩乐园代理商
发布于:北京市