性爱巴士电影 Nature发文“智能体摩尔定律”,Agent才气每7个月翻倍,5年后能顶东说念主类苦干一个月的使命

发布日期:2025-03-23 07:33    点击次数:169


性爱巴士电影 Nature发文“智能体摩尔定律”,Agent才气每7个月翻倍,5年后能顶东说念主类苦干一个月的使命

AI Agents(智能体)也有我方的"摩尔定律"了?!性爱巴士电影

就在最近,Nature 报说念了一项来自非牟利持续机构 METR 的最新发现:

AI 在完成恒久任务方面的杰出速率惊东说念主,当时期跨度梗概每七个月翻一番。

为了估量 Agent 自动完成任务的才气变化,持续东说念主员建议了"50%- 任务完成时期跨度(50%-task-completion time horizon)"这一认识。

他们以 50% 任务见服从为基准,假定 2019 年 AI 达到这一标的所需时期对应东说念主类需要的时期为 10 分钟,那么 7 个月后,其对应的东说念主类完成任务时期则形成了 20 分钟。

换句话说,AI 粗略胜任越来越多东说念主工耗时久的任务,才气渐渐更强。

2024 年这一增长速率变得更快了,一些最新模子梗概每三个月翻一番。

按照预计,梗概五年后,AI 就能自动完成许多东说念主类当今要花一个月才能完成的任务。

网友们纷繁默示,这下终于对 AI 杰出神速有实感了!

建议" 50%- 任务完成时期跨度"认识

在 METR 的先容中,他们将这一发现定名为" Moore ’ s Law for AI agents ",也即是"智能体摩尔定律"。

底下咱们详备张开其持续样式。

合座而言,他们主淌若让 AI 和一些专科东说念主员在同样条款下尝试完成任务,然后测量东说念主类所需要的时期,最终来比拟 AI 见服从何如跟着东说念主类完成时期的短长而变化。

这第一步,持续团队采用了三个不同的任务套件来评估 AI 模子的才气:

97 个 HCAST 任务,涵盖软件工程、机器学习、收罗安全和一般推理挑战的万般化任务逼近,难度从几分钟到 30 小时;

7 个 RE-Bench 任务,由七个灵通式的机器学习持续工程环境构成性爱巴士电影,每个需东说念主类众人约 8 小时完成;

66 个 SWAA 任务,代表软件成就历程中的单个智商操作,时长 1 秒到 30 秒。

接下来,为了量化评估 AI 模子的发扬,团队招募了800 多名软件工程、机器学习和收罗安全鸿沟的专科东说念主员扩张任务,并纪录他们完成任务所需的时期。

据 METR 先容,在这些任务中,东说念主类完成时期从 1 秒到 16 小时不等。

这些时期被行动估量任务难度的按次。

然后他们又评估了从 2019 年到 2025 年发布的13 个前沿 AI 模子,包括 GPT 系列和 o1、Sonnet 3.7 等,通过在构建的任务套件上动手这些模子,并纪录它们完成任务的见服从。

要道来了,随后他们引入了一个新的认识——50% 任务完成时期跨度(50%-task-completion time horizon),即 AI 模子在 50% 的见服从下粗略完成的任务的平均时期长度。

香蕉鱼观看在线视频网

之是以采用 50% 这一见服从,主淌若它关于数据分散的狭窄变化最为妥当。

肤浅说,当数据的分散(即数据的特征、比例或趋势等)发生一些小的变化时,这个认识不会受到太大的影响,仍然粗略保执相对郑重的发扬。

论文作家之一 Lawrence Chan 默示:

如果你采用特地低或特地高的阈值,那么分离移除或增多一个见效或失败的任务,就会对你的臆度值产生很大的影响。

欺诈这一认识,团队通过对 AI 模子在各个任务上的见效与失败数据进行逻辑追念分析,盘算推算出每个模子的时期跨度,也即是模子完成任务见服从达到 50% 之时,对应的东说念主类完成任务的时期。

(每个模子在每个任务上动手 8 次,纪录见服从)

有了这些数据,团队最终绘画了模子自主性随时期呈指数变化的图表。

发现" AI 智能体摩尔定律"

如上图所示,持续的主要发现是:

自 2019 年以来,AI 模子的时期跨度呈现出指数级增长,每七个月傍边翻一番。

为了考证持续恶果的外部灵验性,他们又进行了以下四个实验:

1、用 2023-2025 年数据回溯预计,考证趋势一致性;2、对 HCAST 和 RE-Bench 任务基于 16 个 "杂沓词语" 身分评级,分析任务杂沓词语进度对模子性能的影响;3、在其他 SWE-bench Verified 数据集上应用换取样式,对比恶果;4、在里面 Pull Requests(PR)任务上测试模子性能,与东说念主类基线对比。

最终,这一趋势得到了以上外部考证。

比如在第 2 个实验中,所谓的 16 个 "杂沓词语(messy)" 身分是指履行任务比持续任务更难的方面,包括任务是否受到有限资源的截至、是否触及及时互助或是否源自履行宇宙的环境。

每个任务都字据这些身分得到了一个 "杂沓词语度(messiness score)" 分数。

持续东说念主员发现,尽管 AI 模子在愈加杂沓词语的任务上(比如清寒明确领导和反应、需要 AI 主动去取得信息、任务条款和要求比拟松驰等情况)的皆备性能较低,但另一方面其性能在稳步晋升。

更有酷爱的是,非论任务的"杂沓词语"进度何如,AI 都是以同样的速率在晋升。

再比如在 SWE-bench Verified 基准上的考证,他们也不雅察到了一个访佛的指数级增长趋势。

不外由于标注时期的问题,该基准测试的时期跨度翻倍时期更短。

总之,按照"智能体摩尔定律"进行预计,AI 可能在 2028 年 11 月达到一个月的任务时期跨度;而在较为保守的臆度下,这一标的可能在 2031 年 2 月竣事。

METR 团队以为,天然持续还存在职务套件具有局限性、评估认识不齐全、异日 AI 发展具有不笃定性等需要完善的场所,但很驯顺这一认识每年有 1~4 倍的增长趋势。

而纠合履行中 Manus 智能体的走红,咱们照旧粗略料思到智能体将迎来爆发。

参考结合:

[ 1 ] https://www.nature.com/articles/d41586-025-00831-8

[ 2 ] https://x.com/METR_Evals/status/1902384481111322929性爱巴士电影






Powered by 香蕉鱼观看在线视频网 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024

栏目分类

热点资讯

相关资讯