性爱巴士电影 Nature发文“智能体摩尔定律”，Agent才气每7个月翻倍，5年后能顶东说念主类苦干一个月的使命

发布日期：2025-03-23 07:33 点击次数：169

AI Agents（智能体）也有我方的"摩尔定律"了？！性爱巴士电影

就在最近，Nature 报说念了一项来自非牟利持续机构 METR 的最新发现：

AI 在完成恒久任务方面的杰出速率惊东说念主，当时期跨度梗概每七个月翻一番。

为了估量 Agent 自动完成任务的才气变化，持续东说念主员建议了"50%- 任务完成时期跨度（50%-task-completion time horizon）"这一认识。

他们以 50% 任务见服从为基准，假定 2019 年 AI 达到这一标的所需时期对应东说念主类需要的时期为 10 分钟，那么 7 个月后，其对应的东说念主类完成任务时期则形成了 20 分钟。

换句话说，AI 粗略胜任越来越多东说念主工耗时久的任务，才气渐渐更强。

2024 年这一增长速率变得更快了，一些最新模子梗概每三个月翻一番。

按照预计，梗概五年后，AI 就能自动完成许多东说念主类当今要花一个月才能完成的任务。

网友们纷繁默示，这下终于对 AI 杰出神速有实感了！

建议" 50%- 任务完成时期跨度"认识

在 METR 的先容中，他们将这一发现定名为" Moore ’ s Law for AI agents "，也即是"智能体摩尔定律"。

底下咱们详备张开其持续样式。

合座而言，他们主淌若让 AI 和一些专科东说念主员在同样条款下尝试完成任务，然后测量东说念主类所需要的时期，最终来比拟 AI 见服从何如跟着东说念主类完成时期的短长而变化。

这第一步，持续团队采用了三个不同的任务套件来评估 AI 模子的才气：

97 个 HCAST 任务，涵盖软件工程、机器学习、收罗安全和一般推理挑战的万般化任务逼近，难度从几分钟到 30 小时；

7 个 RE-Bench 任务，由七个灵通式的机器学习持续工程环境构成性爱巴士电影，每个需东说念主类众人约 8 小时完成；

66 个 SWAA 任务，代表软件成就历程中的单个智商操作，时长 1 秒到 30 秒。

接下来，为了量化评估 AI 模子的发扬，团队招募了800 多名软件工程、机器学习和收罗安全鸿沟的专科东说念主员扩张任务，并纪录他们完成任务所需的时期。

据 METR 先容，在这些任务中，东说念主类完成时期从 1 秒到 16 小时不等。

这些时期被行动估量任务难度的按次。

然后他们又评估了从 2019 年到 2025 年发布的13 个前沿 AI 模子，包括 GPT 系列和 o1、Sonnet 3.7 等，通过在构建的任务套件上动手这些模子，并纪录它们完成任务的见服从。

要道来了，随后他们引入了一个新的认识——50% 任务完成时期跨度（50%-task-completion time horizon），即 AI 模子在 50% 的见服从下粗略完成的任务的平均时期长度。

香蕉鱼观看在线视频网

之是以采用 50% 这一见服从，主淌若它关于数据分散的狭窄变化最为妥当。

肤浅说，当数据的分散（即数据的特征、比例或趋势等）发生一些小的变化时，这个认识不会受到太大的影响，仍然粗略保执相对郑重的发扬。

论文作家之一 Lawrence Chan 默示：

如果你采用特地低或特地高的阈值，那么分离移除或增多一个见效或失败的任务，就会对你的臆度值产生很大的影响。

欺诈这一认识，团队通过对 AI 模子在各个任务上的见效与失败数据进行逻辑追念分析，盘算推算出每个模子的时期跨度，也即是模子完成任务见服从达到 50% 之时，对应的东说念主类完成任务的时期。

（每个模子在每个任务上动手 8 次，纪录见服从）

有了这些数据，团队最终绘画了模子自主性随时期呈指数变化的图表。

发现" AI 智能体摩尔定律"

如上图所示，持续的主要发现是：

自 2019 年以来，AI 模子的时期跨度呈现出指数级增长，每七个月傍边翻一番。

为了考证持续恶果的外部灵验性，他们又进行了以下四个实验：

1、用 2023-2025 年数据回溯预计，考证趋势一致性；2、对 HCAST 和 RE-Bench 任务基于 16 个 "杂沓词语" 身分评级，分析任务杂沓词语进度对模子性能的影响；3、在其他 SWE-bench Verified 数据集上应用换取样式，对比恶果；4、在里面 Pull Requests（PR）任务上测试模子性能，与东说念主类基线对比。

最终，这一趋势得到了以上外部考证。

比如在第 2 个实验中，所谓的 16 个 "杂沓词语（messy）" 身分是指履行任务比持续任务更难的方面，包括任务是否受到有限资源的截至、是否触及及时互助或是否源自履行宇宙的环境。

每个任务都字据这些身分得到了一个 "杂沓词语度（messiness score）" 分数。

持续东说念主员发现，尽管 AI 模子在愈加杂沓词语的任务上（比如清寒明确领导和反应、需要 AI 主动去取得信息、任务条款和要求比拟松驰等情况）的皆备性能较低，但另一方面其性能在稳步晋升。

更有酷爱的是，非论任务的"杂沓词语"进度何如，AI 都是以同样的速率在晋升。

再比如在 SWE-bench Verified 基准上的考证，他们也不雅察到了一个访佛的指数级增长趋势。

不外由于标注时期的问题，该基准测试的时期跨度翻倍时期更短。

总之，按照"智能体摩尔定律"进行预计，AI 可能在 2028 年 11 月达到一个月的任务时期跨度；而在较为保守的臆度下，这一标的可能在 2031 年 2 月竣事。

METR 团队以为，天然持续还存在职务套件具有局限性、评估认识不齐全、异日 AI 发展具有不笃定性等需要完善的场所，但很驯顺这一认识每年有 1~4 倍的增长趋势。

而纠合履行中 Manus 智能体的走红，咱们照旧粗略料思到智能体将迎来爆发。

参考结合：

[ 1 ] https://www.nature.com/articles/d41586-025-00831-8

[ 2 ] https://x.com/METR_Evals/status/1902384481111322929性爱巴士电影

友情链接：

性爱巴士电影 Nature发文“智能体摩尔定律”，Agent才气每7个月翻倍，5年后能顶东说念主类苦干一个月的使命

栏目分类

热点资讯

相关资讯