发布日期:2025-03-23 07:33 点击次数:169
AI Agents(智能体)也有我方的"摩尔定律"了?!性爱巴士电影
就在最近,Nature 报说念了一项来自非牟利持续机构 METR 的最新发现:
AI 在完成恒久任务方面的杰出速率惊东说念主,当时期跨度梗概每七个月翻一番。
为了估量 Agent 自动完成任务的才气变化,持续东说念主员建议了"50%- 任务完成时期跨度(50%-task-completion time horizon)"这一认识。
他们以 50% 任务见服从为基准,假定 2019 年 AI 达到这一标的所需时期对应东说念主类需要的时期为 10 分钟,那么 7 个月后,其对应的东说念主类完成任务时期则形成了 20 分钟。
换句话说,AI 粗略胜任越来越多东说念主工耗时久的任务,才气渐渐更强。
2024 年这一增长速率变得更快了,一些最新模子梗概每三个月翻一番。
按照预计,梗概五年后,AI 就能自动完成许多东说念主类当今要花一个月才能完成的任务。
网友们纷繁默示,这下终于对 AI 杰出神速有实感了!
建议" 50%- 任务完成时期跨度"认识
在 METR 的先容中,他们将这一发现定名为" Moore ’ s Law for AI agents ",也即是"智能体摩尔定律"。
底下咱们详备张开其持续样式。
合座而言,他们主淌若让 AI 和一些专科东说念主员在同样条款下尝试完成任务,然后测量东说念主类所需要的时期,最终来比拟 AI 见服从何如跟着东说念主类完成时期的短长而变化。
这第一步,持续团队采用了三个不同的任务套件来评估 AI 模子的才气:
97 个 HCAST 任务,涵盖软件工程、机器学习、收罗安全和一般推理挑战的万般化任务逼近,难度从几分钟到 30 小时;
7 个 RE-Bench 任务,由七个灵通式的机器学习持续工程环境构成性爱巴士电影,每个需东说念主类众人约 8 小时完成;
66 个 SWAA 任务,代表软件成就历程中的单个智商操作,时长 1 秒到 30 秒。
接下来,为了量化评估 AI 模子的发扬,团队招募了800 多名软件工程、机器学习和收罗安全鸿沟的专科东说念主员扩张任务,并纪录他们完成任务所需的时期。
据 METR 先容,在这些任务中,东说念主类完成时期从 1 秒到 16 小时不等。
这些时期被行动估量任务难度的按次。
然后他们又评估了从 2019 年到 2025 年发布的13 个前沿 AI 模子,包括 GPT 系列和 o1、Sonnet 3.7 等,通过在构建的任务套件上动手这些模子,并纪录它们完成任务的见服从。
要道来了,随后他们引入了一个新的认识——50% 任务完成时期跨度(50%-task-completion time horizon),即 AI 模子在 50% 的见服从下粗略完成的任务的平均时期长度。
香蕉鱼观看在线视频网之是以采用 50% 这一见服从,主淌若它关于数据分散的狭窄变化最为妥当。
肤浅说,当数据的分散(即数据的特征、比例或趋势等)发生一些小的变化时,这个认识不会受到太大的影响,仍然粗略保执相对郑重的发扬。
论文作家之一 Lawrence Chan 默示:
如果你采用特地低或特地高的阈值,那么分离移除或增多一个见效或失败的任务,就会对你的臆度值产生很大的影响。
欺诈这一认识,团队通过对 AI 模子在各个任务上的见效与失败数据进行逻辑追念分析,盘算推算出每个模子的时期跨度,也即是模子完成任务见服从达到 50% 之时,对应的东说念主类完成任务的时期。
(每个模子在每个任务上动手 8 次,纪录见服从)
有了这些数据,团队最终绘画了模子自主性随时期呈指数变化的图表。
发现" AI 智能体摩尔定律"
如上图所示,持续的主要发现是:
自 2019 年以来,AI 模子的时期跨度呈现出指数级增长,每七个月傍边翻一番。
为了考证持续恶果的外部灵验性,他们又进行了以下四个实验:
1、用 2023-2025 年数据回溯预计,考证趋势一致性;2、对 HCAST 和 RE-Bench 任务基于 16 个 "杂沓词语" 身分评级,分析任务杂沓词语进度对模子性能的影响;3、在其他 SWE-bench Verified 数据集上应用换取样式,对比恶果;4、在里面 Pull Requests(PR)任务上测试模子性能,与东说念主类基线对比。
最终,这一趋势得到了以上外部考证。
比如在第 2 个实验中,所谓的 16 个 "杂沓词语(messy)" 身分是指履行任务比持续任务更难的方面,包括任务是否受到有限资源的截至、是否触及及时互助或是否源自履行宇宙的环境。
每个任务都字据这些身分得到了一个 "杂沓词语度(messiness score)" 分数。
持续东说念主员发现,尽管 AI 模子在愈加杂沓词语的任务上(比如清寒明确领导和反应、需要 AI 主动去取得信息、任务条款和要求比拟松驰等情况)的皆备性能较低,但另一方面其性能在稳步晋升。
更有酷爱的是,非论任务的"杂沓词语"进度何如,AI 都是以同样的速率在晋升。
再比如在 SWE-bench Verified 基准上的考证,他们也不雅察到了一个访佛的指数级增长趋势。
不外由于标注时期的问题,该基准测试的时期跨度翻倍时期更短。
总之,按照"智能体摩尔定律"进行预计,AI 可能在 2028 年 11 月达到一个月的任务时期跨度;而在较为保守的臆度下,这一标的可能在 2031 年 2 月竣事。
METR 团队以为,天然持续还存在职务套件具有局限性、评估认识不齐全、异日 AI 发展具有不笃定性等需要完善的场所,但很驯顺这一认识每年有 1~4 倍的增长趋势。
而纠合履行中 Manus 智能体的走红,咱们照旧粗略料思到智能体将迎来爆发。
参考结合:
[ 1 ] https://www.nature.com/articles/d41586-025-00831-8
[ 2 ] https://x.com/METR_Evals/status/1902384481111322929性爱巴士电影
Powered by 香蕉鱼观看在线视频网 @2013-2022 RSS地图 HTML地图
Copyright Powered by365建站 © 2013-2024