【新智元导读】OpenAI o3推理成本从3000美元飙至3万美元,暴增10倍。o3-high靠暴力试错生成4300万字解题,却被ARC-AGI「除名」。
在ARC-AGI最新测试上,AI单次任务曾用3000美元,而如今已飙升至30000美元。
来自牛津大学的高级研究员Toby Ord指出,o3-high看似性能强大,实则更多地依赖于海量计算,而非真正的推理突破。
o3-high在对每个任务尝试1024次,每次生成137页文本,总计4300万字——相当于为每个任务写了一本《大英百科全书》(4400万字)。
结果就是,完成每个任务成本高达3万美金。而这些简单的谜题,一个10岁的孩子可能只需4分钟就能解决。
成本飙升直接引发了o3-high超出ARC-AGI每个任务1万美元限制,直接被排除在排行榜之外
就在上周,ARC Prize Foundation更新了他们对o3模型计算成本的估算,结果令人震惊。
而现在,根据修订后的ARC-AGI表,这些数字分别增加到200美元和3万美元。
这要比他们预计的成本整整高出10倍,这也可能是OpenAI迟迟没有正式对外发布o3的原因。
对此,ARC Prize Foundation的联合发起人之一Mike Knoop表示:「我们大家都认为o1-pro更接近o3的真实成本,因为它在测试时用了大量的计算资源」。
o3的原始估算仅为OpenAI现有o1-pro模型收费的1/10,因此,他们以o1-pro定价作为参考,更新了定价数据。
「但这只是个参考,我们在排行榜上把o3标记为预览版,就为了反映官方定价的不确定性。」
研究员Toby Ord称,令人失望的是,更新后的图表显示,o3整体表现几乎未超出o1对数收益的趋势。
他对此推测,或许是因为o3是在ARC-AGI公开测试集的75%上进行了专门的训练,而OpenAI并未发布任何消融数据澄清这一增益的来源。
相较之下,o3-mini更让人眼前一亮,所用的计算资源比o3-high要烧1000倍,却能展现出真正突破趋势的表现。
但当一个任务需要3万美元、4300万字「暴力堆砌」下才能解决,这种效率是不是真的划算。
ARC Prize Foundation是一家非营利组织,使命是在基准测试期间成为AGI的北极星。
他们的第一个基准ARC-AGI,是François Chollet于2019年在关于智力测量的论文中发表的,它在AI领域已经保持5年不败。
不像ARC-AGI-1,这个新版本不容易靠蛮力破解。这对AI来讲非常难。
也就是说,推理模型在解决这些任务时,有必要进行大量的推理,消耗非常多的Token。
比如,当前最先进的推理模型在处理需要把符号看作「有意义的内容」时,表现并不好。
它们会尝试检查对称性、做镜像、进行图形变换,甚至能识别符号之间的连接关系,但却没办法理解这些符号本身所代表的含义。
相比之下,如果任务只涉及一条或极少数几条整体性的规则,AI通常能稳定地发现并正确运用这些规则。
虽然这些顶尖的推理模型在ARC-AGI的测试中表现不理想,但并没有妨碍很多人对实现AGI的畅想。
在最新一篇博客中,DeepMind就表示「通用AI(AGI)可能在未来几年内到来」。
结合AI智能体的能力,AGI可以大幅度的提高AI在理解、推理、规划和自主执行行动方面的能力。这种技术进步将为社会提供宝贵的工具,以应对包括药物发现、经济稳步的增长和气候平均状态随时间的变化在内的关键全球挑战。
通过使先进工具和知识的获取更方便快捷,它可以让小型组织有能力解决那些以前只有大型、资金充足的机构才能应对的复杂挑战。
未来几年,AGI曙光或许将至,但眼下,烧钱智能并不意味着着真正的推理突破,我们仍需保持清醒与期待。