Challenge
上周深度测试了 o3 和 o4-mini 在各类 CAPTCHA 上的表现,一句话结论:
The more you look, the less you see.
首先明确一点,o3 并非一个独立的模型接口。但我个人也不倾向于将其定义为 Agent,因为它本质上还是在遵循工程师预设的一套 workflow,试图用一套固定的流程解决各种现实世界的 VQA (Visual Question Answering) 场景问题。
o3 像个智商奇高、能现场解出难题,但从不复盘、缺乏实战本能的考生。
放到 CSGO 场景里就更明显了:比如要在 A 大扔一颗完美的过点烟。老玩家怎么做?跑到那个熟悉的 T 启动点位,肌肉记忆驱动,准星往墙上某个污渍或者特定像素一甩,同步起跳,烟出手——整个 决策-执行 过程可能就几百毫秒,一气呵成。
而 o3 呢?它也能“封”这颗烟,但它的方式更像是:每次接到“封 A 大烟”这个指令时,都得在自己的“脑内训练场”里临时加载 Dust2 的地图数据和物理引擎,然后开始精确计算:“根据当前位置、目标落点、烟雾弹的初速度、重力加速度、空气阻力(可能没那么复杂,但类似这个过程),我应该用这个角度,在这个 timing 起跳投掷……” 它能次次精准地 推导出 那个最佳的起跳点和瞄准像素,保证烟雾完美落位。
问题在于,它无法将这次成功的 推导过程 或 结果 内化为一种下次能瞬时调用的 肌肉记忆 或 最佳实践。每次要封同样的烟,它不是直接回忆起“上次那个点位和动作”,而是又一次完整地运行那个“思考->计算->执行”的流程。它能完美 解 对这道“VQA 题”,却学不会人类玩家那种“条件反射式”的高效执行。这正是缺乏复盘和内化的表现。
越聪明,越幻觉?
这不禁让人想起高中老师常说的“先把书读厚,再把书读薄”。考场上,如果一时想不起公式,我们或许能凭借零碎的知识现场推导出来。但这终究是无奈之举,最高效的方式,还是直接写出那个经过“读薄”后印在脑海里的公式,而不是每次遇到同类题型,都无比精确且耗时地重新推导一遍(虽然这种百分百空手接白刃的能力也算是某种意义上的“逆天”)。这也解释了为什么当前有些研究团队开始着力于 Non-thinking(近似思考/直觉响应)和知识压缩等方向。
总而言之,当前的模型在 IQ 测试中已能取得 130 甚至更高的分数,工具调用能力甚至通过 RL 刻进了模型 DNA 里。金属大师日渐成熟、炉火纯青。尽管存在上述的“低效”问题,但也许,下一阶段的智能涌现,已近在咫尺。
未来可期。
Gallery
🙌 放送一些近视眼测试案例:
完整思维链(清晰版)