『Blog』The more you look, the less you see

Challenge

上周深度测试了 o3 和 o4-mini 在各类 CAPTCHA 上的表现，一句话结论：

The more you look, the less you see.

首先明确一点，o3 并非一个独立的模型接口。但我个人也不倾向于将其定义为 Agent，因为它本质上还是在遵循工程师预设的一套 workflow，试图用一套固定的流程解决各种现实世界的 VQA (Visual Question Answering) 场景问题。

o3 像个智商奇高、能现场解出难题，但从不复盘、缺乏实战本能的考生。

放到 CSGO 场景里就更明显了：比如要在 A 大扔一颗完美的过点烟。老玩家怎么做？跑到那个熟悉的 T 启动点位，肌肉记忆驱动，准星往墙上某个污渍或者特定像素一甩，同步起跳，烟出手——整个 决策-执行 过程可能就几百毫秒，一气呵成。

而 o3 呢？它也能“封”这颗烟，但它的方式更像是：每次接到“封 A 大烟”这个指令时，都得在自己的“脑内训练场”里临时加载 Dust2 的地图数据和物理引擎，然后开始精确计算：“根据当前位置、目标落点、烟雾弹的初速度、重力加速度、空气阻力（可能没那么复杂，但类似这个过程），我应该用这个角度，在这个 timing 起跳投掷……” 它能次次精准地 推导出 那个最佳的起跳点和瞄准像素，保证烟雾完美落位。

问题在于，它无法将这次成功的 推导过程 或结果内化为一种下次能瞬时调用的 肌肉记忆 或 最佳实践。每次要封同样的烟，它不是直接回忆起“上次那个点位和动作”，而是又一次完整地运行那个“思考->计算->执行”的流程。它能完美解对这道“VQA 题”，却学不会人类玩家那种“条件反射式”的高效执行。这正是缺乏复盘和内化的表现。

越聪明，越幻觉？

这不禁让人想起高中老师常说的“先把书读厚，再把书读薄”。考场上，如果一时想不起公式，我们或许能凭借零碎的知识现场推导出来。但这终究是无奈之举，最高效的方式，还是直接写出那个经过“读薄”后印在脑海里的公式，而不是每次遇到同类题型，都无比精确且耗时地重新推导一遍（虽然这种百分百空手接白刃的能力也算是某种意义上的“逆天”）。这也解释了为什么当前有些研究团队开始着力于 Non-thinking（近似思考/直觉响应）和知识压缩等方向。

总而言之，当前的模型在 IQ 测试中已能取得 130 甚至更高的分数，工具调用能力甚至通过 RL 刻进了模型 DNA 里。金属大师日渐成熟、炉火纯青。尽管存在上述的“低效”问题，但也许，下一阶段的智能涌现，已近在咫尺。

未来可期。

Gallery

🙌 放送一些近视眼测试案例：

Q&A with the o3 Agentic Workflow

完整思维链（清晰版）