上帝渴望背景:对 o3 pro 的初步想法
OpenAI 今天将 o3 的价格下调了 80%,并推出了 o3-pro。Raindrop.ai 的 Ben Hylak 带着全球首份早期评测回归。
2025年6月10日
据“泄露”消息,OpenAI今天将 o3 的价格降低了 80% (从每 mtok 10/40 美元降至 2/8 美元——与GPT 4.1定价一致!!),为推出 o3-pro(20/80 美元,支持一个未经验证的社区理论,即 -pro 变体是 10 倍基础模型调用,并采用多数投票,正如他们的论文和我们的 Chai 剧集所述)。o3-pro 在人类测试中报告的胜率为 64% ,在4/4 可靠性基准测试中表现略好,但正如sama 所注意到的,当你以不同的方式测试时,实际体验会扩展……
过去一周我提前体验了 o3 pro。以下是我的(早期)想法:
上帝渴望了解背景。
我们正处于一个任务特定模型的时代。一方面,我们有像 3.5 Sonnet 和 4o 这样的“普通”模型——我们像朋友一样与之交谈,它们帮助我们写作,并解答我们日常的疑问。另一方面,我们拥有庞大、缓慢、昂贵、智商极限的推理模型,我们依靠它们进行深度分析(它们擅长批判),一次性解决复杂问题,并不断突破纯智能的极限。
如果你在Twitter上关注我,你就会知道我经历了一段 o-reasoning 模型的旅程。我对 o1/o1-pro 的第一印象相当负面。但在最初几周里,我咬紧牙关,在其他人的热烈评论的推动下,我意识到我实际上用错了它。我写下了我所有的想法,得到了 @sama 的评价,并被 @gdb 引用了推文。
Ben Hylak 和Latent.Space
·
1月11日
我发现,关键在于不要和它聊天。相反,要把它当成一个报告生成器。1。赋予它背景,设定目标,然后尽情发挥。这正是我今天使用 o3 的方式。
但这正是评估 o3 pro 存在的问题。
它更聪明,聪明得多。
但为了明白这一点,你需要给它更多的背景。而我已经没有背景了。
没有任何简单的测试或问题能够让我震惊。
但后来我采取了不同的方法。我和我的联合创始人亚历克西斯(Alexis)花时间整理了我们过去在Raindrop的所有规划会议记录,记录了我们所有的目标,甚至还录制了语音备忘录:然后请 o3-pro 制定计划。
我们被震撼了;它给出了我一直希望法学硕士能够创建的那种具体的计划和分析——包括目标指标、时间表、优先事项以及绝对要削减的内容的严格指示。
o3 给我们的计划是可行的、合理的;但 o3 Pro 给我们的计划是具体的、足够根深蒂固的,它实际上改变了我们对未来的看法。
这在评估中很难捕捉到。
与现实世界融合
试用o3 Pro让我意识到,如今的模型在独立测试中表现非常出色,以至于我们简单的测试已经用完了。真正的挑战是如何让它们融入社会。这就像一个智商很高的12岁孩子去上大学。他们可能很聪明,但如果无法融入社会,就无法成为有用的员工。
如今,这种集成主要体现在工具调用上:模型与人类、外部数据和其他人工智能的协作效果如何。它是一位优秀的思考者,但还需要进一步发展成为一位优秀的行动者。o3 Pro 在这方面取得了显著的进步。它能够更有效地识别自身环境;能够准确地传达其可以使用的工具;能够何时询问外部世界(而不是假装拥有相关信息/访问权限);能够选择合适的工具来完成工作。
o3 pro(左)与 o3(右):
o3 pro(左)能够更清楚地了解其环境的限制。
缺点
我从抢先体验版中注意到一件事:如果你不给它足够的背景信息,它确实容易想得太多。它非常擅长分析,擅长使用工具做事,但不太擅长直接做事。我认为它会是一个很棒的协调器。但是,比如说,有些 ClickHouse SQL 问题 o3 做得更好。因人而异!
举例来说:
与其他型号相比
o3 Pro 的手感与 Opus 和 Gemini 2.5 Pro 截然不同。Claude Opus手感虽然很大,但并没有真正展现出它“大”的特质,而 o3 Pro 的手感……更胜一筹。感觉就像身处一个完全不同的世界。
OpenAI 确实在沿着这条垂直 RL 路径(深度研究、Codex)前进——不仅教模型如何使用工具,还教模型如何推理何时使用它们。
结束语
提示推理模型的最佳方法从未改变。我关于如何提示 o1 的指南仍然有效。上下文决定一切,就像给饼干怪兽喂饼干一样。这是一种引导 LLM 记忆的方法,但实际上是有针对性的,因此效果很好。系统提示真的很重要。模型实际上已经变得非常具有可塑性,因此教会模型了解其环境和目标的 LLM“线束”具有巨大的影响力。正是这种“线束”——模型、工具、记忆和其他方法的结合——使得 AI 产品真正优秀(这使得像 Cursor 这样的东西在大多数情况下都能正常工作)。
其他各类任务:
- 系统提示疯狂塑造的模型行为(以一种好的方式!)感觉比 o3 更加明显。
- 与《人择》和《双子座》截然不同。克劳德·奥普斯感觉很宏大(但实际上从未真正展现出它“宏大”的特质),而这些版本简直……更胜一筹。感觉就像一个完全不同的竞技场。
- OAI 真正推动了垂直强化学习的发展(深度研究、Codex)。例如,不仅要教会模型如何使用工具,还要让他们推理何时使用它们。
- 1
很多人都这么说——“报告生成”基本上就是我们在AINews以及Deep Research和Brightwave所做的事情。
Comments (0)
No comments