o4

OpenAI·US··发布 2026-03-05

OpenAI 推理专用模型,数学与算法编程的 SOTA

OpenAI 专用推理,数学 / 编程 SOTA

深度推理数学编程
分类表现
文本
Rank #3
1425
6
代码
Rank #2
1458
8
累计 60,300 次投票
核心亮点
链式深度思考

思考链可见,多步骤推导不出错

算法题王

Codeforces 2550 分,HumanEval 98

数学顶尖

AIME 2025 88 分,MATH 97

自我验证

多次核对减少幻觉和推理错误

推理强度可调

可选 low / medium / high 思考时长

企业合规

同 OpenAI API 政策,SOC 2 / GDPR

适用场景
推荐4 项
  • 数学证明 / 物理 / 工程推导
  • 算法编程 / 竞赛题
  • 复杂逻辑规划与反事实分析
  • 需要可解释推理链的场景
不推荐3 项
  • 日常对话(延迟偏高)
  • 创意写作(偏理性推理)
  • 简单问答(成本浪费)
细分 Benchmark
来源:厂商公布 / 第三方评测
MMLU-Pro91 / 100
GPQA Diamond83 / 100
AIME 202588 / 100
MATH97 / 100
HumanEval98 / 100
SWE-bench Verified70 / 100
定价方案
API
$10 / $40
输入 / 输出 · 每 1M tokens
ChatGPT Pro
$200 / 月
o4 无限使用
Team
$25 / 人 / 月
o4 按配额
Enterprise
联系销售
定制 SLA
规格参数
上下文
200K tokens
输入价
$10 / 1M
输出价
$40 / 1M
安全与隐私
数据训练
API 数据不用于训练
数据留存
30 天
合规认证
SOC 2 · GDPR
数据驻留
美国 / 欧盟
企业合同
支持 BAA / DPA
常见问题
Q1o4 和 GPT-5.5 区别在哪?

o4 是推理专用模型,给复杂数学 / 算法 / 逻辑任务用;GPT-5.5 是通用模型,日常对话 / 内容生成更合适。o4 回答慢、贵,但推理质量更高。

Q2o4 为什么回答慢?

o4 会在内部"思考"多步才输出答案(链式思维)。简单问题也要 5-20 秒。这是质量的代价。可以选 o4-mini 或 GPT-5.5 做低延迟场景。

Q3什么时候用 o4?

三类场景:(1) 数学 / 科学问题要严谨推导;(2) 算法 / 竞赛编程;(3) 复杂业务逻辑规划(如多约束优化)。日常对话用 GPT-5.5 就够。

Q4o4-mini 够用吗?

大多数推理任务 o4-mini 已经够,性能接近 o4 但便宜 5 倍。只有最复杂的题目(AIME / IMO 级)才值得用完整 o4。

Q5推理过程能看到吗?

API 返回完整 chain-of-thought,ChatGPT UI 默认折叠。企业版可以完整审计推理步骤。