据多位已获得访问权限的企业用户透露,OpenAI 近期开始向部分合作伙伴开放 GPT-5 预览版内测。相比 GPT-4o,GPT-5 在整体能力上的提升固然显著,但最受业内关注的并非单纯的性能数字,而是一项名为「可见推理链」(Visible Chain of Thought)的新功能。
推理过程首次可审计
在此前所有主流大语言模型中,模型的内部推理过程对用户而言几乎是一个黑盒——你只能看到最终输出,无法得知模型为何得出这个结论、在哪些步骤上进行了权衡。OpenAI 的 o1 系列虽然引入了思维链(CoT)能力,但呈现给用户的推理摘要依然经过了压缩和筛选。
GPT-5 的「可见推理链」则进一步开放了更完整的中间推理步骤。据内测用户描述,在处理复杂的合规审查或医疗诊断辅助任务时,可以看到模型逐步列出考虑因素、标注不确定性来源、并在多个候选结论之间进行明确的权重比较,最终给出带有置信度标注的答案。
这一特性对于高风险行业(金融、医疗、法律)的 AI 应用具有重要意义:监管机构和企业合规部门长期以来对 AI 的最大顾虑之一,正是无法解释和审计模型的决策逻辑。
基准测试数据
根据 OpenAI 发布的技术报告摘要,GPT-5 在以下几个维度展现出明显进步:
- MATH 竞赛题:准确率达 92.4%,超越 o3 的 88.7%
- SWE-bench(软件工程任务):通过率 61.3%,刷新当前最高纪录
- GPQA(研究生级科学问答):76.1%,逼近人类专家水平
- 多语言推理(中文):相比 GPT-4o 提升约 12 个百分点
与 Claude Opus 4 的差异化定位
将 GPT-5 与同期发布的 Claude Opus 4 进行横向比较,是业内讨论最热烈的话题之一。从目前已知的信息来看,两款模型各有侧重:
GPT-5 在纯推理任务(数学、逻辑、科学问答)上略占优势,且「可见推理链」功能是明显的差异化卖点;Claude Opus 4 则在长文档处理、写作质量和指令遵循精确度方面表现更突出,且在安全性和拒绝不当请求方面更为保守和稳定。
对于大多数企业用户而言,选择哪款模型更多取决于具体的使用场景,而非单一的性能排行。
内测反馈与争议
并非所有内测用户都给予了正面评价。部分用户指出,「可见推理链」在某些任务中显著拖慢了响应速度,且当推理链过长时,用户反而需要花费更多精力来理解和核验模型的中间步骤。
此外,有研究者质疑,所谓「可见推理链」是否真实反映了模型的内部计算过程,还是仅仅是模型在输出阶段生成的一种解释性文本——两者在技术本质上存在本质差异。
GPT-5 的正式版本预计将在未来数月内向所有 ChatGPT Plus 用户和 API 开发者开放。