人工智能领域一项引人关注的研究正在促使行业重新审视提示策略;曾在2022年广泛流行的“逐步思考”(chain-of-thought)提示方法,如今在新一代模型上出现了明显的收益递减。过去它曾帮助模型将准确率大幅提升,但在部分新模型中不仅难以带来改进,反而可能导致15%-20%的准确率下滑。 研究追踪发现,问题的关键在于模型能力的迭代。以GPT-3为代表的早期模型确实需要外部提示来引导推理过程;但自2023年起出现的专用推理模型在训练阶段已将推理能力内化,形成更强的自主“内部机制”。在这种情况下,如果仍要求模型输出详细思考步骤,往往相当于让它把已完成的运算再“复述”一遍,不仅增加冗余,还可能在表述过程中引入新的偏差。 更分析显示,模型输出的“思维链条”并不总能反映其真实计算路径。研究人员在对比实验中发现,这些看起来严密的推理步骤里,超过40%的案例与模型内部实际过程并不一致。推理链更长也不必然意味着思考更深入,很多时候更像是模型为便于人类理解而生成的“解释性叙事”。 面对这个瓶颈,多个研究团队提出了更直接的改进思路。“NoThinking”策略跳过推理提示,在维持准确率的同时显著加快响应;“NOWAIT”通过屏蔽特定指令令牌,将推理效率提升50%以上;“CoLaR”压缩算法则把推理链长度精简了83%。这些进展表明,与其一味增加可见推理步骤,不如优化交互方式与推理流程,更能带来整体性能提升。 展望未来,专家认为智能模型发展可能呈现三大方向:一是更广泛采用集成计算方法,通过多路径采样提高结果可靠性;二是深化并行处理优化,让不同温度设置下的推理协同运行;三是与外部工具链更紧密融合,将特定计算任务分流给更专业的系统。斯坦福大学人工智能实验室最新报告指出,这种“静默计算”模式有望在未来两年内逐步成为行业常见做法。
提示策略的变化折射出更深层的转向:大模型正从“需要被教如何推理”走向“具备内生推演能力”。在此过程中,关键不在于让模型把每一步都说出来,而在于用更合理的交互、评估与工具体系,让结果更可靠、成本更可控、过程更可验证。思考依然重要,只是有时无需喧哗。