Cursor发布自研编程模型Composer 2:基准测试接近头部水平,调用价格大幅下调

问题——编程场景调用量激增,“更贵”与“更强”的矛盾加剧; 近一段时间,随着编程助手研发流程中的使用更普遍,软件开发、运维自动化和终端操作等场景的调用规模快速扩大,带动推理算力消耗与令牌使用量上升。,云服务和模型服务的价格整体走高。对企业和开发者来说,如何在预算可控的前提下,持续获得稳定的工程效率提升,成为选择模型与工具链时的核心问题:既需要足够强的代码理解、生成和工具调用能力,又要避免成本过高抬升使用门槛。 原因——从“外采模型”到“自研优化”,用训练方法提升性价比。 Cursor推出Composer 2和Composer 2 Fast,说明了其从依赖外部模型能力向自研模型体系推进的方向。Cursor表示,新模型在其重点关注的多项基准上有所提升,包括终端操作能力测试Terminal-Bench 2.0,以及面向软件工程任务的SWE-bench Multilingual等;其中在Terminal-Bench 2.0上,模型表现被描述为介于部分主流强模型之间。 定价上,Composer 2标准版输入0.5美元/百万tokens、输出2.5美元/百万tokens;快速版本输入1.5美元/百万tokens、输出7.5美元/百万tokens,主打更高响应速度与吞吐能力。 更受关注的是其降本思路。Cursor将性能提升与价格下探的关键,归因于一种偏“自我总结”的强化学习训练方法:让模型执行过程中形成阶段性的“记录与纪要”,把长链路任务拆成可持续推进的步骤,从而减少因上下文限制带来的遗忘与返工。 影响——降低大规模工程使用门槛,促使行业重新对齐“成本—能力”标尺。 在真实研发场景中,代码生成很少是一次性问答,通常需要阅读存量代码、定位问题、修改多文件、运行测试、在终端执行命令、依据日志迭代等连续动作。任务链条越长,越容易触发上下文窗口限制,出现关键约束丢失、修改偏离、测试难以收敛等问题,进而推高调用次数与成本。若“长任务稳定性”得到改善,在相同复杂度下,重试与纠偏次数有望下降,总体成本也会随之回落。 从市场角度看,编程助手的竞争正从“单点生成能力”转向“工程闭环能力”,包括工具调用、终端执行、跨文件一致性,以及多轮迭代的可靠性。Cursor以更低价格切入,并称在若干指标上进入强模型区间,可能推动行业重新评估编程模型的性价比基准:其一,价格体系或深入分层,形成“高端强推理+中端高性价比”的多梯度供给;其二,应用侧可能更倾向把模型深度嵌入研发流水线,以自动化测试、持续集成为支点扩大使用规模。 对策——解决“上下文装不下”的工程痛点,关键在训练与产品协同。 业内普遍认为,长任务失败的重要原因之一是上下文承载有限。围绕“压缩与记忆”已形成多条技术路线:对历史对话或执行轨迹做摘要、用滑动窗口丢弃早期信息,或将信息压缩到向量等潜在空间以提升检索准确度。但若处理不当,仍可能遗漏约束条件或丢失关键细节,导致模型在后续步骤偏离目标。 Cursor提出的“自我总结”强化学习方法,强调通过训练把“记要”能力固化为稳定行为,而不是主要依赖提示词技巧。对行业而言,这带来两点启示:其一,长链路任务的可靠性提升,需要在训练阶段引入面向工程执行的反馈机制,把“持续推进、少返工”作为可优化目标;其二,产品侧应提供可追溯的过程管理能力,例如任务分解、状态记录、关键决策点回溯与自动化校验,降低信息丢失对交付结果的影响。 前景——编程大模型进入“规模化落地”比拼期,降本增效将成为主线。 随着企业数字化推进与软件工程规模持续扩大,编程模型的价值标准也在变化:不只看能否写出代码,更看能否在真实工程中稳定完成从定位到修复、从实现到测试、从部署到回滚的闭环任务。未来一段时间,模型提供方的竞争预计集中在三上:一是更贴近工程指标的训练与评测体系,强化终端操作、工具调用与多语种工程协作能力;二是用更透明、可预测的计费方式支撑大规模调用;三是通过长任务记忆与过程管理减少无效token消耗,推动“用得起、用得稳、用得好”。

Cursor此次进展不仅展示了强化学习在解决工程类问题中的潜力,也反映出人工智能行业正从参数竞赛转向更强调可用性与普及性的阶段。在数字化转型持续推进的背景下,如何在技术创新与商业可持续之间取得平衡,将成为行业共同面对的问题。由此带来的竞争变化,可能会重新校准智能编程工具的价值标准。