创智学院与复旦大学提出社区反馈强化学习范式，助力机器形成科研判断与构思能力

问题——科研活动不仅依赖实验技能与知识积累，更考验研究者对研究方向、价值与可行性的综合判断；顶尖研究者与一般研究者的差距，往往体现能否识别“值得做的问题”、能否提出“更有潜力的路线”。这种能力通常被称为科研品味：既包括对研究影响力的预判，也包括对创新空间的把握。如何让技术系统具备更贴近科研实践的判断与构思能力，成为智能科研辅助面临的核心挑战。原因——科研评价信号长期分散在学术共同体的选择与反馈中，如引用、关注、复现与讨论等。这些信号既反映成果的传播与认可，也在一定程度上指向研究问题的重要性与方法的可迁移性。基于此，研究团队提出“基于社区反馈的强化学习”训练思路：把学术共同体长期形成的反馈信号转化为可学习的训练目标，使模型不止“会读论文、会写摘要”，还能在对比中学习辨别研究的潜在影响，并据此生成更具前瞻性的后续研究设想。影响——围绕“科研品味”此能力，团队设计两类面向科研实践的任务：一是科研判断，在给定两项研究工作时，要求模型通过推理对比，判断哪一项更可能产生更大影响；二是科研构思，在既有论文基础上提出一个更具潜力的后续研究方向或方案。这样的任务设置打通“评估”与“创造”，使训练目标不再停留在语言流畅度或知识覆盖面，而更贴近真实科研活动。为支撑训练，团队构建了名为“scijudge bench”的大规模对比数据集，覆盖约70万对论文样本，并在领域、年份等维度进行匹配，同时拉开引用差异，以形成更清晰的“社区反馈”对照信号。训练结果显示，模型在科研判断与科研构思两上均有提升，部分评测中对研究价值识别与思路延展的能力更强。对策——要推动此类方法走向更广泛应用，需要“可用、可信、可控”上同步推进。其一，评价信号应更丰富并尽量去偏差。引用并非唯一尺度，不同学科的引用周期与传播路径差异明显，后续可引入同行评议摘要、开源复现情况、学术会议反馈等指标，并对学科差异做校准。其二，结果使用要强调透明与可追溯。模型给出“更有影响力”的判断或“更有潜力”的构思时，应同时提供依据链条与不确定性提示，避免用单一分数替代专家判断。其三，应用边界要明确。模型更适合承担初筛、对比、灵感扩展与资料整合等工作；在重大选题、资源配置与伦理合规等环节，仍需由科研共同体把关。前景——从科研工具的演进看，未来研究辅助系统的竞争力不再只是“能生成文本”，更在于能否贴近科研规律、理解学术共同体的评价机制，并在长期反馈中形成稳定的判断能力。基于社区反馈的训练路径，为模型学习科研价值判断提供了可规模化的抓手，有望在文献评估、选题建议、研究路线推演与跨学科连接各上提升效率。同时也应看到，学术评价天然存在时滞与偏好结构：如何避免“追逐热门”而抑制原始创新，如何识别低引用但高潜力的早期工作，仍需持续攻关。总体而言，随着数据与方法完善，面向科研的智能系统有望在坚持人类主导与规范治理的前提下，成为科学探索的重要高质量辅助。

这项进展不仅展示了智能科研辅助在“价值判断与构思”能力上的新探索，也促使人们重新审视科研评价体系。在知识快速增长的背景下，如何平衡人工智能的量化分析与专家经验判断，如何构建更有效的人机协同科研生态，将直接影响未来科技竞争格局。随着研究持续深化，此路径可能推动科研范式的深入演进，并为我国科技创新能力提升提供新的支撑。