问题——科研活动不仅依赖实验技能与知识积累,更考验研究者对研究方向、价值与可行性的综合判断;顶尖研究者与一般研究者的差距,往往体现能否识别“值得做的问题”、能否提出“更有潜力的路线”。这种能力通常被称为科研品味:既包括对研究影响力的预判,也包括对创新空间的把握。如何让技术系统具备更贴近科研实践的判断与构思能力,成为智能科研辅助面临的核心挑战。 原因——科研评价信号长期分散在学术共同体的选择与反馈中,如引用、关注、复现与讨论等。这些信号既反映成果的传播与认可,也在一定程度上指向研究问题的重要性与方法的可迁移性。基于此,研究团队提出“基于社区反馈的强化学习”训练思路:把学术共同体长期形成的反馈信号转化为可学习的训练目标,使模型不止“会读论文、会写摘要”,还能在对比中学习辨别研究的潜在影响,并据此生成更具前瞻性的后续研究设想。 影响——围绕“科研品味”此能力,团队设计两类面向科研实践的任务:一是科研判断,在给定两项研究工作时,要求模型通过推理对比,判断哪一项更可能产生更大影响;二是科研构思,在既有论文基础上提出一个更具潜力的后续研究方向或方案。这样的任务设置打通“评估”与“创造”,使训练目标不再停留在语言流畅度或知识覆盖面,而更贴近真实科研活动。为支撑训练,团队构建了名为“scijudge bench”的大规模对比数据集,覆盖约70万对论文样本,并在领域、年份等维度进行匹配,同时拉开引用差异,以形成更清晰的“社区反馈”对照信号。训练结果显示,模型在科研判断与科研构思两上均有提升,部分评测中对研究价值识别与思路延展的能力更强。 对策——要推动此类方法走向更广泛应用,需要“可用、可信、可控”上同步推进。其一,评价信号应更丰富并尽量去偏差。引用并非唯一尺度,不同学科的引用周期与传播路径差异明显,后续可引入同行评议摘要、开源复现情况、学术会议反馈等指标,并对学科差异做校准。其二,结果使用要强调透明与可追溯。模型给出“更有影响力”的判断或“更有潜力”的构思时,应同时提供依据链条与不确定性提示,避免用单一分数替代专家判断。其三,应用边界要明确。模型更适合承担初筛、对比、灵感扩展与资料整合等工作;在重大选题、资源配置与伦理合规等环节,仍需由科研共同体把关。 前景——从科研工具的演进看,未来研究辅助系统的竞争力不再只是“能生成文本”,更在于能否贴近科研规律、理解学术共同体的评价机制,并在长期反馈中形成稳定的判断能力。基于社区反馈的训练路径,为模型学习科研价值判断提供了可规模化的抓手,有望在文献评估、选题建议、研究路线推演与跨学科连接各上提升效率。同时也应看到,学术评价天然存在时滞与偏好结构:如何避免“追逐热门”而抑制原始创新,如何识别低引用但高潜力的早期工作,仍需持续攻关。总体而言,随着数据与方法完善,面向科研的智能系统有望在坚持人类主导与规范治理的前提下,成为科学探索的重要高质量辅助。
这项进展不仅展示了智能科研辅助在“价值判断与构思”能力上的新探索,也促使人们重新审视科研评价体系。在知识快速增长的背景下,如何平衡人工智能的量化分析与专家经验判断,如何构建更有效的人机协同科研生态,将直接影响未来科技竞争格局。随着研究持续深化,此路径可能推动科研范式的深入演进,并为我国科技创新能力提升提供新的支撑。