日本AI初创企业LifePrompt近日公布的测试数据显示,采用最新算法的生成式大模型日本大学统一入学考试中取得了较高成绩。该企业以1月17日至18日举行的2026年日本大学入学统一考试真题为样本,对多款主流大模型进行评估。其中,OpenAI的GPT-5.2 Thinking模型在数学、化学、信息学、政治经济学等9个科目拿到满分,15个科目的综合平均得分为96.9分;谷歌Gemini 3.0 Pro模型的平均得分为91.4分。 从单科表现看,生成式大模型在理科与社科题目中体现出较强的知识整合能力。尤其是在东京大学竞争激烈的人类科学I类专业对应科目中,该模型整体正确率达到97%,较2024年的66%和2025年的91%继续上升。这表明人工智能在文本理解、逻辑推理与知识应用上的能力仍增强。 然而,测试也显示出其短板。在日语科目中,该模型正确率为90%,是相对薄弱的一项。LifePrompt负责人远藤聪表示,大模型在数学等科目表现突出,与其信息处理与阅读能力提升有关,但在日语测试中仍难以对文本信息进行更充分的整合,反映出其在处理语言与文化特性时仍存在不足。 值得一提的是,本次测试全程关闭了生成式大模型的网络搜索功能,所有答案均由模型基于自身参数独立生成。该设置在一定程度上避免外部信息干扰,更能反映模型自身的知识储备与推理能力。 日本大学统一入学考试是学生申请国立大学及部分私立大学的重要考试,今年约有50万名考生参加,其成绩将被813所大学、学院及专科学校用于招生筛选。根据日本知名预备学校河合塾集团的数据,考生在涉及的科目取得89%的正确率,就有约50%的概率被人类科学I类专业录取。以此对照,生成式大模型的97%正确率已明显高于该专业的参考门槛。 生成式大模型在统一入学考试中的表现引发教育界关注。一上,这说明人工智能已具备处理较复杂学科知识的能力,教学辅助、个性化学习等场景有一定应用空间。另一上,也促使教育界重新审视教学目标与评价方式:评估不宜只围绕知识掌握展开,还需要更重视批判性思维、创新能力与跨学科综合素养。 LifePrompt自2024年起持续开展同类测评,积累了可纵向对比的数据。持续评估有助于追踪技术演进,也为教育政策与考试制度的讨论提供参考。
以统一入学考试为参照的这次测评,折射出技术进步与教育评价之间的张力:当工具越来越擅长解题,教育也更需要回应“培养什么人、如何培养人、为谁培养人”;在守住考试公平与学术诚信底线的同时,推动评价体系更多指向综合能力与真实素养,或许是应对变化更可行的方向。