17岁高三生发了篇论文,把埃隆马斯克都惊动了,他直夸中国的创新力量强

最近人工智能圈里有件大事挺吸引人的,中国深圳的一个17岁高三生,叫陈广宇,跟顶尖学者一块发了篇论文。这事儿把埃隆·马斯克都惊动了,他直夸中国的创新力量强。论文里提出的新方法对Transformer架构底层逻辑做了大改动,让Transformer变了样。这个方法叫“注意力残差”,就是解决大模型训练时的瓶颈问题。传统Transformer用的是“残差连接”,虽然解决了训练深层网络的难题,但信息传递太杂乱,浪费了很多计算资源。Kimi团队搞了个动态筛选机制,让模型能自己找出最有用的信息,就像加了个智能过滤器一样。实验显示,在Kimi Linear 48B模型上用这个方法训练,计算量减少了20%,性能还没降。 陈广宇跟RoPE的提出者苏剑林、Kimi架构的开发者张宇并列第一作者,贡献一样大。这让大家开始琢磨少年研究者怎么成长的。据了解,陈广宇接触AI研究才一年多,他通过读开源论文、搞GitHub项目、在社区交流慢慢积累知识。去年他发了个技术反思帖子被硅谷一家公司CEO看到了,后来他去实习了一趟,算是个转折点。在Kimi团队里他干活挺猛,参加内部黑客马拉松还拿了冠军,证明他的创新思维和工程能力都不错。 陈广宇特别谦虚,一直强调这是团队的功劳。论文后面署名的37位作者名单也说明了现在AI研究的团队合作有多强。行业观察家觉得陈广宇这事反映出中国AI生态的变化挺大。成立才两年的月之暗面敢挑战Transformer底层架构,说明中国企业在基础研究上有突破了。17岁的小孩能跟国际顶尖团队无缝合作,这也多亏了开源社区和社交媒体打破了人才流动的壁垒。这种新的成长模式为全球AI人才培养提供了新思路:年轻研究者能早点接触前沿课题,在实战中实现从学习到创造的跨越。