现在人工智能技术发展这么快,大家伙儿都在追求大模型,可这训练起来毛病也不少。以前的方法在模型变大后老是不稳定,还特别费资源,让人头疼。不过这事儿最近有新动向,“流形约束超连接”这门技术把老毛病给治好了。 这是深度求索公司牵头搞出来的,团队里解振达、韦毅轩还有曹焕奇都有份。创始人梁文锋也在里面帮忙。他们说以前那种乱接乱连的超连接虽然速度快了,可把“恒等映射”这一本来好好的属性给搞坏了,导致梯度乱跑,模型学不明白。 为了找回这个特性,团队就想了个绝招:把超连接的空间给投影到一个特定的流形上。这样一来就稳当了,还顺带把内存开销也给降下来了。 实验数据挺漂亮,新架构在大任务上跑得飞快,性能也提升了一大截。这说明咱们不能光盯着跑得快,还得要稳。最近不管是做自动驾驶还是做科研计算的,都特别看重这个。 分析人士都说这事儿有大意义。技术上让训练更省心省力;产业上帮咱们省成本;科研上也为拓扑设计开辟了新路。 往后看算力需求只会越来越大,这种架构创新肯定是刚需。现在咱们搞出这么个架构,就像给未来的智能系统打好了底子,以后在自动驾驶、科学计算这些领域肯定能大展身手。 以前那种只靠堆规模的路子已经走不通了。这就是咱们国家科研团队在底层架构上干出的活儿。只有把核心技术抓在手里,咱们才能在全球竞争中站得住脚。 等以后更多基础性的突破出来了,智能技术肯定能在各行各业放光发热,让各行各业都升级换代。