联想全球超算峰会:人工智能和高性能计算的结合

2017年联想全球超算峰会直接抛出了“智能超算”这个词,听着有点高深莫测,让人摸不着头脑。你可能会想,这到底是AI靠着HPC的力气往上爬,还是HPC靠着AI的本事续命呢?不过仔细想想,说白了就是要把人工智能和高性能计算这两个领域结合起来。如果你把“智能”拆开看,是人工智能;把“超算”拆开看,是高性能计算。两者结合,其实就是强强联手的意思。 不过现场观众心里还是有些动摇,因为这个峰会有句话说动了他们的心:“心动不如行动,企业数据创新,超算平台是基础设施。” 我们先抛开那些概念,直接看看AI到底给我们带来了什么。AlphaGO一出马就把人类棋手打趴下了。看似是靠着“深度卷积网络加蒙特卡洛树搜索”的炫酷技术,但实际上背后藏着两种并行算法:一种是离线训练,用深度卷积网络来做策略网络,增强学习调参;另一种是在线对弈,用价值网络加蒙特卡洛树搜索来秒判胜负概率。 AlphaGO的成功让人发现了一些端倪:TensorFlow、Caffe、Torch、Theano、MXNet这些公开的框架已经有二十多种了。算法才是最核心的东西,谁更适合你的数据特性呢?算法、机器学习和业务场景串成一条线后,才能真正把企业级应用给推上去。换句话说,算法只是一把钥匙,HPC才是钥匙孔;如果没有后者作为支撑平台,前者再亮也插不上电。 联想数据中心集团的HPC方案总监还给出了一份成绩单。他们推出了深腾8810这个“积木式”超算平台:CPU、GPU和FPGA三种节点组合在一起,计算密度翻了一番;存储方面提供了DSS集中式存储和分布式软件定义存储两种选择;管理方面也升级了LiCO 3.1.1系统,可以方便地管理一千多个节点。 深腾8810还提供了弹性伸缩功能,从2U最小单元起步可以自由叠加到4U或8U。LiCO还把AI框架深度集成进去了,创建、提交、监控和验证这一系列流程都图形化处理了。联想在这个时候也特别强调科研合作的重要性,在美国莫里斯维尔、德国斯图加特还有北京三地都设立了AI创新中心。 很多人一直盯着Top500榜单看排名高低。不过业内人士早就吐槽过:理想化的Linpack测试数据分布跟真实业务场景差距太大了。人工智能的出现给HPC提供了“救场”的机会:深度学习把计算能力发挥到了极致。 大数据和HPC结合起来需求高度重叠:需要强大的计算能力来处理GPU和FPGA;需要PB级的存储能力来支持数据处理;还有DSS集中式或分布式软件定义存储都要兼容。总之就是要做到“算力+存储”双轮驱动。 把企业级AI成功落地归结为四个要素:行业理解、算法选型、数据治理还有计算与系统支撑。这几个要素里最重要的还是行业理解与算法选型。 联想最擅长的就是做计算和系统支撑这块工作。当HPC与AI深度耦合之后,研究人员就可以专注于行业洞察和算法创新了。 智能超算把这些复杂的东西都给我们准备好了,就等着我们去利用这些能力来实现企业的数字化转型了。