最近苹果人工智能研究团队给咱们带来了个好消息,他们弄出了个叫LiTo的大模型。这个家伙厉害得很,直接就把3D生成领域里那个卡了很久的“画饼”给补上了。咱以前要是想搞个逼真的3D模型,必须得先拍好多张照片,那过程麻烦死了。可LiTo不一样,它就给咱一张图就能搞定。这就像魔法一样,把一张二维的照片变成了带有真实光影效果的立体物件。 团队给这个模型弄了个统一的3D潜在表示体系,把那些复杂的光线数据全都浓缩成了几个小向量。这样一来,不管是物体的形状还是材质反射怎么变,系统都能兼顾得到。大家知道,三维建模最让人头疼的就是多视角下的光影问题,那感觉就像是一个物体在各个角度看起来完全不一样。 好在LiTo用了双向编码器-解码器的架构。它左边的编码器负责从图片里抠出物体的三维特征;右边的解码器再把这些特征倒腾回去。结果怎么样?你就能看到那个立体模型上有镜面反射、菲涅尔效应这些高级光学现象。 为了训练这个模型,研究人员准备了好几百个不同物体的扫描数据。实验结果表明,LiTo在摄像机坐标系对齐这块儿做得相当出色,大大解决了以前物体方向老是出错的老毛病。在多视角光影一致性这块儿打分,它的成绩可比现在最好的TRELLIS模型高出了37%。 这下可好了,以后搞三维内容创作就简单多了。这种高质量的3D模型特别适合用在增强现实设备上,能让虚拟场景变得更真实、更带感。团队也说了,以后这技术肯定还能扩展到更多需要三维重建的地方去。