IT之家新闻 3 月 17 日报道,科技媒体 9to5Mac 昨天(3 月 16 日)发表博文,苹果 AI 研究团队发表了一份研究报告,攻克了 3D 重建领域的核心问题。这个想法是可以从单个平面图像重建完整的 3D 对象。该专利描述了一种名为LiTo(表面光场标记化)的先进模型,它打破了需要从多个角度输入图像的传统方法的限制。即使在重建 3D 物体并且用户在不同视角之间切换后,模型产生的光影效果(例如反射和高光)也可以与物理现实保持高度一致。这一进步的核心是创新“潜在空间”的应用。在机器学习中,潜在空间允许将信息压缩成多维数学向量,从而显着降低com推定成本。 LiTo 模型开创了统一的 3D 潜在表示,将随机采样的表面光场数据编码为一组紧凑的向量。这意味着该模型不需要记住每个视觉细节,而是使用数学描述来同时捕获物体的物理形态以及光与其表面相互作用的基本定律。就其具体工作机制而言,LiTo编码器负责“压缩信息”,将输入图像中的几何结构和透视相关的外观特征转换为潜在空间中的简化代码。然后解码器执行“解压缩”并使用这些底层代码来完全恢复 3D 对象。这种双向机制可以让模型在复杂的光照条件下准确地再现高级光照和阴影效果,例如镜面高光和菲涅尔反射。为了建立这个模型,苹果研究人员使用在 150 个不同视角和三种照明条件下渲染的数千个 3D 对象进行了强化训练。该系统不断提取小部分数据样本,以在不同的照明和视角下重建整个物体。训练解码器:最终,模型获得了预测单个图像的底层三维表示的能力。在苹果官方发布的基准测试中,LiTo 在多显示器高光和阴影恢复方面明显优于现有的 TRELLIS 模型。 IT主页附参考地址
特别提示:以上内容(包括图片和视频,如有)为cArgan,由自有媒体平台“网易账号”用户发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。