作者 |王朝阳邮箱 | wangzhaoyang@pingwest.com1 2023年对于人工智能行业融资来说将是艰难的一年。诞生于上海科技大学MARS实验室的影眼科技,也面临着自身的危机。这家公司的两位创始人吴迪和张启轩,一个刚毕业,另一个还是研究生。已经谈判并完成SPA交易的主要投资机构在签署前几周暂时撤回了投资,理由是当时对投资机构的地缘政治影响。当时英墨的账户里只有八个月的资金。解决方案就在那里,甚至是显而易见的。他的第一个商业项目“圆顶光场”是一个巨大的、难以察觉的球形扫描仪,装饰着公司的办公室,是一项持续不断的、需求旺盛的服务。扫描 AAA 电影和游戏公司的肖像,每年都会产生可观的收入。没有什么w忍受这样的生活是错误的。不过,团队认为,Yuanverse的概念市场正在萎缩,导致其基于项目的服务难以扩展。而且更重要的是,这并不是公司最想做的事情。公司成立时,并不清楚具体要做什么,但年轻的创始团队的大目标是让每个人都可以使用 3D,例如创建一个家庭工作室。从映木的角度来看,显然普通用户大多只是所谓元宇宙中的旁观者,但他们想要的是让每个人都成为创造者,这最终需要3D生成和更根本的创新。虽然由于大型模型的发展,基于人工智能的 3D 变得越来越流行,但潜在的技术创新指向全新的模型。恩恩做出了一个神奇的决定。在公司弹药和食物告罄的危机中,创始团队决定冒险训练一个原生 3D 模型,这是无人能及的。d 当时建造的。他们的可用资源有限,只有足够的时间来选择路径。这基本上是一个培训机会。如果你成功了,你就会成功哈哈哈。如果失败了(无法训练),基本上就没有第二次机会了。要么做大,要么回家。然后罗丹的训练开始了。 2 这个模型在当时是一个非典型案例。当时3D生成的主流是首先使用“苯图”模型生成各个角度的图像,然后将3D模型合成为“2D更高维度”。英母的同伴几乎都选择了这条路。然而事实上,在 2D 成像普及之前,campo 3D 中最初的主流是 3D 数据的原生训练路径。然而,2D技术突然变得过于强大,“2D的高维化”成为热门话题。影眼诞生于上海科技大学。 2020年,吴迪还是研究生一年级的学生,张秋轩还是三年级的学生。两人他们在学生时代就一起创业了。吴迪是上海科技大学的第一届学生之一。这所年轻的大学具有一定的实验性质,为学生提供了独特的空间。作为学生会主席,伍迪将能够直接向学校行政部门汇报、申请经费并参与实验室的创建。张秋轩不能旷课。他到处参加比赛,并就读于 MARS(复合区)作为本科生。人工现实(研究)的特殊实验室。就这样我认识了吴迪。这些计算机科学专业的学生还对 Blender 等 3D 软件和 3D 技术感兴趣。当时,吴迪和张启轩在学校的主要项目是巨型“穹顶光场”。它不是依靠简单的相机阵列从多个角度拍摄照片,而是依靠“光度立体测量”来收集超精细的皮肤数据。其细节远远超出传统方法,在 0.1 秒内将 20 到 30 种不同的照明图案投射到扫描对象上,计算面部细微的法线信息,并引入“偏振”光来隔离突出显示的材料。 2020年公司成立后,我们开始探索各种可能性。根据当时实验室发表的SoftGAN文章,目前我做了一个代表真人的画板产品,但同时一开始没有任何反应。之后,我们一次性更改所有2D数据,创建AI画板WAND APP。该应用程序随后一炮而红,迅速占据中国和日本应用程序商店图形和设计部分的第一名,并在两周内获得了超过 160 万用户。 @taptap 发现了一款出色的游戏,这为他带来了第一波融资。此前,创造奇迹的陆奇参观了学校,看到了穹顶,并鼓励其志申请。 ap当天晚上11点p走红后,我接到了奇绩人的紧急电话,让我立即报名。然而,他们很快就“放弃”了该产品。 WAND是一款与后来的Midjourney非常相似的产品。但当时他们并不了解商业模式。他们更不感兴趣的是这个产品背后的技术:GAN。当时,GAN(生成对抗网络)是主流。他们通过让两个网络(生成器和鉴别器)相互对抗来“伪装”图像,但很快就遇到了多样性和可控性瓶颈。影眼团队当时没有预见到的是,另一种技术路线——扩散(扩散模型)即将爆发。扩散模型,例如稳定扩散,通过“噪声去除”过程逐渐生成图像,提供前所未有的图像质量和“跟随词”文本控制能力。这是AIGC后续浪潮的关键。但当时 GAN 限制了ople对于图像生成技术的想象力。所以收到钱后,他们变得“更加叛逆”。他们向路奇请教,路奇回答说:“你要集中精力,做你最想做的事。”张秋轩的理解如下。 “你只能做一件事。”即使在 WAND 项目被取消后,他们仍然继续专注于“更广泛、更通用的 3D”。 2021 年末,我们创建了 ChatAvatar,这是一款使用文本描述生成 3D 图像的产品。同样,寻找真实而不是美丽。这就解决了“几十万”的扫描费与廉价的“30元”字符之间的巨大差距。此次诉讼也是英墨向人工智能产品迈出的重要一步。 3. 穹顶光场、WAND、ChatAvatar,这些技术和产品开发经验终于在罗丹模型中汇聚在一起。新模型最终将于2024年3月进行内部演示。培训取得了成功。时间Rodin 模型首次展示了原生 3D 根的强大效果。这种独特的框架被称为Clay,旨在完全避免“传统陷阱”。采用分馏采样方法来制作二维模型。充当 3D 生成过程的“大师”。首先将3D数据转化为各方面的2D数据并传递给2D模型进行评分,然后将蒸馏后的反馈评估最终调整为3D资产并训练生成3D文本的能力。然而,很明显,这种方法不仅计算量大、速度慢,而且生成的 3D 模型由于 2D 透视不匹配而具有 g.chaotic 几何形状和粗糙表面,无法在实际生产中使用。英墨的承诺是“原生3D”。这意味着该模型直接使用 3D 数据进行训练并直接生成 3D 模型。显然这是一条更困难的路线,但理论上要好得多。他们需要利用现有的工作并设计出更优雅的架构。首先是数据表示。他们研究选择了“Vecset”(3DShape2VecSet:3D Shape Representation for Neural Fields and Generative Diffusion Models)方法。他们认为现有的工作是潜在空间中 3D 数据的最佳表示。这就像一个“长条”的无序数据字符串,这对于 Transformer 架构来说是理想的。所以,在Sora普及DiT(Diffusion Transformer)架构之前,Shadow Eyes的Rodin就已经押注于DiT。 “当时我们称之为‘Transf’former with Diffusion’。然后我们意识到 DiT 有多受欢迎,所以我们在纸上坚持使用这个名字。”此外,团队还做了大量的工程工作。他们专门开发了一套“数据标准化”管道来“重建网络”(remesh)并整合来自不同来源的不同质量的数据,例如 ShapeNet 和 Objaverse。虽然这是重要的一步,但第一种方法需要手动注释,这可能是限制效率的一个主要问题。然而,这个时代出现了GPT-4V,可以用模型来完成注释。切割速度再次增加一倍。最后,技术细节总结在题为《CLAY: A Large-Scale Controllable Generative Model for Create High-Quality 3D Assets》的论文中,该论文被提名为 SIGGRAPH 2024 最佳论文,并成为 50 年来第一个入选 SIGGRAPH.Real-Time Live!”的中国团队。ResNet 之父何凯明教授将 CLAY 列为 MIT 深度生成建模课程推荐阅读(6.S978,MIT EECS,Fall 2024)当年,英墨计划在2024年中期发布全球首款原生3D生成大模型产品Hyper3D.AI Rodin,原生3D现已成为业界共识,与腾讯混元、Byte Seed3D等公司一起,走原生3D技术路线的Shadow Eye定义了一个可用性转折点。3D生成。 42024年,影眼将自己的技术成果带到了GDC(全球游戏开发者大会)的讲台上,并首次向罗丹展示。英模将罗丹的模型连接到这款拥有 5 亿用户的热门游戏的移动运行时,以促进 UGC 的创作。对于业界来说,这是一个重要信号。这意味着映目的AI模型不再是纯粹的“演示”工具,而是开始真正融入到实时运行、拥有大量用户的手游引擎中。玩家使用Hyper3D.AI Rodin生成游戏内内容“Production Ready”是樱木一直强调的目标。 3D 模型没有标准参考点。归根结底,客户会用他们的钱做出决定并投票。这种真正的产业协作是最重要的“门票”。目前,英墨的业务模式还专注于提供游戏、影视制作和通用工业设计。标志。普遍的注意力集中在专业模特场景上。 “3D生成自然是游戏公司外包的好业务,它是分工明确、产业化成熟的结果,所以独立的第三方服务商很有价值。”吴迪认为。 2024年,在完成Clay框架和Rodin模型的论证后,瀛木的融资步入正轨。 2025年以来,我们已连续完成两次大规模融资。上一轮由字节跳动、美团龙住联合领投,红杉资本、奇绩创坛跟投。 2025年8月,英墨再次由蓝池创投领投,与字节跳动合作,宣布完成新一轮数千万美元融资,随后e网、红杉种子基金等前股东跟投,该模式的成功至关重要,但今天还不是一切。当罗丹训练时,3D AI 生成的赛道也很快就填满了。与妈各路玩家陆续进入市场,竞争显然已经进入了一个层面。产品对于普通用户来说,Yingmo 的产品(Hyper3D.AI)是一组网络工具和插件的组合。最基本的体验和中途类似。输入文本或图像,3D 模型将在几秒或几分钟内生成。但从一开始,英木就想解决专业问题。该公司的产品提供了针对不同场景的“模型阵列”,包括“Speedy”(非常快的预览)、“Focal”(极其详细)、“Zero”(适合手机游戏的流体、低多边形模型)和Deualt(细节精度和表面平滑度之间的平衡)。英模的“Production Ready”意味着其产品可以真正融入工业工作流程。这一理念最直观的体现就是对产品细节的痴迷。虽然其他公司的插件可能是网页的“阉割版”,但 Yingmo 为 Blende 等 3D 软件设计的插件r 是“非常复杂”的浮动窗口。它就像YouTube的画中画一样,执行网站的所有功能,而不侵犯艺术家原有的工作界面。 “我们的一些核心创始人亲自使用Blender等3D软件来剪辑视频并进行渲染。”张启轩说,“所以我们知道这样做会遇到什么困难,也知道如何方便地使用。”另一个“杀手级”现代特征是 BANG。在游戏和工业设计中,“粘”在一起的AI模型就是链接,之后无法高效完成二次编辑。 Shadow Eye 的“Bang to Parts”功能允许您自动将复杂模型“分解”为多个可编辑部分。该功能的交互设计也体现了对工作流程的理解。张启轩解释说:“当你点击一块时,它首先会向你展示一个平面图(预览),它会告诉你:‘这可能就是你想要拆开它的方式。’”如果您对此不满意,请单击“运行”dom’改变计划。 “当你认为正确的时候,它就会‘砰’的一声爆炸。你还可以选择一个特定的部件进行拆卸,让它为这个部件生成一个拆卸后的蓝图……就像连锁反应一样。”这些“用户友好”的表面特征中的每一个都源于潜在的技术创新。 BANG 背后是一种独特的架构,称为“具有生成爆炸动力学的 3D 资产分割”。该研究成果发表在计算机图形学领先期刊ACM TOG上,并被SIGGRAPH 2025评为“十大技术论文”之一。该研究尝试解决AI模型只能查看而不能修改的问题。英墨也是业内第一个创建3D ControlNet的团队。这套控制技术并不是一个单一的文档,而是其核心生成框架的关键组成部分。 “可控性”的概念在CLAY文章中也得到了体现。正如 ControlNet 让 2D 绘画“自由”一样e、“机械图卡”变成了“点击图片搜索”,英墨的“3D ControlNet”让开发者可以通过从包围盒到盒子、体素甚至点云的一切来精确控制生成模型的形状和结构,这在专业生产领域是必不可少的。最近我们推出了“部分重做”功能,对不足的部分进行返工,使其完善。模型的整体控制力再次得到显着提升。关于什么是最受欢迎的。我们的研发完全基于民主,而不是为了寻求成功。因此,虽然我们看到文章的绝对数量肯定少于竞争对手,但在论文质量和奖项方面我们有优势。 ”吴迪说。“谷歌、meta和我们公司是今年唯一获得该领域SIGGRAPH最佳论文奖的商业公司。”由张启轩及其同事共同撰写的一种从单个 RGB 图像高质量重建 3D 场景的新方法 T,获得了 SIGGRAPH 2025 最佳论文奖。过去一年,罗丹Hyper3D.AI平台快速更新,平均每9天发布新功能,合作业务迅速扩张。 “要么做大,要么回家”的赌博没有失败,Shadow Eye和3D行业发生了变化。 “我们希望保持活力,在残酷的商界继续奋斗。”吴迪说。
特别说明:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。