英语轻松读发新版了,欢迎下载、更新

通过生成AI将3D购物产品带到网上

2025-05-12 18:22:49 英文原文

每天,数十亿人在线购物,希望复制店内购物的最佳部分。看到吸引您的眼睛,捡起它并自己检查的东西可能是我们与产品联系的关键部分。但是,捕捉商店体验的直观,动手性的性质是细微的,在屏幕上复制可能具有挑战性。我们知道,技术可以帮助弥合差距,并快速滚动将关键细节带到您的指尖。但是,这些在线工具可能会付出高昂的代价且耗时,供企业大规模创建。

为了解决这个问题,我们开发了新的生成AI技术,以创建高质量和可购物的3D产品可视化,从三个产品图像。今天,我们很高兴分享由Google最先进的视频生成模型提供支持的最新进步,VEO。这项技术已经使Google购物的广泛产品类别的交互式3D视图产生

播放无声循环视频 暂停无声循环视频

从照片产生的3D产品可视化的示例。

第一代:神经辐射场(NERFS)

2022年,来自Google各地的研究人员聚集在一起开发技术,以使产品可视化更加沉浸式。最初的努力集中在使用神经辐射场(NERF)要从产品的五个或更多图像中学习3D代表以呈现新的视图(即360°旋转),例如360°旋转。这需要解决许多子问题,包括选择最有用的图像,删除不必要的背景,预测3D先验,从一组稀疏的以对象为中心的图像组中估算摄像头位置,并优化产品的3D表示。

同年,我们宣布这一突破并在Google搜索中推出了第一个里程碑,互动360°鞋的可视化。虽然这项技术很有希望,但它却遭受了嘈杂的输入信号(例如,相机不准确的姿势)和稀疏输入视图的歧义。当尝试重建凉鞋和高跟鞋时,这一挑战变得显而易见,它们的薄结构和更复杂的几何形状很难从少数图像中重建。

这使我们想知道:生成扩散模型的最新进步是否可以帮助我们改善学习的3D表示?

第二代:使用视图的扩散进行缩放先验

在2023年,我们引入了第二代方法,该方法在解决了第一种方法的局限性之前使用了视图条件的扩散。存在视图条件意味着您可以给它鞋顶的图像并询问模型这双鞋的前部是什么样的?这样,我们可以使用视图条件扩散模型从任何角度来看,即使我们只有有限观点的照片,也可以帮助预测鞋子的外观。在实践中,我们采用了

得分蒸馏采样(SD),首先提出梦想在训练过程中,我们从随机的摄像头视图中渲染3D模型。然后,我们使用视图条件的扩散模型和可用的图像来从同一相机视图中生成目标。最后,我们通过比较渲染图像和生成的目标来计算得分。该分数直接告知优化过程,完善3D模型的参数并增强其质量和现实主义。

这种第二代方法导致了显着的扩展优势,使我们能够为每天在Google购物上观看的许多鞋子生成3D表示。今天,当您在Google上购物时,您可以找到用于凉鞋,高跟鞋,靴子和其他鞋类类别的交互式360°可视化,其中大多数是由该技术创建的!

第三代:概括为veo

我们的最新突破基于VEO,Google的最先进的视频生成。VEO的关键优势在于它产生视频,以捕获光,材料,纹理和几何形状之间的复杂相互作用。其强大的基于扩散的体系结构及其在各种多模式任务上的填充能力使其能够在新型视图合成中表现出色。

为了将产品图像转换为一致的360°视频,我们首先策划了数百万个高质量的3D合成资产的数据集。然后,我们从各种相机角度和照明条件下渲染了3D资产。最后,我们创建了一个配对的图像和视频的数据集,并监督的VEO生成了360°旋转,该°旋转以一个或多个图像为条件。

我们发现,这种方法在各种产品类别中有效地概括了,包括家具,服装,电子产品等。VEO不仅能够产生符合可用产品图像的新颖视图,而且还能够捕获复杂的照明和材料相互作用(即闪亮的表面),这对于第一代和第二代方法都充满挑战。

此外,这种第三代方法避免了需要估算以稀疏为中心的对象产品图像的精确摄像头的需要,从而简化了问题并提高了可靠性。微调的VEO方法具有强大的功能 - 一个图像,您可以生成对象的现实3D表示。但是,像任何生成的3D技术一样,VEO将需要从看不见的视图中幻觉细节,例如,当只有前面的视图可用时,对象的背面。随着输入图像的数量增加,Veo产生高忠诚和高质量新颖观点的能力也随之增加。实际上,我们发现只有三张图像捕获大多数对象表面的图像就足以提高3D图像的质量并减少幻觉。

结论和未来前景

在过去的几年中,从NERF到视图条件扩散模型,现在是VEO,在3D生成AI中取得了巨大进展。每种技术在使在线购物感觉更加切实和互动方面都起着关键作用。展望未来,我们很高兴能继续在这个领域开展界限,并帮助在线购物越来越令人愉悦,信息丰富且吸引我们的用户。

致谢

Philipp Henzler,Matthew Burruss,Matthew Levine,Laurie Zhang,Ke Yu,Chung-Yi Weng,Jason Y. Zhang,Changchang Wu,Ira Kemelmacher-Shlizerman,Carlos Shlizerman,Carlos Hernandez,Keunhong Park,Keunhong Park,Keunhong Park和RiCardoArla Martin-Bruullala使这项工作成为可能。我们感谢Aleksander Holynski,Ben Poole,Jon Barron,Pratul Srinivasan,Howard Zhou,Federico Tombari等,以及Google Labs,Google Deepmind和Google Shopping的更多信息。

关于《通过生成AI将3D购物产品带到网上》的评论


暂无评论

发表评论

摘要

Google开发了新的生成AI技术,以创建高质量的3D产品可视化,用于在线购物,使用每种产品的三张图像。最新的进步使用了Google最新的视频生成模型VEO,它使在Google购物上的各种产品类别中创建了Interactive 3D视图。该技术通过生成可改善在线购物体验的现实和详细的3D表示来克服以前的限制,从而使用户更加明显和吸引人。