NVIDIA推出实时文生3D AI模型“LATTE3D”
日前,NVIDIA的AI研究团队在GTC活动中宣布推出一种新的AI生成模型“LATTE3D”。
该模型被称作“虚拟的3D打印机”,可以在一秒钟内将文本提示转换为“可用于标准渲染应用程序流行格式”的3D模型,并随时部署在视频游戏开发、广告、设计项目以及包括VR/AR在内的任何需要虚拟环境的应用程序中。
LATTE3D会根据文本提示为创建者提供不同的3D模型选项,选定的对象可以在几分钟内进行优化,以实现更高的3D模型质量。用户可以将优化后的模型导出到诸如NVIDIA Omniverse等的图形软件应用程序或平台中,从而实现基于通用场景描述的3D工作流程和应用程序。
据NVIDIA介绍,LATTE3D使用NVIDIA A100 Tensor Core GPU进行训练,并在该公司的演示中实现了在单个NVIDIA RTX A6000上运行。这意味着LATTE3D在单个GPU上运行推理时几乎可以实时生成3D模型。
英伟达人工智能研究副总裁Sanja Fidler对此表示:“一年前,人工智能模型需要一个小时才能生成LATTE3D质量的3D视觉效果,而目前这一水平已经被提升到了10-12秒。通过LATTE3D,我们可以让各行各业的创作者实现近乎实时的文本到3D生成。”
训练数据方面,除了3D形状之外,LATTE3D还对使用 ChatGPT生成的各种文本提示进行了训练,以提高模型处理用户可能想出的各种描述特定3D对象的prompt的能力,例如输入不同犬科物种的提示都可以生成对应犬类品种的外形。虽然研究人员目前仅在两个特定的数据集(动物和日常物品)上训练LATTE3D,但未来或许可以使用相同的模型架构添加更多训练数据类别。
作为一个研究项目,LATTE3D目前仍处在开发阶段,根据NVIDIA的说法,该项目不局限于3D模型,未来或许还将扩展到“文本生成4D”或“3D动画生成”领域。