75年前,当第一张即时照片用宝丽来相机拍摄时,它以逼真的二维图像快速捕捉三维世界,具有划时代的意义。今天,人工智能研究人员正在进行相反的工作:在几秒钟内将静止图像的集合变成数字3D场景。
这一过程被称为逆向渲染,它利用人工智能来逼近光线在现实世界中的行为方式,使研究人员能够通过从不同角度拍摄的少量2D图像来重建3D场景。英伟达研究团队开发了一种几乎可以瞬间完成这一任务的方法—使其成为首批将超快的神经网络训练和快速渲染相结合的模型之一。
英伟达将这种方法应用于一种叫做神经辐射场(NeRF)的流行新技术。其结果被称为Instant NeRF,是迄今为止最快的NeRF技术,在某些情况下实现了超过1,000倍的速度提升。该模型只需要几秒钟就能对几十张静止的照片进行训练—再加上它们的拍摄角度的数据—然后可以在几十毫秒内渲染出结果的3D场景。
“英伟达负责图形研究的副总裁David Luebke说:”如果像多边形网格这样的传统3D表现形式类似于矢量图像,那么NeRFs就像位图图像:它们密集地捕捉光线从一个物体或场景中辐射出来的方式。”从这个意义上说,Instant NeRF对3D的重要性不亚于数码相机和JPEG压缩对2D摄影的重要性—极大地提高了3D捕捉和分享的速度、便利性和范围。
在本周NVIDIA GTC的一次会议上,Instant NeRF可用于为虚拟世界创建头像或场景,以3D方式捕捉视频会议参与者及其环境,或者为3D数字地图重建场景。
为了向宝丽来图像的早期时代致敬,英伟达研究院重现了安迪-沃霍尔拍摄即时照片的标志性照片,利用Instant NeRF将其变成了一个3D场景。
什么是NeRF?
NeRFs使用神经网络来表示和渲染基于输入的二维图像集合的逼真三维场景。
收集数据为NeRF提供信息有点像红地毯上的摄影师,试图从各个角度捕捉名人的服饰—神经网络需要从场景周围的多个位置拍摄几十张图像,以及这些镜头的每个位置。
在一个包括人或其他移动元素的场景中,这些镜头捕捉得越快越好。如果在二维图像捕捉过程中有太多的运动,人工智能生成的三维场景将是模糊的。
从那里,NeRF基本上填补了空白,训练一个小型神经网络,通过预测从三维空间中任何一点向任何方向辐射的光线的颜色来重建场景。该技术甚至可以绕过遮挡物—当某些图像中的物体被其他图像中的柱子等障碍物挡住时。
用即时NeRF加速1,000倍
虽然根据局部视图估计物体的深度和外观对人类来说是一种自然技能,但对人工智能来说却是一项高难度的任务。
根据可视化的复杂性和分辨率,用传统方法创建一个3D场景需要几个小时甚至更长时间。将人工智能引入画面会加快事情的进展。早期的NeRF模型在几分钟内就能呈现出没有伪影的清晰场景,但仍然需要几个小时的训练。
然而,Instant NeRF可以将渲染时间缩短几个数量级。它依赖于英伟达公司开发的一种名为多分辨率哈希网格编码的技术,该技术经过优化,可在英伟达GPU上高效运行。利用一种新的输入编码方法,研究人员可以利用一个快速运行的微小神经网络实现高质量的结果。
该模型是使用NVIDIA CUDA工具包库开发的。由于它是一个轻量级的神经网络,它可以在单个英伟达GPU上进行训练和运行–在带有英伟达张量核心的卡上运行最快。
该技术可用于训练机器人和自动驾驶汽车,通过捕捉现实世界物体的二维图像或视频片段来了解它们的大小和形状。它还可用于建筑和娱乐业,快速生成真实环境的数字代表,创作者可以在此基础上进行修改和构建。
除了NeRFs之外,英伟达的研究人员还在探索如何利用这种输入编码技术来加速多种人工智能挑战,包括强化学习、语言翻译和通用的深度学习算法。
要想听到更多关于英伟达最新研究的信息,请观看下面的首席执行官黄仁勋在GTC上的主题演讲回放