时刻

用声音来给现实场景进行建模

用声音来给现实场景进行建模

想象一下,一架管风琴发出的轰鸣声在一座巨大的石头大教堂的空旷的圣殿中回荡。

大教堂的听众所听到的声音受到许多因素的影响,包括管风琴的位置、听众所站的位置、他们之间是否有柱子、马车或其他障碍物、墙壁的材质、窗户或门洞的位置等等。听到声音可以帮助人们设想他们的环境。

麻省理工学院和麻省理工学院-IBM沃森人工智能实验室的研究人员也在探索使用空间声学信息来帮助机器更好地设想它们的环境。他们开发了一种机器学习模型,可以捕捉到房间里的任何声音将如何在空间中传播,使该模型能够模拟出听众在不同位置听到的声音。
通过准确地对场景的声学建模,该系统可以从声音记录中学习房间的基本三维几何。研究人员可以利用他们的系统捕捉到的声学信息来建立房间的精确视觉效果,类似于人类在估计其物理环境的属性时使用声音。

除了在虚拟和增强现实中的潜在应用外,这项技术还可以帮助人工智能代理开发出对其周围世界的更好理解。例如,电子工程和计算机科学系(EECS)的研究生、描述该模型的论文的共同作者杜一伦说,通过对其环境中的声音属性进行建模,一个水下探索机器人可以感知到比单靠视觉更远的东西。

“到目前为止,大多数研究人员只关注视觉的建模。但作为人类,我们有多模态的感知。不仅视觉重要,声音也很重要。我认为这项工作开辟了一个令人兴奋的研究方向,即更好地利用声音来模拟世界,”杜说。

与Du一起撰写论文的还有第一作者、卡内基梅隆大学(CMU)的研究生Andrew Luo;CMU认知和脑科学的Kavčić-Moura教授Michael J. Tarr;以及资深作者Joshua B.Tenenbaum,麻省理工学院脑与认知科学系教授,计算机科学与人工智能实验室(CSAIL)成员;Antonio Torralba,Delta电子公司电子工程与计算机科学教授,CSAIL成员;以及Chuang Gan,麻省理工学院-IBM Watson人工智能实验室的主要研究人员。该研究将在神经信息处理系统会议上发表。

在计算机视觉研究中,一种被称为隐性神经表征模型的机器学习模型已被用于从图像中生成平滑、连续的三维场景重建。这些模型利用神经网络,其中包含多层相互连接的节点或神经元,它们处理数据以完成一项任务。

麻省理工学院的研究人员采用了相同类型的模型来捕捉声音如何在场景中连续传播。
但他们发现,视觉模型得益于一种被称为光度一致性的特性,而这种特性并不适用于声音。如果人们从两个不同的位置看同一个物体,这个物体看起来大致相同。但对于声音来说,改变位置,听到的声音可能由于障碍物、距离等原因而完全不同。这使得预测音频非常困难。

研究人员通过将声学的两个特性纳入他们的模型来克服这个问题:声音的互易性和局部几何特征的影响。

声音是对等的,这意味着如果声源和听众互换位置,听众听到的东西是不变的。此外,一个人在一个特定区域听到的声音会受到当地特征的严重影响,例如听者和声源之间的障碍物。

为了将这两个因素纳入他们的模型(称为神经声场(NAF)),他们用一个捕捉场景中的物体和建筑特征(如门洞或墙壁)的网格来增强神经网络。该模型在该网格上随机取样,以学习特定位置的特征。

“如果你想象自己站在一个门口附近,对你听到的东西影响最大的是那个门口的存在,而不一定是房间另一边离你很远的几何特征。我们发现这种信息比简单的全连接网络能够实现更好的概括,”Luo说。

研究人员可以向NAF提供有关场景的视觉信息和一些频谱图,显示当发射者和听者位于房间周围的目标位置时,一段音频会是什么样子。然后,该模型预测如果听者移动到场景中的任何一点,该音频会是什么声音。

NAF输出一个脉冲响应,它捕捉到声音在场景中传播时应该如何变化。然后,研究人员将这个脉冲响应应用于不同的声音,听出当一个人走过一个房间时这些声音应该如何变化。

例如,如果房间中央的扬声器正在播放一首歌,他们的模型将显示当一个人接近扬声器时,声音如何变大,然后当他们走到相邻的走廊时,声音变得很低沉。
当研究人员将他们的技术与其他建立声学信息模型的方法进行比较时,它在每一种情况下都产生了更准确的声音模型。而且,由于它学习了局部的几何信息,他们的模型能够比其他方法更好地推广到场景中的新位置。

此外,他们发现将他们的模型学到的声音信息应用于计算机视觉模型可以导致更好的场景视觉重建。

“当你只有一组稀疏的视图时,使用这些声学特征能使你更清晰地捕捉到边界,例如。而这也许是因为要准确地渲染一个场景的声学,你必须捕捉到该场景的基本三维几何,”Du说。

研究人员计划继续加强该模型,使其能够适用于全新的场景。他们还希望将这种技术应用于更复杂的脉冲响应和更大的场景,如整个建筑物甚至一个城镇或城市。
“这项新技术可能会开辟新的机会,以在元数据应用中创造多模式的沉浸式体验,”Gan补充说。

“我的小组在使用机器学习方法来加速声学模拟或对真实世界场景的声学建模方面做了很多工作。庄甘和他的合著者的这篇论文显然是朝着这个方向迈出的重要一步,”马里兰大学计算机科学和电气与计算机工程系的保罗-克里斯曼-伊里伯教授迪内希-马诺查说,他没有参与这项工作。”特别是,这篇论文引入了一个很好的隐式表示,可以通过使用线性时间不变系统建模来捕捉声音如何在真实世界的场景中传播。这项工作可以在AR/VR以及现实世界的场景理解方面有许多应用。”
这项工作得到了麻省理工学院-IBM沃森人工智能实验室以及陈天桥和Chrissy Chen研究所的部分支持。

分享此文章