时刻

使用AI来压缩音频文件

使用AI来压缩音频文件

压缩是当今互联网的一个重要组成部分,因为它使人们能够轻松地分享高质量的照片,聆听音频信息,流式传输他们最喜欢的节目,以及更多。即使使用今天最先进的技术,享受这些丰富的多媒体体验也需要快速的互联网连接和大量的存储空间。为了使当前和未来的体验–如元空间–能够为每个人提供高质量、不间断的体验,压缩技术将需要克服这些限制。

MetaAI 详细介绍了基础人工智能研究(FAIR)团队在人工智能驱动的音频超压缩领域取得的进展。想象一下,在一个连通性低的地区听朋友的音频信息,而不会出现停滞或故障的情况。研究表明,可以利用人工智能来帮助实现这一目标。MetaAI建立了一个由三部分组成的系统,并对其进行端对端训练,以将音频数据压缩到我们的目标大小。然后,这些数据可以使用神经网络进行解码。与64kbps的MP3相比,MetaAI 研究团队实现了大约10倍的压缩率,而且没有质量上的损失。虽然这种技术以前已经在语音方面进行过探索,但MetaAI 研究团队是第一个使其适用于48千赫兹采样的立体声音频(即CD质量),这是音乐传播的标准。MetaAI 研究团队将在一篇研究论文中分享更多的细节,以及代码和样本,作为对开放科学承诺的一部分。

新方法可以实时压缩和解压音频,达到最先进的大小缩减。还有更多的工作要做,但最终它可以带来一些改进,比如在恶劣的网络条件下支持更快、更高质量的通话,以及在不需要大幅提高带宽的情况下提供丰富的元体验。
虽然MetaAI 研究团队的技术还没有涵盖视频,但这是一个正在进行的倡议的开始,其目标是可以改善视频会议、流媒体电影和在VR中与朋友玩游戏等体验。

编解码器,作为数据流的编码器和解码器,帮助人们目前在网上使用的大多数音频压缩的动力。一些常用的编解码器的例子包括MP3、Opus和EVS。像这样的经典编解码器在不同的频率之间对信号进行分解,并尽可能有效地进行编码。大多数经典的编解码器利用了人类的听觉知识(心理声学),但有一套有限的或给定的手工方法来有效地编码和解码文件。MetaAI 研究团队可能已经接近手工制作所能给予我们的极限,这就是为什么探索新技术很重要。


为了突破可能的界限,需要人工智能来帮助。MetaAI 研究团队创建了Encodec,这是一个神经网络,经过端到端的训练,可以重建输入信号。它由三个部分组成。

  • 编码器,它接收未压缩的数据并将其转换为更高维度和更低帧率的表示。
  • 量化器,将这个表示方法压缩到目标尺寸。对量化器进行训练,使其提供想要的大小(或一组大小),同时保留最重要的信息来重建原始信号。这种压缩后的表述就是我们存储在磁盘上或通过网络发送的内容。这就相当于你电脑上的.mp3文件。
  • 解码器是最后一步。它将压缩后的信号转变成与原始信号尽可能相似的波形。有损压缩的关键是识别人类无法察觉的变化,因为在低比特率下不可能实现完美的重建。为此,MetaAI 研究团队使用鉴别器来提高生成样本的感知质量。这就形成了一个猫捉老鼠的游戏,鉴别器的工作就是区分真实样本和重建样本。压缩模型试图通过推动重建的样本与原始样本在感知上更加相似来生成样本以欺骗鉴别器。

在低比特率语音音频压缩方面取得了最先进的成果(1.5 kbps至12 kbps),这是由人类注释者评估的,他们将几种压缩方法,包括谷歌最新的编解码器Lyra-v2,与未压缩的方法进行比较,并对它们进行相应的排名。在所有的带宽和质量水平上,MetaAI 研究团队的模型在单个CPU核心上对音频进行实时编码和解码。我们看到许多领域,我们可以在未来继续建立和改进这项研究。我们相信我们可以达到更小的文件尺寸,因为还没有达到量化技术的极限。在应用研究方面,在计算能力和压缩音频的大小之间的权衡方面还有更多的工作可以做。专用芯片,如已经在手机和笔记本电脑上的芯片,可以在未来得到改进,以帮助压缩和解压文件,同时消耗更少的功率。

MetaAI 投资并分享像这样的基础人工智能研究,以便更广泛的社区可以从这些进步中学习并在此基础上发展。这项研究可以为世界各地的人们带来更丰富、更快速的在线体验,无论他们的互联网连接速度如何。


为了帮助达到这个目标,还需要做更多的研究。希望继续探索如何在不显著降低质量的情况下将音频压缩到更小的文件尺寸。还计划探索空间音频压缩,这将需要一种能够压缩多个音频通道同时保持准确空间信息的技术。这些经验可能对未来的元数据体验很有用。Meta也在探索使用人工智能来压缩音频和视频的技术,我们希望在未来能分享更多关于这项工作的信息。

分享此文章