代码编织梦想

论文翻译——Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped Environments with Moving

移动声音的复杂未映射环境中的视听导航
原文下载地址


摘要

视听导航结合视觉和听觉,在未映射的环境中导航到声音发射源。虽然最近的方法已经证明了音频输入对检测和找到目标的好处,但它们专注于干净和静态的声音源,并努力推广到闻所未闻的声音。在这项工作中,我们提出了一种新颖的动态视听导航基准,它需要在嘈杂和分散注意力的环境中捕捉移动的声源,这带来了一系列新的挑战。我们引入了一种强化学习方法,该方法学习针对这些复杂设置的鲁棒导航策略。为了实现这一点,我们提出了一种架构,该架构融合了空间特征空间中的视听信息,以学习局部地图和音频信号中固有的几何信息的相关性。我们证明,在两个具有挑战性的3D扫描现实世界环境(即Matterport3D和Replica)中,我们的方法在移动声音、未听声音和嘈杂环境的所有任务中都以大幅度优于当前最先进的技术。该基准可在http://dav-nav.cs.uni-freiburg.de.


一、介绍

人类能够非常有效地结合他们的听觉和视觉,以便在未知的环境中导航。尽管在这样的环境中导航一直是人工智能的一个重要焦点[1],[2],但现有的导航工作主要依赖于视觉和激光雷达等传感器,而忽略了人类使用的其他核心感官。声音是一种特别独特的形式,因为它可以在可见的墙壁和障碍物之外显示信息[3]。特别是,它为盲人提供了与视力正常人相当的空间导航能力[4]。

最近的工作已经证明了这种信号对于各种任务中的具体代理的价值。这包括视听导航,其中需要代理使用音频和视频信号导航到声音发射源的位置[5],[6],具有连贯的房间和声音语义的语义视听导航[7],主动感知任务,如主动视听源分离[8]和视听去混响[9],通过视听关联进行基于好奇心的探索[10],以及明确关注音频中包含的几何信息的任务,如视听平面图重建[11],[12]。

以导航为中心的方法表明,代理可以成功地从音频信号中提取信息。然而,他们主要关注的是干净和无干扰的音频设置,其中音频信号的唯一变化来自代理位置的变化。此外,他们还努力将其归纳为闻所未闻的声音[5],[13]。在这项工作中,我们将向更具挑战性的场景迈出下一步。首先,我们介绍了一种具有移动声源的新颖动态视听导航基准。这通过捕捉常见场景来扩展适用性,例如机器人导航到发布命令的人或跟踪宠物或家中的人。我们认为,这通过两个渠道大大增加了任务的复杂性:一方面,先前的观察不再捕获环境的当前状态,代理必须学习相应地更新其内存。另一方面,现在的最佳行为不仅需要跟踪声音强度,还需要对目标的运动进行主动推理,以有效捕捉目标。其次,我们精心设计了具有增强、嘈杂和分散注意力的声音的复杂音频场景,这些场景提升了先前工作中对干净音频信号的许多假设,并展示了在这些场景上进行训练以将其泛化为未听过的声音的好处。图1说明了移动声音任务(左)和我们构建的复杂音频场景(右)。最后,我们介绍了一种体系结构,该体系结构明确地使代理能够在空间上融合障碍地图和音频信号中固有的几何信息。我们表明,这在清晰和复杂的音频场景中都能显著提高对未听声音的泛化能力。我们在SoundSpaces[5]扩展到Habitat模拟器[14]中展示了这些结果,这允许我们为副本[15]和Matterport3D[16]数据集的真实3D环境生成真实的双耳声音信号。综合来看,这些贡献在成功率上比以前的最先进水平提高了 36 % 36\% 36% 29 % 29\% 29%,在前所未闻的静态AudioGoal基准[5]上,Replica和Matterport3D的SPL分别提高了 37 % 37\% 37% 37.1 % 37.1\% 37.1%。该方法的早期版本在2021 CVPR SoundSpaces Challenge1中获得了第一名。

总之,这项工作的主要贡献是:

  • 我们介绍了新颖的动态视听导航基准,该基准概括了以前的视听导航任务,并提出了新的挑战。
  • 我们提出了具有嘈杂和分散注意力的声音的复杂音频场景,并演示了这种随机化的好处,以更好地概括。
  • 我们提出了一种新的架构,该架构允许在空间上融合声音和视觉,并且在未听过的声音上比当前的最先进方法高出37%。
  • 我们在两个真实的3D环境中进行了详尽的实验,并在干净和复杂的音频场景中执行静态和动态音频目标任务。

代码和基准可在http://dav-namev.cs.uni-freiburg.de上公开获取。
在这里插入图片描述
图1:我们介绍了一种新颖的动态视听导航基准(左)。代理和声源的路径分别以蓝色和红色显示,初始姿势标记为方形。绿线表示捕捉移动目标的最佳行为。其次,我们仔细设计了复杂的音频场景(右)。代理人需要在面对第二声源(哭泣的婴儿)和各种干扰声音(如钢琴)时,导航到正在响的电话。

二、相关工作

体现式导航:在物理世界中导航的能力一直是体现式人工智能研究的核心焦点。在点目标导航[1]、[17]、[2]、ObjectGoal导航[18]、[19]、视觉语言导航[20]、[21]、主动视觉跟踪[22]、[23]和视觉探索[24]、[25]等任务上取得了很大进展。虽然大多数常见的目标都假设是静态的,但已经对移动目标进行了一些工作。基于对目标运动的明确预测,已经提出了跟踪和拦截运动声音的控制方法,但依赖于首先视觉定位目标[26],[27]。多智能体系统和社交导航[28],[29],[30]研究了多个智能体相互影响的场景,包括协作和竞争。相反,我们关注的是目标经常在视觉传感器的视野之外的情况,并假设主体的行为不会影响声源的运动。

声源定位:基于音频信号的声源定位已经在机器人中针对静态[31]、[32]和动态声音[33]、[34]进行了探索。早期结合音频和视觉的工作集中于使用高斯过程[35]或典型相关分析[36]。最近,已经提出了基于深度学习的方法来定位视频中的发声对象[37],[38]。相比之下,视听导航问题集中在未映射环境中可能看不见的声源上。

视听导航:最近的模拟器和数据集使基于学习的系统能够在视觉逼真场景和各种音频信号的组合上进行训练[5],[6]。在AudioGoal任务中,代理使用音频和视频信号导航到连续发出声音的目标源的位置[5],[6]。通过将问题分解为声音位置的预测和计划器[6],或者通过具有低级动作[5]或更高级别的端到端强化学习方法,结合学习的路线点和计划器[13],解决了这一任务。然而,对声音和视觉观察的融合并没有太多的关注。相反,我们为代理提供了一个架构先验,允许它明确地学习融合来自两种模态的空间信息。语义视听导航[7]引入了一项相关任务,其中声音是周期性的,并且与场景在语义上一致,允许代理利用声音和视觉之间的语义理解来导航到目标。然而,这些任务假定单个静态声发射源。虽然这种设置涵盖了大量潜在的用例,但它仍然是人类导航的场景的子集。我们提出了一个新的任务,其中代理仅使用声学和视觉观察来跟踪移动的声源。

先前的工作要么只关注干净的音频场景[5],[6],要么提供了对更复杂场景的初步但有限的探索。这包括在单听AudioGoal任务[13]上存在干扰器或麦克风噪声,以及评估干扰器在相关任务中的影响,如语义视听导航[7]和主动视听源分离[8],其中主体需要以智能方式移动,以将输入目标单耳声源与干扰器声音分离。相比之下,我们广泛评估了在视听导航中存在各种强烈音频干扰的情况下,训练和测试的影响,并证明了这些场景对未听声音泛化的强大好处。与音频源分离不同,代理无法访问干净的目标声音。

增强和域随机化:数据增强[39]和域随机化[40],[41]已证明在有限数据的情况下非常有益,以改善对未发现数据的泛化,并获得抗噪声的鲁棒性。音频特定增强包括时间扭曲、频率掩蔽和时间掩蔽等变换[42]。在这项工作中,我们引入了特定于视听导航的复杂音频场景,这同样增加了训练数据的多样性和多样性。

主动视觉跟踪:分散注意力的人已经被用于视觉领域,学习在视野内跟踪感兴趣的对象或人[22]。相比之下,我们提供了一组音频盘牵引器和随机化。

三、问题陈述

在这项工作中,我们解决了导航到发出声音的目标的挑战。我们使用了高度照片逼真的数据集Replica[15]和Matterport3D[16],这些数据集包括家庭、办公室、酒店和房间等室内区域的3D扫描。复制场景的面积在 9.5 9.5 9.5米到 141.5 141.5 141.5平方米之间,而Matterport3D的面积在 53.1 米 53.1米 53.1 2921.3 2921.3 2921.3平方米之间不等,为代理提供了不同真实世界场景的不同体验,包括近距离和远距离的AudioGoals。我们使用Habitat[14]及其音频兼容SoundSpaces模拟器[5]来训练智能代理执行静态和动态AudioGoal任务。SoundSpaces模拟器在网格上每两个可能的源和接收器位置之间提供双耳房间脉冲响应(BRIR),副本的空间分辨率为 0.5 0.5 0.5米,Matterport3D数据集的空间分辨率是 1 1 1米。预先计算的BRIR可以与任意声音卷积,以模拟接收器如何在代理的当前位置收听该音频。我们使用了与AudioGoal基准测试[5]中使用的 102 102 102种无版权声音相同的声音,这些声音在CC-BY-4.0许可证下提供。Matterport3D的BRIR采样率为 16000 H z 16 000 Hz 16000Hz,Replica为 44100 H z 44 100 Hz 44100Hz。频谱图的计算方法如[5],[13]所示:我们计算了窗长为 512 512 512个样本、跳长为 160 160 160的短时傅里叶变换(STFT)。从中,我们获取幅度,将轴向下采样四次,然后计算对数。堆叠左声道和右声道后,Matterport3D的谱图大小为 ( 65 , 26 , 2 ) (65,26,2) 65262,副本的谱图尺寸为 ( 65 、 69 , 2 ) (65、69,2) 65692

我们将该问题表述为一个强化学习任务,在该任务中,代理学习如何在未知环境中导航,以达到之前可能闻所未闻的声音发射目标。在每个步骤中,代理接收由RGB图像 v t v_t vt和深度图像 d t d_t dt以及左右耳的声谱图形式的双耳声音 b t b_t bt组成的当前观察 o t o_t ot。与常见的PointGoal导航任务不同,代理不接收指示目标位置的位移矢量。考虑到当前观察结果和代理先前的状态 s t − 1 s_{t−1} st1,然后代理从其策略 π ( a t ∣ o t , s t − 1 ) \pi(a_t|o_t,s_{t−1}) π(atot,st1) 生成下一个代理操作 a t a_t at。代理人的目标是最大化预期贴现收益 E π [ ∑ t = 1 T γ t ( s t − 1 , a t ) ] \mathbb{E} _\pi[\sum ^T_{t=1}\gamma _t(s_{t−1},a_t)] Eπ[t=1Tγt(st1,at)],其中 γ \gamma γ是折现系数, r ( s t − 1 , a t ) r(s_{t−1},a_t) r(st1,at)是奖励。注意,声音目标没有实施例,即它在RGB-D图像中不可见并且不能与代理碰撞。

我们基于[5]中介绍的AudioGoal任务。代理在未知环境中以随机姿势开始。然后,它必须导航到声音位置,并在声源的准确位置执行停止操作。栖息地模拟器的离散动作空间包括向前移动、向左旋转、向右旋转和停止。然而,强化学习代理的行动空间的参数化遵循航路点选择方法[13]。为了增加这种代理的能力和可能的用途,我们将[5]中描述的任务扩展到移动噪声发射目标。我们进一步寻求提高代理的总体性能,特别是在导航到以前听不到的声音方面。

四、方法

为了解决上述挑战,我们引入了新颖的动态视听导航基准,该基准极大地增加了对代理的记忆以及其策略的需求,该策略现在必须主动移动并捕获代理以实现最佳行为。然后,我们为移动和现有的静态AudioGoal导航任务引入了复杂的音频场景[5]。为此,我们开发了特定于音频域的场景,其中,代理面临情景和每步随机化,需要随着时间的推移对声音信号进行整合和过滤。我们进一步提出了一种新的体系结构,该体系结构允许代理直接集成来自声音和视觉的空间和方向信息,并如我们在第五节中所展示的那样,极大地提高了对未听声音的鲁棒性和通用性。

A、 动态视听导航

我们介绍了动态视听导航的新任务。在此任务中,代理必须在未映射的复杂3D环境中导航到移动的声发射源,并在捕捉到该声发射源时输出“停止”。代理需要基于音频和视觉观察来推断移动声音的轨迹,以确定到达它的最短路径。这可以看作是对现有任务的概括,将静态AudioGoal导航的范围扩大到诸如导航到发布命令的人或跟踪宠物等场景。移动目标意味着先前的观察不再捕获环境的当前状态,并且代理必须学习相应地更新其内存。此外,跟随声音强度的梯度已经不够了,相反,最佳行为现在需要对目标的运动进行主动推理,以有效地捕捉目标。据我们所知,这是第一个研究声音和视觉在未探索环境中捕捉移动声音的方法。

运动模型:我们假设目标有一个简单的、目标直接的行为。声源在地图上以随机姿势开始,并从可遍历网格中均匀地绘制目标,不包括代理的当前位置。我们还确保存在从起点到目标位置的可穿越路径。然后,声源沿着最短路径到达目标,并以 30 % 30\% 30%的概率移动到下一个节点。此百分比可确保声源的移动速度略慢于代理,从而确保能够捕捉到移动的声源。注意,移动源没有方向,直接移动到以下位置,而代理必须采取单独的旋转步骤来改变方向。我们在补充材料中消除了这种移动速度,并发现我们的模型对广泛的值具有鲁棒性。一旦移动目标达到其目标,它将绘制一个新的随机目标来导航。

最佳行为:路径长度加权的动态成功(DSPL):路径长度(SPL)加权的成功[43]是评估具体代理导航性能的主要指标。然而,在移动声源的情况下,最短的可能路径取决于声源的先验未知轨迹。考虑到这些知识,最优策略是在目标经过之前移动到与目标轨迹的最早交点。因此,我们引入了路径长度加权的动态成功(DSPL)来衡量代理与该预言最优策略的接近程度。我们对DSPL的定义如下:其中 i i i是当前集数, N N N是总集数, S i S_i Si表示该集是否成功, g i g_i gi是代理的开始位置和代理可能捕捉到声源的最近位置之间的最短测地线距离, p i p_i pi是代理所走路径的长度:
在这里插入图片描述
注意,该度量表示可能性能的预言上限,如果没有声源轨迹的先验知识,可能无法实现。DSPL中使用的任务和最佳行为示例如图1所示。

B、 奖励

我们对静态和动态任务使用相同的奖励定义。成功后,代理将获得 + 10 +10 +10的正奖励。如果减少,代理将进一步获得 + 0.25 +0.25 +0.25的小密集奖励,如果增加到目标的最短路径距离,代理将得到 − 0.25 -0.25 0.25的小密奖励。对于动态移动的声音,这是根据当前声源的位置而不是根据其轨迹的最短可达交点来计算的。因此,在这种情况下,密集的奖励不再直接指向最优策略,从而降低了监管信号的价值。最后,每一步 − 0.01 -0.01 0.01的小时间惩罚激励代理寻找短路径。

C、 复杂的音频场景

当前的方法[5]、[6]、[13]主要集中于在清洁的音频环境中使用单个声发射源的相对简单的场景,而声音干扰的影响仍然有限,如第二节所述。受现实世界场景挑战的启发,我们设计了复杂的音频场景,其中代理在目标位置遇到第二个发出声音的声音、嘈杂的音频传感器和不同位置的干扰器声音。这提供了一种更真实、高度多样化的训练体验,以确保它必须关注音频信号中的方向和空间信息,以提高测试时对未听过和噪声环境的泛化能力。

我们设计了高度随机的音频场景,在情节和步骤级别上都有扰动和增强。完整的随机化管道如Algo所示。1,由三个元素组成:

  • 分散注意力的声音:在固定的概率下,每集都包含一个分散注意力的东西。对于每一步,我们随机化干扰器的位置以及干扰器是否可听见。干扰物声音是从所有训练声音中随机抽取的,不包括当前目标声音。
  • 第二声:对于每一集,我们有一定概率将来自相同位置的附加音频信号覆盖在目标声音上。
  • 谱图增强:在每个步骤中,对谱图进行随机增强。我们利用[42]构造了一组由(无、时间掩蔽、频率掩蔽,两者都有)组成的增强。

这些场景增加了任务的难度,要求代理推理音频信号中的元素。同时,它们在很大程度上增加了训练体验的多样性,这已经证明是非常有益的,尤其是在数据有限的场景中,例如这里使用的102种声音的相对较小的音频数据集。所有增强都完全基于训练声音数据集,避免了验证或测试声音的任何泄漏。
在这里插入图片描述

D、 空间视听融合

现有工作侧重于从声音和视觉输入到行动的直接端到端强化学习。V-Nav[5]单独编码RGB-D和音频,而V-WaN[13]在单独编码之前将输入进一步构造成几何和声学图。然后,两者都将各个特性连接起来,并让标准GRU单元将它们组合起来。[6] 估计本地占用地图并使用音频信号来估计相对目标位置,然后通过将这些输入提供给计划人员来组合这些输入以产生行动。但这些方法都没有提供一个明确的结构来学习如何结合这些模式。

由于声音如何通过房间传播并从墙壁和障碍物反射,来自声源的双耳感知谱图包含大量关于空间和房间几何形状的信息。先前的工作表明,这些信息可以揭示房间的几何结构[11]。我们假设,学习提取和关注这些信息,并学习将其与几何地图中的空间信息相结合,是音频导航任务的适当架构前提。此外,我们假设,一个成功地专注于这部分音频的结构更有可能推广到闻所未闻的声音,并在嘈杂和分散注意力的音频环境中成功。

作为V-WaN,我们根据深度输入 d t d_t dt构建并持续更新一个异中心几何图 G m a p G_{map} Gmap。地图有两个频道,一个用于探索/未探索,另一个用于占用/空闲空间。然后,我们提出了学习音频特征的早期融合,以及基于卷积层的几何图和编码音频特征的联合音频空间编码器。一种新颖的空间音频编码器模块将双耳频谱图映射到空间特征空间。然后,视听编码器卷积几何图和编码音频特征的信道连接,同时降低其维数。除了这些功能之外,RNN还充当内存组件。最后,我们使用近端策略优化(PPO)对代理进行端到端训练[44]。总体架构如图2所示。编码器的详细信息如表1所示。

动作参数化:虽然AV-Nav[5]直接在模拟器的原始动作空间中进行推理,但AV-WaN[13]证明了在更高抽象层次上学习选择路线点的进一步改进。代理从以代理当前位置为中心的 9 × 9 9×9 9×9动作图中进行选择。然后,一个简单的Dijkstra计划器导航到这个航路点。虽然在这种提升的马尔可夫决策过程中采取行动可能是有益的,但较远的航路点对应于较低的控制频率,当计划员执行到达所选航路点的行动时,忽略多达十个观测值。虽然在具有干净、静态声源的场景中,这些观察结果的信息损失可能可以忽略不计,但在我们在本文中提出的嘈杂和动态音频场景中,随着时间的推移不断整合音频观察结果变得更加重要。相应地,我们发现将行动图的大小减小到 3 × 3 3×3 3×3是有益的,这在学习路线点的好处和将未处理的观察数量减少到最多四个之间提供了一个有效的中间地带。
在这里插入图片描述
图2:我们提出的架构。深度图像被投影到异地几何图 G m a p G_{map} Gmap中。一种由空间音频编码器和音频视频编码器组成的新信道融合了几何图和音频信号中固有的空间信息。GRU然后将该频道与深度和音频编码相结合。PPO代理生成由Djikstra规划师执行的近旁航路点。

请添加图片描述
表1:架构细节。Conv表示卷积层和ConvT转置卷积。他们的论点根据(内核,步幅)指示层次。所有层之后都会激活ReLU。MLP表示多层感知器。

五、 实验评价

在本节中,我们评估了静态和动态AudioGoal任务的现有方法和拟议架构,并研究了复杂音频场景中培训和评估的影响。

A、 任务设置

我们处理静态和动态AudioGoal导航的任务。对于每项任务,我们在两种场景中训练所有代理:[5]、[13]中使用的干净音频设置,以及我们在第4-C节中介绍的具有噪声音频、干扰器和第二声发射源的复杂音频场景。所有代理都接受了多种声音的训练,并在两种环境中进行评估:在不可见环境中听到的声音和在不可见的环境中听不到的声音。我们使用[5]、[9]使用的相同train/val/test分割协议,其中Replica分割为 9 / 4 / 5 9/4/5 9/4/5场景,Matterport3D(MP3D)分割为 59 / 10 / 12 59/10/12 59/10/12场景。 102 102 102种不同的声音被分成 73 / 11 / 18 73/11/18 73/11/18。同样的分割也适用于任何其他音频信号,例如干扰器。这意味着对未听声音的评估也需要处理未听干扰。对于每个模型,我们报告用不同随机种子训练的三个模型的平均值。

指标:我们评估导航性能的基础是:

  • 成功率(SR):所有测试集中成功集的份额。如果代理在目标位置执行停止动作,则事件被视为成功。
  • 成功加权路径长度(SPL)[43]:目标的最短路径长度与成功事件的执行路径长度之比。
  • 按行动数加权的成功率(SNA)[13]:遵循最短路径所需的行动数与代理人为达到相同目标而采取的实际行动数之比。与SPL相反,此度量考虑了方向变化的数量。
  • 通过路径长度加权的动态成功(DSPL):动态音频目标导航的主要度量。其计算方法为路径长度与最早可到达交叉口的长度之比,以及成功事件的执行路径长度之比(见第4-A节)。
  • 通过行动次数加权的动态成功(DSNA):与DSPL等效,我们根据最早可达交叉口的相同定义计算SNA的调整版本。

基线:我们将我们的方法与两种当前最先进的方法进行了比较:AV-Nav[5]是一种端到端的强化学习代理,它直接编码音频和视觉观察,以使用视听观察选择动作。AV-WaN[13]是目前最先进的静态AudioGoal任务,它根据音频观察、几何和声学地图预测到达目标的中间路线。对于这两种模型,我们都使用作者的代码。所有训练模型的超参数都包含在补充材料中。为了分解我们的贡献并确保公平的比较,我们评估了所有模型,无论是否经过复杂音频场景的培训。标记为“+comp”的行在复杂场景中报告培训。

B、 静态音频目标任务

我们首先评估静态AudioGoal任务,在该任务中,特工们接受了多个听到的声音的训练,并在看不见的公寓中使用听到的声音或听不到的声音进行评估。表2的上半部分显示了没有复杂音频场景的原始设置的结果。我们提出的用于学习空间融合的新通道在听到的声音上实现了类似或甚至更好的性能,并显著改善了未听到的声音。尽管A-Nav和AV-WaN在其中一个数据集上表现良好,但在另一个数据集中表现不佳,成功率差异高达 17 p p t 17ppt 17ppt。我们的模型在两个数据集上实现了一致的最佳性能。这就导致了SPL和SNA测量的路径最优性的更大差异。表的底部显示了第4-C节中描述的复杂音频场景的训练效果,以及对干净标准基准(“+comp”行)的评估。在这些场景中的训练为所有模型中对未听声音的概括提供了广泛的改进,某些模型的改进超过了 19 p p t 19ppt 19ppt。同样,我们的模型在所有指标中都达到了最高的性能。结合我们的新架构和复杂场景,Replica的成功率从 57.1 57.1 57.1提高到 77.8 77.8 77.8,MP3D的成功率为 54.6 54.6 54.6提高到 70.6 70.6 70.6,大大超过了该基准测试之前的最先进结果。在补充材料中可以找到对复杂场景中各个元素影响的进一步分解。当在复杂场景中进行训练并仅根据副本中听到的声音进行评估时,我们架构的性能会降低。这可以归因于数据集规模小或复杂的场景移除了模型先前可能利用以过度拟合听到的声音的某些通道。我们继续评估复杂音频场景的性能。结果如表3所示。我们发现,副本中这些场景的影响比大型MP3D数据集更大。我们再次发现,我们的体系结构始终将最好的声音概括为闻所未闻的声音。
在这里插入图片描述
表2:没有复杂场景的静态音频目标任务的结果。听觉实验在多种声音上进行训练,并在相同的声音上进行评估,但在看不见的环境中。未听过的人会在多个声音上接受训练,并在看不见的环境中对多个听不见的声音进行评估。模型栏中的+comp指的是在培训中使用复杂场景
在这里插入图片描述
表3:具有复杂场景的静态音频目标任务的结果。

在这里插入图片描述
表4:没有复杂场景的动态音频目标任务的结果。

C、 动态音频目标任务

然后,我们评估移动声音任务的模型。所有的模型都是在多个听到的声音上训练的,其中一半的集包含一个移动的声音,另一半包含一个静态的声音源。然后对模型进行动态声音评估,以确定听到的声音和听不到的声音。结果如表IV所示。总体而言,我们发现所有模型都能解决大部分任务,听到声音的成功率为 71 % − 94 % 71\%-94\% 71%94%。这大致类似于静态声音的性能。但我们发现,无论是在成功率还是路径的优化(SPL与DSPL)方面,在听不见的声音上,性能差距都要大得多。就整体性能而言,我们发现我们的架构在所有干净的音频设置上都表现得很好,在两个数据集上都能将听不见的动态声音的成功率提高了 10 % 10\% 10%以上。对复杂场景的训练再次证明,对于除了AV-Nav之外的所有模型来说,将其推广到闻所未闻的声音是非常有益的。我们的体系结构和复杂场景的结合实现了巨大的改进,从清洁场景的最佳基线成功率38.2提高到副本的 67.3 67.3 67.3,从MP3D的 47.2 47.2 47.2提高到 74.0 74.0 74.0。表5评估了复杂音频场景中的相同模型。同样,我们的方法始终以副本上的DSNA度量为唯一例外进行最佳概括。我们进一步发现,移除音频空间编码器会导致动态音频目标任务中的性能明显下降,而移除其他两个编码器中的任何一个的影响更为有限。

图3描述了AV-WaN和我们的代理在听到声音时的示例集,说明了该任务的一些挑战。最佳行为与简单地直接向声音的初始位置移动明显不同。此外,过早地采取行动可能会对以后所需的路径产生很大影响,如果目标经过他们,代理可能必须迅速改变方向。补充材料中有其他示例。
在这里插入图片描述
表5:复杂场景下动态音频目标任务的结果。

在这里插入图片描述
图3:副本(左)和Matterport3D(右)上听到的动态视听导航任务的示例集。对于每一个,AV-WaN代理显示在左侧,我们的架构显示在右侧,在没有复杂场景的情况下进行了训练。代理和声源的路径分别以蓝色和红色显示。绿色表示到达DSPL度量定义的最早可达交叉点的路径。

六、结论

我们引入了新颖的动态视听导航基准以及一种新的度量,该度量量化了与最佳行为之间的差距。我们证明,这项任务对现有基准提出了新的挑战。然后,我们介绍了基于音频特定增强、扰动和随机化的复杂音频场景,并证明了这在对未听声音的泛化方面提供了实质性的好处。最后,我们引入了一种具有感应偏置的架构,以允许代理在空间上融合音频和视觉观察中固有的几何信息,并证明这始终优于先前的方法。结合对新音频场景的培训,这将大大提高对未听声音的概括能力。


maven异常:0.0.1-snapshot: could not find artifact_youlubank的博客-爱代码爱编程_0.0.1-snapshot

执行maven install的时候出现了以下异常: [INFO] Scanning for projects…  [ERROR] [ERROR] Some problems were encountered while processing the POMs:  [FATAL] Non-resolvable parent POM for com.eas

react-native路由之react-navigation(一)_菜鸟搬砖记的博客-爱代码爱编程

安装 在react-native项目目录下,安装react-navigation包 npm install --save react-navigation 然后再安装react-native-gesture-hand

「vs code」如何通过跳板机连接服务器进行远程开发:remote-ssh 篇-爱代码爱编程

「VS Code」 Remote Development using SSH (with a jump server to go through) 日志: 「2019-06-07」自 v1.35 起,VSC 稳定

微信小程序自定义navigation-bar导航栏(自适应安卓苹果)-爱代码爱编程

最近在写商城,中途遇到了需要自定义修改导航栏的操作,大概是如下图接过样子的,于是想手写一份,但我发现右上角的分享按钮在不同设备离顶部的距离是不一样的,于是找了下官方划水员写的文档(点这里查看),(⊙o⊙)…貌似不能满足这需求,而且后续也要实现点击导航滚动定位(需要了解可以点这里查看),组件传参麻烦,而且还未必能实现,于是我把WeUI的navigation

【ECCV2020】接收论文列表part1-爱代码爱编程

ECCV2020将于2020年8月23-28日在线上举行,今年共接受了1361篇论文,本文是接收论列表的第一部分,第二部见链接 Paper IDPaper TitleCategory267Quaternion Equivariant Capsule Networks for 3D Point CloudsOral283DeepFit: 3D

Android Studio : Failed to list versions for androidx.navigation:navigation-runtime-爱代码爱编程

问题描述 之前写的一个Android程序,从另一台PC上转移过来 出现以下问题: Gradle能够Sync 但是Make Project之后,会出现编译无法通过的情况 首先是Gradle Building很久,大约1分半钟的样子 然后出现这样的报错 点进报错信息显示如下 报错信息 Executing tasks:

Jetpack All In Compose ?看各种Jetpack库在Compose中的使用-爱代码爱编程

Jeptack Compose 主要目的是提高 UI 层的开发效率,但一个完整项目还少不了逻辑层、数据层的配合。幸好 Jetpack 中不少组件库已经与 Compose 进行了适配,开发者可以使用这些 Jetpack 库完成UI以外的功能。 Bloom 是一个 Compose 最佳实践的 Demo App,主要用来展示各种植物列表以及详细信息。 接

vue中Uncaught (in promise) NavigationDuplicated: Avoided redundant navigation报错的解决-爱代码爱编程

问题: 当重复点击相同导航时,控制台显示的Uncaught (in promise) NavigationDuplicated: Avoided redundant navigation报错。 解决方法: 1、在router配置文件(/router/index.js)下添加 const VueRouterPush = Router.prototyp

解决 vue-router 报错:Navigation cancelled from “/...“ to “/...“ with a new navigation-爱代码爱编程

问题: 项目中需要对用户是否登录进行判断,如果用户未登录或者 token 过期就需要跳转登录页面,进行登录验证。所以需要做一个拦截,在跳转登录页面时报了一个错。 报错如下图所示: 原因: 这个错误是 vue-router 内部错误,没有进行 catch 处理,导致的编程式导航跳转问题,向同一地址跳转时会报错的情况(push 和replace 都会导致

CCF A类会议或期刊近两年自监督相关论文-爱代码爱编程

会议/期刊论文neurips2020Self-Supervised MultiModal Versatile Networks.neurips2020Self-Supervised Relationship Probing.neurips2020Cross-lingual Retrieval for Iterative Self-Supervised Tr

解决Vue报错:Uncaught (in promise) NavigationDuplicated: Avoided redundant navigation to current location-爱代码爱编程

问题描述:重复点击导航时,控制台出现报错 ,虽然不影响功能使用,但也不能坐视不管。 解决 Vue 重复点击相同路由,出现 Uncaught (in promise) NavigationDuplicated: Avoided redundant navigation 问题 .报错内容:Uncaught (in promise) Navigation

cas号:1676104-79-2_salepeptide的博客-爱代码爱编程

所有细胞渗透性肽C(Npys) rrrrrrr - nh₂的d模拟物。 编号: 129180中文名称: H-Cys(NPys)-D-Arg-D-Arg-D-Arg-D-Arg-D-Arg-D-Arg-D-CAS号: 1676104-79-2单字母: H2N-C(Npys)-DArg-DArg-DArg-DArg-DArg-DArg-DArg-DArg-D

swiftui之navigationview的基础使用与进阶实践_navigationview swiftui-爱代码爱编程

一、前言 在 UIKit 的框架中,我们时常使用 UINavigationViewController 来管理页面的 push 和 pop,这是页面管理的基本操作。而到了 SwiftUI,该操作是交由 Navigation