代码编织梦想

文章摘要

在遥感图像(RSIs)中进行桥梁检测在各种应用中起着至关重要的作用但与其他对象检测相比,桥梁检测面临独特的挑战。在RSIs中,桥梁在空间尺度和纵横比方面表现出相当大的变化。因此,为了确保桥梁的可见性和完整性,必须在大尺寸高分辨率(VHR)RSIs中进行整体桥梁检测。然而,缺乏大尺寸VHR RSIs的数据集限制了深度学习算法在桥梁检测中的性能。由于在处理大尺寸图像时GPU内存的限制,基于深度学习的物体检测方法通常采用裁剪策略,这不可避免地导致标签碎片化和预测不连续。为了缓解数据集的稀缺性,文章提出了一个名为GLH-Bridge的大规模数据集,该数据集包括从全球不同地理位置采样的6,000张VHR RSIs。这些图像的大小范围从2,048 × 2,048到16,384 × 16,384像素不等,共包含59,737座桥梁。这些桥梁跨越不同的背景,并且每个桥梁都被手动标注,使用了定向边界框(OBB)和水平边界框(HBB)。此外,作者提出了一种高效的整体桥梁检测网络(HBD-Net),用于大尺寸RSIs中的桥梁检测。HBD-Net采用了基于独立检测器的特征融合(SDFF)架构,并通过形状敏感样本重加权(SSRW)策略进行了优化。SDFF架构执行层间特征融合(IFF),以在大尺寸图像的动态图像金字塔(DIP)中融合多尺度上下文,SSRW策略则用于确保不同纵横比桥梁的回归权重的平衡。基于提出的GLH-Bridge数据集,作者建立了包括OBB和HBB任务的桥梁检测基准,并验证了所提出的HBD-Net的有效性。此外,在两个公开可用数据集上的跨数据集泛化实验展示了GLH-Bridge数据集的强泛化能力。

论文地址:

https://ieeexplore.ieee.org/document/10509806

数据集体量较大,超过20G,且需要科学上网进行下载,我们已经为大家下载完毕。

数据集下载地址:

https://www.dilitanxianjia.com/15644/

前世今生

桥梁作为关键的基础设施组件,横跨各种地形,起着基本的交通设施作用。它们在民用交通、军事行动和灾害救援中具有重要意义 [1]。同时,桥梁建设迅速且频繁改造。例如,2012年,美国约有617,000座桥梁,其恶化将在未来50年增加,需要超过1250亿美元用于修复积压的维修工作。因此,桥梁检测的高效性和有效性对于及时更新导航图并进一步监测桥梁的结构健康和状况至关重要 [2],[3]。遥感图像(RSIs)以其广泛的地理覆盖和高频率的重访,适合作为桥梁检测的基础数据。同时,考虑到深度网络的强大特征表示能力,基于深度学习的RSIs桥梁检测具有很大潜力,已成为研究的重点 [4]。

图片

如图1所示,与其他常见物体相比,在RSIs中检测多尺度桥梁相当具有挑战性,主要有两个特征:(i)多样的对象尺度。在高分辨率(VHR)RSIs中,桥梁实例的长度从几像素到数千像素不等。(ii)极端的纵横比。不同桥梁的伸长程度存在显著差异。为了确保小型或狭窄桥梁的可检测性,使用非常高分辨率(VHR)的图像至关重要。同时,为了追求VHR图像中大且长桥梁的结构完整性,有必要在大尺寸图像中进行整体桥梁检测,这对数据集和方法都提出了严格要求。尽管在多类物体检测 [12],[13],[14],[15],[16] 和桥梁检测 [4],[11],[17] 方面取得了显著进展,但在大尺寸VHR RSIs中进行整体桥梁检测的大规模数据集和适当方法仍然存在不足。

图片

如表1所示,尽管已经创建了许多流行的RSIs物体检测数据集 [6],[7],[8],[18],这些数据集中的桥梁数量有限。此外,专门为桥梁检测创建的数据集 [4],[11] 通常受样本量和图像尺寸的限制。现有的一些数据集仅提供水平边界框(HBB)注释,而不是精确的定向边界框(OBB)注释。因此,使用上述数据集训练一个鲁棒且具有广泛适应性的桥梁检测模型似乎不现实。为了解决数据限制问题,作者构建了GLH-Bridge,一个用于大尺寸VHR RSIs桥梁检测的大规模数据集。GLH-Bridge包含全球采样的6,000张VHR RSIs和超过59,000座手动标注的桥梁。与现有的桥梁检测数据集相比,GLH-Bridge通过在大尺寸VHR RSIs中标注多尺度桥梁,涵盖了植被、干河床和道路等多种背景类型,从而更好地捕捉真实场景中桥梁的特征。简而言之,与现有的桥梁检测数据集相比,GLH-Bridge展示了全面的优势和显著的优点。

为了推进这一基础且实际的问题的研究,作者提出了一个新的具有挑战性且有意义的任务:在大尺寸VHR RSIs中进行整体桥梁检测。为了解决这个任务,潜在的解决方案可以分为四个主要方面:(i)鉴于GPU内存的限制,主流的基于深度学习的物体检测方法 [15],[16],[19],[20],[21] 通常采用裁剪策略 [7],[22]。然而,这些策略有固有的局限性,容易切断大型桥梁,如图1所示。除了裁剪策略外,一些物体检测方法通过固定窗口下采样策略处理原始大尺寸图像 [23],[24],[25],导致显著的图像信息丢失;(ii)流式方法 [26] 对大尺寸图像的小块进行前向和后向传递,但无法支持带有归一化的深度神经网络(DNN);(iii)LMS方法 [27] 使用内存卸载将内存跨系统内存(CPU DRAM)和GPU内存共享。然而,它们引入了显著的时间开销,并受最大内存扩展率的限制;(iv)多GPU张量并行化技术 [28],[29] 有望扩展深度网络以支持大尺寸图像的整体处理。然而,它们往往资源密集,且在常规条件下难以操作。总之,现有方法在普通计算资源(如单个24 GB内存的GPU)下无法有效进行大尺寸VHR RSIs的整体桥梁检测。

考虑到上述潜在解决方案的限制,作者提出了一个专为大尺寸VHR RSIs桥梁检测设计的整体桥梁检测网络(HBD-Net)。作者的方法具有两个关键优点:(i)基于独立检测器的特征融合(SDFF)架构在应用于动态图像金字塔(DIP)时,展示了一种高效处理大尺寸图像的方式,资源消耗最小。(ii)形状敏感样本重加权(SSRW)策略平衡了不同纵横比桥梁的回归权重。在GLH-Bridge上的实验结果展示了提出的HBD-Net的出色性能。

总之,据作者所知,本文首次探索了大尺寸VHR RSIs中的整体桥梁检测。本文的主要贡献如下:

  • 提出了GLH-Bridge,第一个用于大尺寸VHR RSIs桥梁检测的大规模数据集。该数据集包含59,737座桥梁,覆盖各种背景,提供了现实场景中桥梁的全面表示。

  • 提出了一个用于大尺寸图像的低成本整体桥梁检测网络(即HBD-Net),它可以高效处理大尺寸图像,并通过设计精良的SDFF架构和SSRW策略整体检测多尺度桥梁。

  • 利用提出的GLH-Bridge数据集,作者创建了一个桥梁检测基准,涵盖了OBB和HBB任务。HBD-Net在性能上优于现有的最先进算法。此外,作者进行了跨数据集泛化实验,展示了GLH-Bridge的强泛化能力。作者希望这个基准可以为大尺寸图像中的物体检测的基础评估做出贡献。

匠心独运

作者开发新数据集用于桥梁检测的目标有两个:(i) 填补大尺寸高分辨率遥感影像(VHR RSIs)桥梁检测的大规模数据集的空白。(ii) 推动一个新颖且具有挑战性的任务:大尺寸VHR RSIs中的整体桥梁检测。

图片

图2. 来自提议的 GLH-Bridge 数据集的采样图像的地理分布图。

图片

图3. 根据标准标注的示例,其中黄色圆圈表示未标注的情况。(a) 形状过于弯曲或不规则的跨水道路不进行标注。(b) 两个终端连接不进行标注。

图片

图4. GLH-Bridge 数据集特征的说明。(a) 不同数据集中桥梁特征的比较。(b) GLH-Bridge 中桥梁面积的分布。(c) GLH-Bridge 中桥梁长度的分布。(d) GLH-Bridge 中桥梁密度的分布。

图片

图5. GLH-Bridge 数据集中不同背景下的桥梁示例。(a) 穿越植被的桥梁。(b) 穿越干涸河床的桥梁。(c) 穿越道路的桥梁。(d) 穿越水体的桥梁。

图片

图6. 所提议的HBD-Net流程。它包含所提出的SDFF架构和SSRW策略。SDFF架构由独立检测器和IFF模块组成。从输入的大尺寸VHR图像开始,作者构建一个DIP并将其发送到SDFF的独立检测器以获取特征。然后,通过IFF模块融合所有SDFF检测器的特征,以共享上下文和详细纹理信息。SSRW策略在对象检测器的样本选择阶段应用,以平衡回归权重。最后,将输出的融合特征输入到对象检测器的头部,以获取每一层的结果,这些结果用于与相应的真实标签计算损失。

图片

图7. 所提议的IFF模块示意图。图中展示了两个相邻层之间特征融合的方法。

图片

图8. 所提出的SSRW策略示意图。红色和蓝色点分别表示对象检测器选择的正样本和负样本。对于基于锚点的检测器,这些点对应于生成锚点或提议的特征图位置。对于无锚点的检测器,这些点指示特征图上的网格。为保持清晰和简洁,与样本点相关联的锚点或提议(适用于基于锚点的方法)在此示意图中未显示。

卓越性能

图片

未来展望

本文提出了一个名为GLH-Bridge的大规模数据集,用于在大尺寸高分辨率遥感图像中进行整体桥梁检测。所提出的数据集包含6,000个高分辨率遥感图像,图像尺寸从2,048 × 2,048到16,384 × 16,384像素不等,包含59,737座跨越不同背景的桥梁,并带有OBB和HBB注释。大尺寸图像、大样本量以及对象尺度和背景类型的多样性使GLH-Bridge成为一个宝贵的数据集,其具备推动一个新的具有挑战性但意义深远的任务的前提:在大尺寸高分辨率遥感图像中进行整体桥梁检测。此外,作者提出了HBD-Net,这是一种专为大尺寸图像中的整体桥梁检测量身定制的经济高效的解决方案。基于所提出的GLH-Bridge数据集,作者建立了一个基准,并对所提出的HBD-Net的有效性进行了经验验证。在未来的工作中,作者将继续丰富GLH-Bridge数据集的样本量和子类别注释。此外,作者的目标包括将所提出的HBD-Net推广到满足大尺寸图像中的多类对象检测。作者努力探索可以同时提高大尺度和小尺度桥梁准确性的方法,从而扩大HBD-Net在各种场景中的适用性和有效性。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_44906759/article/details/140364718

回归损失和分类损失-爱代码爱编程

回归损失和分类损失是机器学习模型训练过程中常用的两类损失函数,分别适用于回归任务和分类任务。 回归损失函数 回归任务的目标是预测一个连续值,因此回归损失函数衡量预测值与真实值之间的差异。常见的回归损失函数有: 均方误差(Mean Squared Error, MSE): 计算预测值与真实值之间差的平方的平均值。对于误差较大的样本,MSE 会给

电子产品分销商 digikey 在新视频系列中探索智能城市中的ai-爱代码爱编程

电子产品分销商DigiKey推出了一系列新视频,深入探讨了AI在智能城市中的集成应用。这个名为“智能世界中的AI”的系列是其“城市数字”视频系列的第四季,它审视了城市环境中从基础设施到公共服务的多种AI硬件和软件的部署情况。 该系列由电子制造商莫仕(Molex)和半导体公司意法半导体(STMicroelectronics)赞助,通过三集内容展示了AI

守望数据边界:sklearn中的离群点检测技术-爱代码爱编程

守望数据边界:sklearn中的离群点检测技术 在数据分析和机器学习项目中,离群点检测是一项关键任务。离群点,又称异常值或离群点,是指那些与其他数据显著不同的观测值。这些点可能由测量误差、数据录入错误或真实的变异性造成。正

【论文速读】| jade:用于大语言模型的基于语言学的安全评估平台-爱代码爱编程

本次分享论文:JADE : A Linguistics-based Safety Evaluation Platform for Large Language Models 基本信息 原文作者:Mi Zhang, Xudong Pan, Min Yang 作者单位:Whitzard-AI, System Software and Securi

7.深度学习概述-爱代码爱编程

深度学习概述 1. 线性回归1.1 线性回归一般表达式1.2 线性回归内积表达方式:1.3 多个样本时,线性回归的进一步表达:1.4 线性回归方程的解析1.5 线性回归就是求loss函数的最小值 2. 如

ugc与ai引领的下一个10年,丝芭传媒已经准备好-爱代码爱编程

丝芭传媒最近传来的消息,都跟技术相关。 基于自研AI大模型“Paro(心乐舞河)”的AIGPT及AIGC生成工具APP“鹦鹉人”开启用户内测。2023年3月技术测试的图形化智能社交基座“美踏元宇宙”,也将开放首轮用户内测。 此外,基于AI大模型的MaaS系统“SRMBuildor塞纳河创”,作为与整个泛娱乐生态系统配套的UGC创作工具系统,即将

cv06_canny边缘检测算法和python实现-爱代码爱编程

1.1简介 Canny边缘检测算法是计算机视觉和图像处理领域中一种广泛应用的边缘检测技术,由约翰·F·坎尼(John F. Canny)于1986年提出。它是基于多级处理的边缘检测方法,旨在实现以下三个优化目标: 好的检测:尽可能多地检测出真正的边缘,同时尽量减少假阳性(误报)。好的定位:检测到的边缘应该尽可能接近真实边缘的实际位置。最小响应:对于单个

gemini大模型引入全新的ai检测诈骗电话功能;请问gemini大模型是什么?-爱代码爱编程

Gemini大模型是由Google DeepMind(谷歌母公司Alphabet下设立的人工智能实验室)研发的一款人工智能多模态大模型,它于2023年12月6日正式发布。Gemini大模型具备以下主要特点和功能: 主要特点 多模态能力:Gemini大模型能够同时识别和处理文本、图像、音频、视频和代码五种类型的信息,这是其最大的亮点之一。它原生支持多模态

藏汉翻译通作为翻译软件的优势有哪些?-爱代码爱编程

藏汉翻译通作为一款专业的藏汉双语翻译软件,具有以下优势: 人工智能技术应用:藏汉翻译通利用了人工智能翻译和语音识别合成技术,提供智能藏文翻译服务。 高准确率:文字识别准确率可达90%,语音识别转化文字准确率高达70%至80% 。 丰富的功能:软件具备文字互译、语音翻译、文本朗读等功能,并提供专业藏语语音及文字显示 。 持续的技术研发:西藏高驰公司

旷野之间13 -爱代码爱编程

Transformer 于 2017 年问世。已经有很多文章解释了它的工作原理,但我经常发现它们要么过于深入数学,要么过于浅显。 我花在谷歌搜索(或 chatGPT)上的时间和阅读的时间一样多,这不是理解一个主题的最佳方法。这让我写了这篇文章,我试图解释 Transformer 最具革命性的方面,同时保持简洁明了,任何人都可以阅读。 本文假设您对

从零到一:打造你的专属ai聊天机器人之旅-爱代码爱编程

在这个智能技术日新月异的时代,AI聊天机器人已成为我们日常生活中不可或缺的伙伴,从客服咨询到情感交流,它们以独特的魅力融入了我们的每一个角落。你是否也曾梦想过亲手创造一个能够理解你、陪伴你的AI聊天机器人呢?今天,就让我们一起踏上这场充满创意与挑战的旅程,从零开始,打造你的专属AI聊天机器人。 一、明确目标与定位 首先,你需要明确你的AI聊天机器人的设