代码编织梦想

完整项目已在AI Studio开源,点击链接即可运行:
https://aistudio.baidu.com/aistudio/projectdetail/5387023

01 简介

无人驾驶车辆在路上行驶时,通常需要配置激光雷达获得高精度点云数据,从点云数据中获取主车与周围各个障碍物的距离。但是,激光雷达的成本高,因此,很多学者尝试用相机来估计主车与周围各个障碍物的距离,从而尽可能地降低成本。

用专业术语来说,深度估计就是通过图像采集装置采集物体的图像,利用物体的图像估计物体各点到图像采集装置的成像平面的垂直距离,该垂直距离即为该物体上对应点的深度信息。

目前有很多深度估计方法,如果按照使用的传感器来分,可以分为基于TOF相机、基于双目摄像头和基于单目摄像头的深度估计。本文讨论的是基于单目摄像头的深度估计

图片

图1 单目深度估计算法发展史[1]

02 算法背景

近年来,自监督深度估计得到了广泛的研究,Monodepth和SFMLearner是第一个采用训练深度网络和独立位姿网络的自监督单目深度估计方法。一些方法在户外场景进行了改进,并在KITTI数据集和Cityscape数据集上进行了充分的测试,但因为夜间的低能见度和不均匀光照,所以在夜间的效果并不是特别好。因此,有学者开发了夜间场景的深度估计方法。但是,夜间深度估计比白天要难,多光谱迁移网络MTN就使用额外的传感器来估计夜间深度估计,采用热成像相机传感器来减少夜间能见度低的影响,还通过一定方式增加了激光传感器以提高额外信息。同时,也有一些方法采用生成式对抗网络来进行夜间深度估计。

虽然夜间单目深度估计已经取得了显著的进展,但由于白天图像和夜间图像之间存在较大的差异,因此这些方法的性能有限。
为了缓解光照变化导致的性能降低问题,ADDS-DepthNet算法采用了一种域分离的网络,将昼夜图像对的信息划分为两个互补的子空间:私有域和不变域。私有域包含昼夜图像的唯一信息(光照等),不变域包含必要的共享信息(纹理等)。同时,为了保证白天和夜晚图像包含相同的信息,域分离网络将白天图像和对应的夜间图像(使用GAN方法生成)作为输入,通过正交性和相似损失学习私有域和不变域的特征提取,从而减小域差距,获得更好的深度图。最后,利用重建和光度损失对互补信息和深度图进行有效地深度估计。

这里多说一句,所谓私有域,可以理解为特征的“个性”;而不变域就类似于特征的“共性”。

03 ADDS算法架构

ADDS算法提出了一种域分离框架来消除干扰的影响,该框架用GAN的思路产生的白天图像和相应的夜间图像作为网络为输入。

图片

图2 ADDS-Net算法架构[2]

ADDS算法架构包括三个部分:共享权重的深度网络(中间橙色区域粉色结构)、白天私有网络(上方蓝色区域黄色结构)和夜间私有网络(下方蓝色区域绿色结构)。

深度网络的输入是共享权重的白天和夜间图像。该网络首先提取不变特征,然后估计相应的深度图。同时,白天私有特征提取器和夜间私有特征提取器(蓝色区域)分别提取白天和夜晚的特征,这些私有特征受到正交性损失的约束,以获得互补特征,并添加私有和不变特征来重建具有重建损失的原始输入图像。

Part-1 模型输入

对于相同场景里白天和夜间图像,尽管这些图像对的照明非常不同,但其深度信息应该是一致的。这意味着场景对应的白天图像和夜晚图像的基本信息应该是相似的。ADDS算法分别将白天和夜间图像的信息分成两部分:白天和夜晚图像的不变信息(如街道近大远小的规律等),白天和夜间图像的私有信息(如照明等)。

场景的照明随着时间的推移而不同,而场景的深度是恒定的,因此场景的照明分量在自监督深度估计中发挥的作用较少。

此外,很难保证场景的真实世界白天和夜间图像包含除了私有信息(照明等)之外的相同信息不变,因为在室外场景中总是有移动的对象,这将误导网络获取图像的私有和不变信息。因此,ADDS算法使用CycleGAN将白天图像转换为夜间图像,这样白天图像和相应生成的夜间图像被视为输入图像对,它确保了不变信息是一致的,并且所有对象都位于相同的位置,从而减少了在分离私有信息的过程中重要信息的丢失。注意,这里也可以使用其他GAN算法。

Part-2 特征提取器

域分离框架将图像分离为特征层中的两个互补子空间,并且将不变分量用于深度估计。

ADDS算法使用两个网络分支分别在特征级别提取图像的私有和不变信息。给定输入的白天图像序列和相应生成的夜晚图像序列,对于输入的白天图像序列,用白天专用特征提取器提取图像的私有和不变信息;同理,对于输入的夜晚图像序列,也有一个专用的特征提取器用来提取图像的私有和不变信息。由于输入的白天和夜间图像包含相同的基本信息,因此两个特征提取器中提取不变信息那部分是权重共享的。

Part-3 深度图的生成及图像的重建

基于上一步得到的特征重建白天和夜间图像的相应深度图。其中,红色解码器表示共享权重的深度网络的深度恢复模块,黄色解码器和绿色解码器表示白天、夜间图像的重建分支。

Part-4 自监督信号

为了以自监督学习的方式获得全天图像的私有和不变特征并很好地估计深度信息,ADDS算法利用了不同的损失,包括重建损失(Reconstruction Loss)、相似性损失(Similarity Loss)、正交性损失(Orthogonality Loss)和光度损失(Photometric Loss)。

网络的总训练损失为:

图片

其中,λ1, λ2, λ3, λ4是权重参数。在ADDS算法中,作者根据经验设置为λ1=0.1, λ2=λ3=λ4=1。

04 基于PaddleVideo快速体验ADDS-DepthNet

PaddleVideo是飞桨官方出品的视频模型开发套件,旨在帮助开发者更好地进行视频领域的学术研究和产业实践。下面将简要介绍快速体验步骤。

安装PaddleVideo

 # 下载PaddleVideo源码
%cd /home/aistudio/
!git clone https://gitee.com/PaddlePaddle/PaddleVideo.git
# 安装依赖库
!python -m pip install --upgrade pip
!pip install --upgrade -r requirements.txt

下载训练好的ADDS模型

PaddleVideo提供了在Oxford RobotCar dataset数据集上训练好的ADDS模型,为了快速体验模型效果的开发者可以直接下载。

 # 下载在Oxford RobotCar dataset数据集上训练好的模型参数
!wget https://videotag.bj.bcebos.com/PaddleVideo-release2.2/ADDS_car.pdparams
# 导出推理模型
%cd /home/aistudio/PaddleVideo
!python tools/export_model.py -c configs/estimation/adds/adds.yaml \
                              -p ADDS_car.pdparams \
                              -o inference/ADDS

导出的推理模型保存在

 /PaddleVideo/inference
└── ADDS
    ├── ADDS.pdiparams
    ├── ADDS.pdiparams.info
    └── ADDS.pdmodel

模型推理

使用PaddleVideo/tools/predict.py加载模型参数,并输入一张图片,其推理结果会默认以伪彩的方式保存下模型估计出的深度图。这里提供了两张测试图片,分别是白天和夜间拍摄的照片,拍摄设备是大疆Osmo Action灵眸运动相机。 以下是测试图片和对应的预测深度图:

图片

从测试结果来看,我个人觉得深度图的表现效果在白天相对更好,在晚上则会弱一些,不过也有可能是晚上拍出来的图像质量较差,且环境较暗。但毕竟是基于自监督学习所作,所以结果还不错。

05 总结

论文最后展示了比较有意思的量化结果,这里给大家展示一下:

图片
图3 模型卷积层特征图可视化[2]

这张图展示的是卷积层的特征图可视化。从上到下分别是:(a)白天私有特征;(b)夜间私有特征;(c)白天共有特征;(d)夜间共有特征。第一列显示了相应的输入图像,从左到右的其余列是包含更多信息的前10个特征图。首先看输入,这里展示的图像,不管是白天还是夜间拍摄的图像,都是比较亮的。也就是说,在做深度估计时,图片一定要清晰,上方演示测试的不完美结果可能就是图片不清晰导致的。另外,可视化特征图后,可以在一定程度上看出模型的各个部分是怎么“分工”的。可视化结果里部分的黑色区域说明了有效信息的缺失。有意思的是,对于白天私有特征和夜间私有特征,其浅层特征是比较清晰的,越深越模糊,并且他们对道路两边的物体比较敏感(比如停在道路两边的车辆或是从旁边经过的车辆);而对于白天共有特征和夜间共有特征,可以发现它们的可行驶边缘的两条线比较亮,而道路两边的区域相对来说比较暗。这也反映了私有特征和共有特征确实是互补的。

以上就是基于域分离的全天图像自监督单目深度估计的论文初步解读,欢迎大家来我的AI Studio页面互关交流
https://aistudio.baidu.com/aistudio/personalcenter/thirdview/147378

此外,想探索更多关于自动驾驶相关单目双目深度算法、3D单目感知算法、3D点云感知算法和BEV感知算法的问题,可以前往:

  • Paddle3D
    https://github.com/PaddlePaddle/Paddle3D

  • PaddleDepth
    https://github.com/PaddlePaddle/PaddleDepth

参考文献

[1] Xingshuai Dong, Matthew A. Garratt, Sreenatha G. Anavatti, & Hussein A. Abbass (2023). Towards Real-Time Monocular Depth Estimation for Robotics: A Survey**
[2] Lina Liu, Xibin Song, Mengmeng Wang, Yong Liu, & Liangjun Zhang (2021). Self-supervised Monocular Depth Estimation for All Day Images using Domain Separation… international conference on computer vision.

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/PaddlePaddle/article/details/129796047

高性能轻量化的图像处理系统——flycv-爱代码爱编程

大多数从事计算机视觉相关岗位的人基本上都使用过OpenCV。OpenCV于2000年发布首个开源版本,随着深度学习技术的深入,其在视觉产品工程化落地过程中产生新的问题。例如在移动端设备上,因包体积较大,占用储存空间和APP网络下载时间。在算力较低的AIoT设备上,性能表现不好。因此,百度视觉团队萌生了开发一个高性能图像处理库的想法。 FlyCV是

yolov8来啦!yolo内卷期模型怎么选?9+款ai硬件如何快速部署?深度解析-爱代码爱编程

在这新春佳节到来之际,回顾整个虎年,堪称YOLO内卷元年,各路YOLO系列神仙打架,各显神通。一开始大部分用户做项目做实验还是使用的YOLOv5,然后YOLOv6、YOLOv7、PP-YOLOE+、DAMO-YOLO、RTMDet就接踵而至,于是就在自己的数据集逐一尝试,好不容易把这些下饺子式的YOLO模型训练完测试完,忙完工作准备回家过年时,

百度生成式ai产品文心一言邀请测试,五大场景、五大能力革新生产力工具-爱代码爱编程

3月16日下午,百度于北京总部召开新闻发布会,主题围绕新一代大语言模型、生成式AI产品文心一言。百度创始人、董事长兼首席执行官李彦宏及百度首席技术官王海峰出席,并展示了文心一言在文学创作、商业文案创作、数理推算、中文理

“中国软件杯”重磅预告!首批百度赛题即将发布-爱代码爱编程

“中国软件杯”大学生软件设计大赛是由国家工业和信息化部、教育部、江苏省人民政府共同主办,是全国软件行业规格最高、最具影响力的国家级一类赛事,为《全国普通高校竞赛排行榜》榜单内赛事。今年,组委会联合百度飞桨共同设立了“智能系

基于文心一言的底层视觉理解,百度网盘把「猫」换成了「黄色的猫」-爱代码爱编程

随着移动互联网的一路狂飙,手机已经成为人们的新器官。出门不带钥匙可以,不带手机却是万万不可以的。而手机上,小小的摄像头也越来越成为各位「vlogger」的口袋魔方。每天有超过数亿的照片和视频被上传到百度网盘中,这些照片和

金融监管科技业务中的ai应用:上市公司公告信息风险识别-爱代码爱编程

面对日益严格的监管,证券公司自身需要提高融资融券业务的风险管控能力,从而扩大业务规模、降低风险。因此,证券公司需要了解可能影响证券价格较大变化的重要事件,从而进行管理和风险控制等工作。根据监管要求,企业定期或不定期地发布公告

主题及关卡揭晓!全国智能汽车竞赛智慧交通创意组发布倒计时-爱代码爱编程

「全国大学生智能汽车竞赛」是教育部倡导的大学生科技A类竞赛,是2022年全国普通高校大学生竞赛榜单内竞赛,中国高等教育学会将其列为含金量最高的大学生竞赛之一。 在全国数百所高校的支持下,全国大学生智能汽车竞赛至今已成功举办了

中康科技黄毅宁:ai+医疗,于我而言是圆梦-爱代码爱编程

医疗行业,与我们的生命健康息息相关。如何将 AI 技术应用到医疗行业,更好地服务医疗科研人员提高科研工作效率,帮助更多患者享受到先进的医疗服务,是广州中康数字科技有限公司一直以来的发展目标。基于此,中康科技借助百度飞桨深度学

山东大学-飞桨人工智能教育创新中心正式挂牌,打造区域产教融合新范式-爱代码爱编程

当前,生成式AI热潮推动,人工智能正驶入发展快车道,复合型AI人才需求攀升,产教融合持续深化。3月25日,在泉城济南,百度飞桨协同山东大学、济南大学、青岛理工大学,共同举办飞桨院长高峰论坛暨“中国软件杯”大学生软件设计大赛百

中康数字科技:基于大模型的医学文本信息处理与抽取-爱代码爱编程

在医疗行为开展的过程中,存在辨明药品禁忌症、了解不良反应、明确配伍禁忌和调整用药方式等实际需求,市面现有产品的功能较为单一、应用范围窄、数据更新慢无法满足业务需求,例如:药店场景SKU管理(Stock Keeping Uni

飞桨deepxde用例验证及评估-爱代码爱编程

在之前发布的文章中,我们介绍了飞桨全量支持业内优秀科学计算深度学习工具 DeepXDE。本期主要介绍基于飞桨动态图模式对 DeepXDE 中 PINN 方法用例实现、验证及评估的具体流程,同时提供典型环节的代码,旨在帮助大家

主题及关卡揭晓!全国智能汽车竞赛智慧交通创意组发布倒计时-爱代码爱编程

‍‍ 「全国大学生智能汽车竞赛」是教育部倡导的大学生科技A类竞赛,是2022年全国普通高校大学生竞赛榜单内竞赛,中国高等教育学会将其列为含金量最高的大学生竞赛之一。在全国数百所高校的支持下,全国大学生智能汽车竞赛至今已成功举办了十七届,是极受欢迎的国家级创意性科技竞赛。 今年主题揭晓 在第十八届全国大学生智能汽车竞赛创意组——

金融监管科技业务中的ai应用:上市公司公告信息风险识别-爱代码爱编程

‍ ‍ 面对日益严格的监管,证券公司自身需要提高融资融券业务的风险管控能力,从而扩大业务规模、降低风险。因此,证券公司需要了解可能影响证券价格较大变化的重要事件,从而进行管理和风险控制等工作。根据监管要求,企业定期或不定期地发布公告信息。作为公司信息披露的主要载体,公告信息可能包含事件描述、深度分析、信息传递等各种价值信息和重要风险信息。

借大模型东风,中康科技撬动临床科研大数据价值-爱代码爱编程

‍‍‍‍ 安永《生命科学4.0报告》曾用FV=ID描述生命科学的未来价值,即未来价值等于“创新”的“数据”次方。左右“价值”指数增长的“数据”,影响着科研成果的获取。 根据《全民健康信息化调查报告》医院大数据应用情况调研结果显示,2021年我国三级医院医疗大数据平均应用率不足20%,二级医院不足5%,即使是热度最高的临床数据,也只有1/

山东大学-爱代码爱编程

当前,生成式AI热潮推动,人工智能正驶入发展快车道,复合型AI人才需求攀升,产教融合持续深化。3月25日,在泉城济南,百度飞桨协同山东大学、济南大学、青岛理工大学,共同举办飞桨院长高峰论坛暨“中国软件杯”大学生软件设计大赛百度赛项东部赛区启动会。活动现场,山东大学-飞桨人工智能教育创新中心正式挂牌成立。 济南市市中区副区长张源,济南大学党委

中康数字科技:基于大模型的医学文本信息处理与抽取-爱代码爱编程

在医疗行为开展的过程中,存在辨明药品禁忌症、了解不良反应、明确配伍禁忌和调整用药方式等实际需求,市面现有产品的功能较为单一、应用范围窄、数据更新慢无法满足业务需求,例如:药店场景SKU管理(Stock Keeping Unit,库存保有单位)要求数据标准化且更新频率高;在处方流转中,医院、药房、药店有审方需求。广州中康数字科技有限公司将这些需求

飞桨deepxde用例验证及评估-爱代码爱编程

在之前发布的文章中,我们介绍了飞桨全量支持业内优秀科学计算深度学习工具 DeepXDE。本期主要介绍基于飞桨动态图模式对 DeepXDE 中 PINN 方法用例实现、验证及评估的具体流程,同时提供典型环节的代码,旨在帮助大家更加高效地基于飞桨框架进行科学计算用例建设与调试。 用例验证及评估标准 PINN(Physics-Infor

飞桨支撑大模型产业落地,最新成果亮相gtc china ai day-爱代码爱编程

NVIDIA GTC 是人工智能领域的全球AI开发者盛会,2023年度春季大会于3月20-23日在线上举办。NVIDIA 创始人兼CEO黄仁勋指出,AI 的iPhone时刻来临。AI行业已经到达了像iPhone横空出世时为手机行业带来的革命性颠覆的时间点。 百度AI技术生态总经理马艳军,百度主任架构师、MEG商业模型中台技术负责人焦学武在G

adds-爱代码爱编程

完整项目已在AI Studio开源,点击链接即可运行:https://aistudio.baidu.com/aistudio/projectdetail/5387023 简介 无人驾驶车辆在路上行驶时,通常需要配置激光雷达获得高精度点云数据,从点云数据中获取主车与周围各个障碍物的距离。但是,激光雷达的成本高,因此,很多学者尝

中康科技黄毅宁:ai+医疗,于我而言是圆梦-爱代码爱编程

医疗行业,与我们的生命健康息息相关。如何将 AI 技术应用到医疗行业,更好地服务医疗科研人员提高科研工作效率,帮助更多患者享受到先进的医疗服务,是广州中康数字科技有限公司一直以来的发展目标。 基于此,中康科技借助百度飞桨深度学习、文心大模型等人工智能技术,结合自研的数据采集网络、大数据处理技术与生态化的健康产业平台,打造“基于文心大模型的A