代码编织梦想

👉 针对问题与解决方法:

针对问题:现有的RGBT算法采用复杂的融合策略需要大量的参数;但是简洁的RGBT跟踪器在计算上可能高效但是特征提取能力会削弱,性能会退化。

解决方法:提出了一种跨模态蒸馏框架,以达到即高效又不降低精度的目的。

💡 亮点
  1. 教师-学生模型,知识蒸馏应用于RGBT跟踪
  2. 从降低模型参数量和计算复杂性入手
➡️ 参考文章

RGB-T tracking by modality difference reduction and feature re-selection

Learning discriminative model prediction for tracking.

Distilling Knowledge via Knowledge Review

✅ 总结

为了减少大模型和简洁模型的性能差距,提出了一个新的教师-学生的知识蒸馏训练框架。

SCFD:模态共有特征和模态特定特征从教师模型传递到学生模型——增强了单模态特征的表示

MPSD:学生模型可以自适应的组合各种简单融合策略生成的多个融合特征,以更彻底地从多模态数据中探索互补信息

HFRD:缓解目标状态估计阶段数据不平衡的问题,提高对干扰物的辨别能力

达到先进性能,减少了参数量和计算复杂性

限制:对于提高目标状态估计部分的效率没有进行工作

贡献

  • 提出了一个特定-公共特征蒸馏模块以将公共模态信息和模态特定信息从深层双流网络转为浅层双流网络
  • 提出了一个多路选择蒸馏模块以指示一个简单的融合模块通过使用多路径从一个精心设计的融合机制中学习更多准确的多模态信息

在这里插入图片描述

Method

在这里插入图片描述

Teacher and Student Model

  • teacher model

    • 输入:一对RGBT图片对
    • 特征提取:双流网络
    • 复杂的特征融合模块
    • 融合后的特征被送到目标状态估计模块中,获得最终的跟踪结果
  • student model

    • 单流特征提取
    • 几个高效的多模态融合模块
  • 特征提取
    在这里插入图片描述

    • Teacher——两个特征提取器ResNet50
    • Student——一个特征提取器ResNet18
    • 使用block3,4的特征进行回归,使用block4的特征进行分类
  • 多模态特征融合

    • Teacher——采用模态差分补偿(MDC)模块和特征重新选择(FRS)模块进行多模态特征融合
      在这里插入图片描述

    • Student——采用MPSD模块

  • 分类和回归

    • 和DiMP的一致

three knowledge distillation modules

  • SCFD(Specific-common Feature Distillation)

    在这里插入图片描述

    1. 将模态特定信息和模态共享信息从双流深层网络转为单流浅层网络
    2. 教师模型强大的双流特征提取网络把模态特定信息和模态共享信息传输到学生模型的单流网络中,以增强对单峰特征的表示能力
      (1) 首先对教师模型中的单峰RGB特征和TIR特征进行跨模态交互,以突出不同层次的模态公共信息和模态特定信息,从而更好地指导学生模型的学习——SEM(Specific Enhanced Modules)——对1,2,3层特征

    在这里插入图片描述

    (2) 对于深层的特征(第四层)所提出的一致性增强模块(CEM)——获得具有更多模态公共信息的模态交互特征

    在这里插入图片描述

    (3) 调整学生模型中的通道特征维度使其与教师模型一致——ABF模块
    调整通道维度,并动态的聚合学生模型中的跨层特征ABF模块

    1. 损失函数——特征学习蒸馏损失,使学生模型模仿教师模型中的特定和公共信息
      在这里插入图片描述
  • MPSD(Multi-path selection distillation)

    在这里插入图片描述

    • 通过多路径优化策略缩小教师模型获得的融合特征和学生模型获得的特征之间的差异

    • 在学生模型中,MPSD从模态差异、模态共性和模态互补三个角度进行多模态特征融合

    • 三种类型的初始融合特征,sa是空间注意力机制
      在这里插入图片描述

      • SA——多模态数据的互补信息

      在这里插入图片描述

             1. 将特征进行级联
             2. 然后使用1*1卷积和softmax层获得两个通道权重图
             3. 将两个通道权重图划分为两个可靠性权重图分别选择RGB特征和TIR特征
      
    • 融合蒸馏损失

在这里插入图片描述

  • 为了使学习模型在不同的场景下能自适应地选择与教师模型更相似地融合路径,引入了一个额外的惩罚来提高训练过程中的知识转换效率
  1. 选择学生模型的初始融合特征和教师模型的融合特征之间差异最小的融合类型

在这里插入图片描述

  1. 通过MPSD中的自适应选择部分,学生模型本身也将预测适合于当前跟踪场景的一类初始融合特征
    在这里插入图片描述

  2. 惩罚
    最小化惩罚,可以是学生模型根据教师模型自适应地选择融合路径,提高互补信息的探索

在这里插入图片描述

  • 总损失

在这里插入图片描述

  • HFRD(Hard-focused Response Distillation)
    • 缓解目标和背景之间数据不平衡问题来提高学生模型的判别能力,利用教师模型生成的响应图(以空间注意力形式生成的)指导学生专注于区分目标和难负样本
    • R t R_t Rt——教师模型响应图, R g R_g Rg——由真实边界框构建的高斯形状掩码, R c R_c Rc——校正后的掩码

在这里插入图片描述

  • 损失

在这里插入图片描述

  • 总损失
    在这里插入图片描述

Experiments

  • 实施细节

    • 训练

      • 数据集:LasHeR
      • α = 0.001 , β = 100 \alpha=0.001,\beta=100 α=0.001,β=100
      • 两阶段训练
        • 先训练教师模型——MFNet
        • 然后联合教师模型的损失和蒸馏损失监督训练学生模型
    • 在线跟踪

      和Dimp一样

  • 消融实验
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 定量比较
    在这里插入图片描述
    仅限于自己学习记录,可能有错误或疏忽

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qianxi1234/article/details/131001292

sctracker 跟踪论文阅读笔记-爱代码爱编程

SCTracker 跟踪论文阅读笔记 SCTracker: Multi-object tracking with shape and confidence constraints 论文链接 (未开源状态) 论文主要

【论文阅读笔记】baffle: backdoor detection via feedback-based federated learning-爱代码爱编程

个人阅读笔记,如有错误欢迎指出 会议:2021 IEEE 41st International Conference on Distributed Computing Systems (ICDCS) BaFFLe: Backdoor Detection via Feedback-based Federated Learning | IEEE Confer

[论文阅读72]parameter-efficient transfer learning for nlp-爱代码爱编程

1. 基本信息 题目论文作者与单位来源年份Parameter-Efficient Transfer Learning for NLPNeil Houlsby等Google Research,雅盖隆大学-波兰PMLR2019

【论文阅读系列】nwd-based model | 小目标检测新范式,抛弃iou-based暴力涨点(登顶sota) 计算机视觉-爱代码爱编程

NWD-Based Model | 小目标检测新范式,抛弃IoU-Based暴力涨点(登顶SOTA) 计算机视觉 参考:博客1 知乎2 在这里进行纪录分享,这是有用的资料,避免之后再寻找相当麻烦。 小目标检测是一

论文阅读:global prototype encoding for incrementalvideo highlights detection-爱代码爱编程

摘要: 视频亮点检测 (VHD) 是计算机视觉中的一个活跃研究领域,旨在在给定原始视频输入的情况下定位最吸引用户的片段。然而,大多数 VHD 方法都是基于封闭世界假设,即预先定义固定数量的高亮类别,并且所有训练数据都是预先可用的。因此,现有方法在增加高亮域和训练数据方面的可扩展性较差。为了解决上述问题,我们提出了一种名为全局原型编码 (GPE) 的新型视

【论文阅读】23-爱代码爱编程

【论文阅读】23_SIGIR_Disentangled Contrastive Collaborative Filtering(分离对比协同过滤) 文章目录 【论文阅读】23_SIGIR_Disentangl

[论文阅读] explicit visual prompting for low-level structure segmentations-爱代码爱编程

[论文地址] [代码] [CVPR 23] Abstract 我们考虑了检测图像中低层次结构的通用问题,其中包括分割被操纵的部分,识别失焦像素,分离阴影区域,以及检测隐藏的物体。每个问题通常都有一个特定领域的解决方案,我

0802数量积向量积混合积-向量代数与空间解析几何-爱代码爱编程

文章目录 1 两向量的数量积1.1 引例1.2 定义1.3 推论1.4 运算规律1.4 数量积的坐标表示 2 两向量的向量积2.1 定义2.2 重要结论2.3 几何意义(向量积模)2.4 向量积的运算规

论文阅读笔记(三)——有监督解耦+信息瓶颈_disentangled information bottleneck-爱代码爱编程

论文信息 《Disentangled Information Bottleneck》 论文地址:https://ojs.aaai.org/index.php/AAAI/article/view/17120 代码地址:Git

segment anything——论文笔记_论文 segment-爱代码爱编程

home page:segment-anything.com code:segment-anything 1. 概述 介绍:SAM是最近提出的一种通用分割大模型,其表现出了强大的零样本泛化能力,视觉感知模型的通用化

论文笔记: trajectory clustering: a partition-爱代码爱编程

07 Sigmoid 使用类DBSCAN的思路对轨迹聚类 1 intro 1.1 轨迹聚类 现有的轨迹聚类算法是将相似的轨迹作为一个整体进行聚类,从而发现共同的轨迹。 但是这样容易错过一些共同的子轨迹(sub-trajectories)。而在实际中,当我们对特殊感兴趣的区域进行分析时,子轨迹就特别重要。 图中有五条轨迹,在矩形中有一个共