代码编织梦想

        本文在传统分类神经网络的softmax后的输出上进行了改进,不再将其当成无序的量,而是有限的,大小为K的一维空间变量,K为该分类任务可能的结果数。
        传统的神经网络最后一层基本为输出为K的先行层,一般将softmax后最大的那个值最代表的类当作分类结果。计算损失时,也只关注如何让样本实际所属的类对应的数值尽可能大,忽略了其他类。

        而作者将最后一层的输出称为响应(response),要先计算每个响应的位置,然后计算这一批样本的响应的中心,根据每个响应的位置与该类别响应中心的距离计算出一个损失。

        因为softmax后,响应中的K个数之和为1,那么这就可以看作是概率,每个响应的位置即为每个响应的期望值,每个数在响应中的位次为自己的值。

E(y)=\sum_{k=1}^{K}y_{k}*k

        作者限定了一个batch里每个类都要有N个,当一个batch里N*K个样本的响应和中心计算完成后,即可计算每个类的响应中心

P^{i}=\frac{1}{N}\sum_{j=1}^{N}y_{j},y_{j}\in C_{i}

        根据Pi即可计算探索损失(exploration)

KL(P^{i},y)=\sum_{k=1}^{K}p_{k}^{i}log\left ( p_{k}^{i}/y_{k}+\epsilon \right ),\epsilon =1e-8

        但探索损失只基于本次batch的结果,而如果分类器性能不佳,则会对损失函数的计算产生干扰。虽然在把同类别的物体的响应计算地越来越接近的过程中可以提高性能,但这会让训练十分缓慢。

        因此作者还提出了ECP,Experience Cache Pool,即把之前训练样本的响应和分类结果放进去,在计算完探索损失后,从ECP中随机取出batch大小个响应,这样便可得到经验损失所需要的K个P,之后,只要替换探索损失中的P,并把准确率当作权重,即可计算出经验损失,最终损失为

L_{EE}=\alpha KL(P_{epl},y)+(1-\alpha)KL(P_{epr},y)

        个人认为这种方法之所以有效,一是因为如提出知识蒸馏的文章所说,神经网络得到的logits中,属于正确类的得分重要,属于错误类的得分也十分有用。比如分类一条狗,它的logits得分在softmax后,属于狗那一类的得分可能为0.9,而属于猫那一类的得分为0.05,属于轮船那一类的得分则可能只有0.01,而这些数值之间的大小关系,也能包含充足的信息,上面例子就说明了,猫和狗的相似度要比轮船和狗的相似程度大得多。

        此外,就是类似于simCLR等对比学习的原理,模型哪怕哪怕没有经验损失的指导,为了降低探索损失,也会把同类别的当成正样本对,尽量靠近,把不同类别当成负样本对,尽量远离,这样也能达到学习训练的效果。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_42578970/article/details/121180646

cvpr2017论文摘要汇总_super_chicken的博客-爱代码爱编程

1. Exclusivity-Consistency Regularized Multi-view Subspace Clustering Abstract: Multi-view subspace clustering

iccv2017论文摘要汇总_super_chicken的博客-爱代码爱编程

1. Globally-Optimal Inlier Set Maximisation for Simultaneous Camera Pose and Feature Correspondence Abstract: E

阅读小结:msr:from captions to visual concepts and back_戈阿四的博客-爱代码爱编程

阅读小结:MSR:From Captions to Visual Concepts and Back WhatHow 人与人的根本区别在于自律能力。 作者:H. Fang et al. 题目:From Cap

斯坦福大学计算机类课程视频_cskywit的博客-爱代码爱编程_斯坦福cs217

斯坦福大学计算机类课程都是以CS开头编号,可以在网址https://exploredegrees.stanford.edu/coursedescriptions/cs/查询,在网上可以登录查看课程的课件和视频等,在B站上可以搜索到部分带中文字幕的授课视频,名校的视频确实非常板扎。B站:https://search.bilibili.com/all?keyw

graph neural networks: a review of methods and applications(图神经网络:方法与应用综述)_adam坤的博客-爱代码爱编程

Graph Neural Networks: A Review of Methods and Applications 图神经网络:方法与应用综述 Jie Zhou , Ganqu Cui , Zhengyan Zhan

2020年 ICLR 国际会议最终接受论文(poster-paper)列表(二)-爱代码爱编程

来源:AINLPer微信公众号(点击了解一下吧) 编辑: ShuYini 校稿: ShuYini 时间: 2020-02-21     2020年的ICLR会议将于今年的4月26日-4月30日在Millennium Hall, Addis Ababa ETHIOPIA(埃塞俄比亚首都亚的斯亚贝巴 千禧大厅)举行。     2020年ICLR会

2020年 ICLR 国际会议最终接受论文(poster-paper)列表(三)-爱代码爱编程

来源:AINLPer微信公众号(点击了解一下吧) 编辑: ShuYini 校稿: ShuYini 时间: 2020-02-21     2020年的ICLR会议将于今年的4月26日-4月30日在Millennium Hall, Addis Ababa ETHIOPIA(埃塞俄比亚首都亚的斯亚贝巴 千禧大厅)举行。     2020年ICLR会

ICLR2020国际会议焦点论文(Spotlight Paper)列表(内含论文源码)-爱代码爱编程

来源:AINLPer微信公众号(点击了解一下吧) 编辑: ShuYini 校稿: ShuYini 时间: 2020-02-21     2020年的ICLR会议将于今年的4月26日-4月30日在Millennium Hall, Addis Ababa ETHIOPIA(埃塞俄比亚首都亚的斯亚贝巴 千禧大厅)举行。     2020年ICLR会

【论文阅读笔记】NeurIPS2020文章列表Part1-爱代码爱编程

A graph similarity for deep learningAn Unsupervised Information-Theoretic Perceptual Quality MetricSelf-Supervised MultiModal Versatile NetworksBenchmarking Deep Inverse Models ov

【文献阅读与想法笔记3】Residual Attention Network for Image Classification-爱代码爱编程

呆呆象呆呆的所有博客目录 文章目录 呆呆象呆呆的所有博客目录MotivationContributions网络结构整体网络结构Attention Module两个分支:主干分支(Trunk Branch),Mask分支(Mask Branch)`Bottom-up Top-down`结构分支结合Attention Residual Learn

今日arXiv精选 | ICCV 2021/CIKM 2021/ACM MM 2021-爱代码爱编程

 关于 #今日arXiv精选  这是「AI 学术前沿」旗下的一档栏目,编辑将每日从arXiv中精选高质量论文,推送给读者。 SUNet: Symmetric Undistortion Network for Rolling Shutter Correction 发表会议: ICCV 2021 论文地址: https://arxiv.org

今日arXiv精选 | 34篇顶会论文:CIKM/ ACL/ Interspeech/ ICCV/ ACM MM-爱代码爱编程

 关于 #今日arXiv精选  这是「AI 学术前沿」旗下的一档栏目,编辑将每日从arXiv中精选高质量论文,推送给读者。 DESYR: Definition and Syntactic Representation Based Claim Detection on the Web Comment: 10 pages, Accepted a