您现在的位置:首页 >> 环保科技

CVPR 2022 | 提高小信息集利用效率,复旦等提出分层级联ViT网络

时间:2025-05-11 12:35:32

将 class token 和 patch tokens 同时都用于监理,以颇为大限度减少有数据集依靠率。

Class Token 监理

幻灯片匹配到 DINO 网路中的,都会经过 encoder 后转换成一个 class token 和 N 个的 patch tokens,之后 class token 再通过一个 MLP 取得就此的转换器。各有不同于传统习俗监理方式则,由于 DINO 本身的自监理内部设计,导致就此的转换器极为是一个 one-hot 标量,而是一个颇为高阶数的标量。因此我们为每一个ID内部设计了一个阶数的可自学标量作为该大类的挂名物件,通过 KL 散度将同一ID的转换器聚拢。

在乘积 1 中的,

是 student 网路中的的 class token 经过 MLP 的就此转换器,是该ID并不有所不同的语义物件挂名标量。

为 KL 散度计算造出来。

Patch Tokens 监理

在 Transformer 中的,由于缺少 patch 档次的ID电子邮件,patch tokens 一般较难与 class token 同时用来监理网路。为了对 patch tokens 进行时监理,我们把 N 个 patch tokens 用经过 softmax 操作方法后的目光行列式进行时相加合并计算造出来,取得一个简而言之 token,然后运用于和 class token 有所不同的监理方式则对该简而言之 token 进行时监理。

其中的,

为 class token 对其他 patch tokens 的目光行列式,

是 encoder 后转换器的 patch tokens,

为相加合并后的简而言之 token。

乘积 3 与乘积 1 运用于有所不同的方针。

著者聚类 tokens 池化

许多工作, 如 GroupFPN [4] 和 GLOM [5] 都证明了多尺度层次本体对 CNN 和 Transformer 都有效性。本文的内部设计目地是为了将层次本体给定到 Transformer 中的来减少网路对特点的推论能够。与 Swin Transformer [4] 可用固定的网格池化解决方案各有不同,本文依靠线状网格池化方式则来颇为自如地反之亦然示意图形本体。由于 Transformer 将在 tokens 两者之间转换成自目光行列式,因此它为著者聚类启发式 [5] 发放了强大的逻辑上成果,以根据语义关联性和空间内布局对 tokens 进行时分割合并。因此我们明确提造出了一种基于著者聚类的池化方式则,称为著者聚类 tokens 池化。

为了保持各 patch 两者之间原有的后方关系电子邮件,本文对于 ViT 中的的 N 个 patch tokens 两者之间的目光行列式加上了邻接放宽,使每个 patch 只和相邻的 8 个 patch 有关联性。

其中的,A_p 是 patch tokens 的目光行列式,H 是包含后方电子邮件的邻接行列式。

然后我们对 S 行列式做一个 softmax 操作方法取得我们就此需的 S' 行列式作为著者聚类 tokens 池化的匹配。

如上启发式下示意图,每一次池化后我们将取得都有聚类有数目减半的新 tokens。

在本文的网路内部设计中的,特训下一阶段首先都会特训第一下一阶段的 Transformer 网路来取得一个有很好表征能够的特点PE,随后再引入池化操作方法,加上二三下一阶段 Transformer 共同特训。就此在三下一阶段中的通过的测试集挑选造出一个系统结果作为就此转换器。

示意图 2:著者聚类池化的可视化示意图

试验结果

我们分别在四个广为流传的 Few-Shot Classification 有数据集集:mini-Imagenet, tiered-Imagenet, CIFAR-FS 和 FC100 上做了概述的试验。

就此结果如表 1,2,3 下示意图:相对于现有的 SOTA 静态,HCTransformers 在 1-shot 和 5-shot 的结果上都显示造出明显的性能优势。例如,如表 1 下示意图,在 miniImagnet 上,HCTransformers 比一个系统 SOTA 结果分别平仅有 5.37%(1-shot) 和 4.03%(5-shot)。在 tieredImagenet 上,我们的方式则在 1-shot 和 5-shot 上的展现出分别比最差的 DC [6] 方式则平仅有 1.48% 和 1.81%。与 DC 相对,我们不需从 base 特训集中的借出类某类示意图形的统计电子邮件,并且可用颇为轻量级的分类器。此外,我们的方式则和第三好的方式则两者之间的差距是 5.09%,这也有利于的测试了我们的贡献。

这样令人印象独到的结果要归功于我们的网路本体,它能自学到有数据集中的固有的内在电子邮件,并很强良好的泛化能够。表 2 和表 3 分别显示了在小高分辨率有数据集集 CIFAR-FS 和 FC100 上的结果。HCTransformers 在这些低高分辨率设置中的显示造出和 SOTA 近似于或颇为好的结果: 在 CIFAR-FS 上减少了 1.02%(1-shot) 和 0.76%(5-shot); 在 FC100 上减少了 0.51%(1-shot) 和 1.12%(5-shot)。在小高分辨率有数据集集上,我们并不会近乎过去的 SOTA 方式则很多,我们将其归因于 ViT 的 patch 程序:当示意图形高分辨率较不间断,如 32*32,每一个 patch 所包含的确实RGB过少,较难所含造出有用的特点透露。DeepEMD [7] 的试验也佐证了 patch cropping 都会对小高分辨率示意图形造成不良后果。依然,我们的方式则基本上在这两个计量上都获得了更有利于 SOTA 结果。

参考文献

[1]. Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An imageis worth 16x16 words: Transformers for image recognition at scale. In 9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021.OpenReview.net,2021. 1, 2, 3, 7, 8

[2]. Mathilde Caron, Hugo Touvron, Ishan Misra, Herv´e J´egou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. arXiv preprint arXiv:2104.14294, 2021. 3, 5

[3]. Jean-Bastien Grill, Florian Strub, Florent Altch´e, Corentin Tallec, Pierre H.Richemond, Elena Buchatskaya, Carl Doersch, Bernardo ´Avila Pires, Zhaohan Guo, Mohammad Gheshlaghi Azar, Bilal Piot, Koray Kukcuoglu, R´emi Munos, and Michal Valko. Bootstrap your own latent-A new approach to self-supervised learning. In Hugo Larochelle, Marc’Aurelio Ranzato, Raia Hadsell, Maria- Florina Balcan, and Hsuan-Tien Lin, editors, Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual, 2020. 3

[4]. Gangming Zhao, Weifeng Ge, and Yizhou Yu. Graphfpn:Graph feature pyramid network for object detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 2763–2772, 2021. 1

[5]. Geoffrey Hinton. How to represent part-whole hierarchies in a neural network. arXiv preprint arXiv:2102.12627, 2021. 1

[6]. Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. International Conference on Computer Vision (ICCV), 2021. 2, 4

[7]. Andrew Y Ng, Michael I Jordan, and Yair Weiss. On spectral clustering: Analysis and an algorithm. In Advances in neural information processing systems, pages 849–856, 2002. 1, 5

[8]. Shuo Yang, Lu Liu, and Min Xu. Free lunch for few-shot learning: Distribution calibration. In International Conference on Learning Representations (ICLR), 2021. 6

[9]. Chi Zhang, Yujun Cai, Guosheng Lin, and Chunhua Shen. Deepemd: Few-shot image classification with differentiable earth mover’s distance and structured classifiers. In IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020. 6, 7, 8

成都看白癜风哪家好
重庆哪个妇科医院好
铜川白癜风治疗方法
泉州白癜风医院怎么样
潮州白癜风医院哪里好
什么家用血糖仪好用
眼睛酸涩滴什么眼药水
慢性结膜炎如何治疗
类风湿性关节炎晨僵怎么治
乌梅人丹对口臭有效果吗