This repository contains an overview of important follow-up works based on the original Vision Transformer (ViT) by Google.

Last update: Dec 02, 2022

Related tags

Deep Learning Vision-Transformer-papers

Overview

Vision-Transformer-papers

This repository contains a (non-exhaustive) overview of follow-up works based on the original Vision Transformer (ViT) by Google. Feel free to open a PR to add more papers!

Distillation:

DeiT (Data-efficient Image Transformers): https://arxiv.org/abs/2012.12877
Efficient Vision Transformers via Fine-Grained Manifold Distillation: https://arxiv.org/abs/2107.01378

New pre-training objectives:

self-supervised:
- BEiT (BERT Pre-Training of Image Transformers): https://arxiv.org/abs/2106.08254
- DINO (Emerging Properties in Self-Supervised Vision Transformers): https://arxiv.org/abs/2104.14294
- MoBY (Self-Supervised Learning with Swin Transformers): https://arxiv.org/abs/2105.04553
- EsViT (Efficient self-supervised Vision Transformers): https://arxiv.org/abs/2106.09785
supervised:
- Token Labeling for Better Training Vision Transformers: https://arxiv.org/abs/2104.10858
- Vision Transformers with Patch Diversification: https://arxiv.org/abs/2104.12753

New pre-training tricks, techniques:

Scaling Vision Transformers: https://arxiv.org/abs/2106.04560
Vision Transformers with Patch Diversification: https://arxiv.org/abs/2104.12753
Billion-Scale Pretraining with Vision Transformers for Multi-Task Visual Representations: https://arxiv.org/abs/2108.05887
How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers: https://arxiv.org/abs/2106.10270
When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations (SAM optimizer): https://arxiv.org/abs/2106.01548

Architectural changes:

Combining convolution with self-attention:
- CvT (Introducing convolutions to Vision Transformers): https://arxiv.org/abs/2103.15808
- ConViT (Improving Vision Transformers with Soft Convolutional Inductive Biases): https://arxiv.org/abs/2103.10697
- CMT (Convolutional Neural Networks Meet Vision Transformers): https://arxiv.org/abs/2107.06263
- LeViT (A Vision Transformer in ConvNet's Clothing for Faster Inference): https://arxiv.org/abs/2104.01136
- Co-Scale Conv-Attentional Image Transformers (CoaT): https://arxiv.org/abs/2104.06399
- Visformer (The Vision-friendly Transformer): https://arxiv.org/abs/2104.12533
- CCT (Escaping the Big Data Paradigm with Compact Transformers): https://arxiv.org/abs/2104.05704
- Refiner (Refining Self-attention for Vision Transformers): https://arxiv.org/abs/2106.03714
Others:
- PiT (Rethinking Spatial Dimensions of Vision Transformers): https://arxiv.org/abs/2103.16302
- xCiT (Cross-Covariance Image Transformer): https://arxiv.org/abs/2106.09681
- EsViT (Efficient self-supervised Vision Transformers): https://arxiv.org/abs/2106.09785
- Token-to-token ViT (Training ViT from scratch on ImageNet): https://arxiv.org/abs/2101.11986
- DeepViT (Towards Deeper Vision Transformer): https://arxiv.org/abs/2103.11886
- PVT (Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions): https://arxiv.org/abs/2102.12122
- PVTv2 (Improved Baselines with Pyramid Vision Transformer): https://arxiv.org/abs/2106.13797
- Wider Vision Transformer (Go Wider Instead of Deeper): https://arxiv.org/abs/2107.11817
- CaiT (Going Deeper with Image Transformers): https://arxiv.org/abs/2103.17239
- CrossViT (Cross-Attention Multi-Scale Vision Transformer for Image Classification): https://arxiv.org/abs/2103.14899
- Twins-CVT (Spatial Attention in Vision Transformers): https://arxiv.org/abs/2104.13840
- LIT (Less is More: Pay Less Attention in Vision Transformers): https://arxiv.org/abs/2105.14217
- TnT (Transformer-in-Transformer): https://arxiv.org/abs/2103.00112
- Dynamic Vision Transformer: https://arxiv.org/abs/2105.15075
- Swin Transformer (Hierarchical Vision Transformer using Shifted Windows): https://arxiv.org/abs/2103.14030
- Shuffle Transformer (Rethinking Spatial Shuffle for Vision Transformer): https://arxiv.org/abs/2106.03650
- NesT (Aggregating Nested Transformers): https://arxiv.org/abs/2105.12723
- Long-Short Transformer (Efficient Transformers for Language and Vision): https://t.co/V8qKUkVH1c?amp=1
- DynamicViT (Efficient Vision Transformers with Dynamic Token Sparsification): https://arxiv.org/abs/2106.02034
- Dynamic Transformer (Dynamic Vision Transformers with Adaptive Sequence Length): https://arxiv.org/abs/2105.15075
- PS-ViT (Vision Transformer with Progressive Sampling): https://arxiv.org/abs/2108.01684
- RegionViT (Regional-to-Local Attention for Vision Transformers): https://arxiv.org/abs/2106.02689
- Focal Transformer (Focal Self-attention for Local-Global Interactions in Vision Transformers): https://arxiv.org/pdf/2107.00641.pdf
- kVT (k-NN Attention for Boosting Vision Transformers): https://arxiv.org/abs/2106.00515
- Robust Vision Transformer: https://arxiv.org/abs/2105.07926
- Glance-and-Gaze Vision Transformer: https://arxiv.org/abs/2106.02277
- Feature Fusion Vision Transformer: https://arxiv.org/abs/2107.02341
- Augmented Shortcuts for Vision Transformers: https://arxiv.org/abs/2106.15941
- CrossFormer (A Versatile Vision Transformer Based on Cross-scale Attention): https://arxiv.org/abs/2108.00154
- CSWin Transformer (A General Vision Transformer Backbone with Cross-Shaped Windows): https://arxiv.org/pdf/2107.00652.pdf
- Evo-ViT (Slow-Fast Token Evolution for Dynamic Vision Transformer): https://arxiv.org/abs/2108.01390
- PSViT (Better Vision Transformer via Token Pooling and Attention Sharing): https://t.co/OOnONItfnX?amp=1
- ImageRPE (relative position encodings) for Vision Transformers: https://arxiv.org/abs/2107.14222
- What makes for Hierarchical Vision Transformer? https://arxiv.org/abs/2107.02174

Investigations of the inner workings (cfr. BERTology):

Are Convolutional Neural Networks or Transformers more like human vision? https://arxiv.org/abs/2105.07197
Do Vision Transformers See Like Convolutional Neural Networks? https://arxiv.org/abs/2108.08810
What makes for Hierarchical Vision Transformer? (Survey on Swin + ShuffleTransformer): : https://arxiv.org/abs/2107.02174
Intriguing Properties of Vision Transformers: https://arxiv.org/abs/2105.10497
Exploring Corruption Robustness: Inductive Biases in Vision Transformers and MLP-Mixers: https://arxiv.org/abs/2106.13122

Applying ViT to other domains besides image classification:

YOLOS (object detection): https://arxiv.org/abs/2106.00666
ViTGAN (GANs): https://arxiv.org/abs/2107.04589
SegFormer (semantic segmentation): https://arxiv.org/abs/2105.15203
Feature Fusion Vision Transformer (Fine-Grained Visual Categorization): https://arxiv.org/abs/2107.02341

This repository contains an overview of important follow-up works based on the original Vision Transformer (ViT) by Google.

Related tags

Overview

Vision-Transformer-papers

Distillation:

New pre-training objectives:

New pre-training tricks, techniques:

Architectural changes:

Investigations of the inner workings (cfr. BERTology):

Applying ViT to other domains besides image classification:

Owner

This is the official implement of paper "ActionCLIP: A New Paradigm for Action Recognition"

Tool for installing and updating MiSTer cores and other files

UniMoCo: Unsupervised, Semi-Supervised and Full-Supervised Visual Representation Learning

Doosan robotic arm, simulation, control, visualization in Gazebo and ROS2 for Reinforcement Learning.

(IEEE TIP 2021) Regularized Densely-connected Pyramid Network for Salient Instance Segmentation

An efficient and easy-to-use deep learning model compression framework

Using modified BiSeNet for face parsing in PyTorch

(CVPR 2022) Pytorch implementation of "Self-supervised transformers for unsupervised object discovery using normalized cut"

CRISCE: Automatically Generating Critical Driving Scenarios From Car Accident Sketches

Face Mask Detection is a project to determine whether someone is wearing mask or not, using deep neural network.

This is a tensorflow-based rotation detection benchmark, also called AlphaRotate.

VM3000 Microphones

An example of time series augmentation methods with Keras

Classic Papers for Beginners and Impact Scope for Authors.

PyTorch and GPyTorch implementation of the paper "Conditioning Sparse Variational Gaussian Processes for Online Decision-making."

Official implementation of "A Unified Objective for Novel Class Discovery", ICCV2021 (Oral)

Exploring the link between uncertainty estimates obtained via "exact" Bayesian inference and out-of-distribution (OOD) detection.

VOS: Learning What You Don’t Know by Virtual Outlier Synthesis

UDP++ (ECCVW 2020 Oral), (Winner of COCO 2020 Keypoint Challenge).

PyTorch implementation for ComboGAN