Mask-Vit: an Object Mask Embedding in Vision Transformer for Fine-Grained Visual Classification

Mask-Vit: an Object Mask Embedding in Vision Transformer for Fine-Grained Visual Classification | IEEE Conference Publication | IEEE Xplore