Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers

Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers | IEEE Conference Publication | IEEE Xplore