VLT: Vision-Language Transformer and Query Generation for Referring Segmentation

VLT: Vision-Language Transformer and Query Generation for Referring Segmentation | IEEE Journals & Magazine | IEEE Xplore