Task-aware Cross-modal Feature Refinement Transformer with Large Language Models for Visual Grounding

Task-aware Cross-modal Feature Refinement Transformer with Large Language Models for Visual Grounding | IEEE Conference Publication | IEEE Xplore