Investigating Compositional Challenges in Vision-Language Models for Visual Grounding

Investigating Compositional Challenges in Vision-Language Models for Visual Grounding | IEEE Conference Publication | IEEE Xplore