ViLLA: Fine-Grained Vision-Language Representation Learning from Real-World Data

ViLLA: Fine-Grained Vision-Language Representation Learning from Real-World Data | IEEE Conference Publication | IEEE Xplore