cViL: Cross-Lingual Training of Vision-Language Models using Knowledge Distillation

cViL: Cross-Lingual Training of Vision-Language Models using Knowledge Distillation | IEEE Conference Publication | IEEE Xplore