Vision Meets Language: Multimodal Transformers Elevating Predictive Power in Visual Question Answering

Vision Meets Language: Multimodal Transformers Elevating Predictive Power in Visual Question Answering | IEEE Conference Publication | IEEE Xplore