Cross-Modal Attention Networks with Modality Disentanglement for Scene-Text VQA

Cross-Modal Attention Networks with Modality Disentanglement for Scene-Text VQA | IEEE Conference Publication | IEEE Xplore