UMML: Layout-aware Text-Image Fusion for Unified Multilingual Multimodal Learning

UMML: Layout-aware Text-Image Fusion for Unified Multilingual Multimodal Learning | IEEE Conference Publication | IEEE Xplore