Multimodal Fusion of Transformer with Attention Mechanism for Improved Contextual Image Captioning

Multimodal Fusion of Transformer with Attention Mechanism for Improved Contextual Image Captioning | IEEE Conference Publication | IEEE Xplore