Multi-Modal Structure-Embedding Graph Transformer for Visual Commonsense Reasoning

Multi-Modal Structure-Embedding Graph Transformer for Visual Commonsense Reasoning | IEEE Journals & Magazine | IEEE Xplore