VISTA: A Visual and Textual Attention Dataset for Interpreting Multimodal Models

VISTA: A Visual and Textual Attention Dataset for Interpreting Multimodal Models | IEEE Conference Publication | IEEE Xplore