CrossMAE: Cross-Modality Masked Autoencoders for Region-Aware Audio-Visual Pre-Training

CrossMAE: Cross-Modality Masked Autoencoders for Region-Aware Audio-Visual Pre-Training | IEEE Conference Publication | IEEE Xplore