MLCA-AVSR: Multi-Layer Cross Attention Fusion Based Audio-Visual Speech Recognition

MLCA-AVSR: Multi-Layer Cross Attention Fusion Based Audio-Visual Speech Recognition | IEEE Conference Publication | IEEE Xplore