ViT-ReT: Vision and Recurrent Transformer Neural Networks for Human Activity Recognition in Videos

ViT-ReT: Vision and Recurrent Transformer Neural Networks for Human Activity Recognition in Videos | IEEE Journals & Magazine | IEEE Xplore