Multi-Modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training

Multi-Modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training | IEEE Journals & Magazine | IEEE Xplore