Facetron: A Multi-Speaker Face-to-Speech Model Based on Cross-Modal Latent Representations

Facetron: A Multi-Speaker Face-to-Speech Model Based on Cross-Modal Latent Representations | IEEE Conference Publication | IEEE Xplore