VITS


El famoso paper es “VITS End-to-End Text-to-Speech” y describe una técnica de síntesis de voz que utiliza una red neuronal convolucional para generar audio directamente a partir de texto. Esta técnica se llama “VITS” (Variational Inference with Transformers and Speech Synthesis) y es capaz de producir voces con una calidad comparable a las voces humanas en una variedad de idiomas y estilos de habla. El paper presenta resultados prometedores en términos de calidad de voz y velocidad de generación, lo que lo convierte en una opción interesante para aplicaciones de síntesis de voz en tiempo real.

Paper. Demo. Github.