En la actualidad más empresas en Tecnologías de la Información, se están introduciendo en el mundillo de la inteligencia artificial en España y en el resto del mundo, desarrollar sus propias herramientas, con chatbots como ChatGPT o servicios de mejora de imágenes, como Stable Diffusion. Microsoft es la última en meterse en esta situación, y ha presentado para ello su nuevo modelo de lenguaje: VALL-E.
Este modelo es de naturaleza TTS, es decir, síntesis de voz a texto. En esencia, es capaz de imitar cualquier voz humana prácticamente a la perfección con escasos segundos de exposición a la voz original. Es decir, que sobre el papel y según Microsoft, VALL-E puede imitar estas voces escuchando tan solo 3 segundos de la voz a imitar.