En la actualidad más empresas en Tecnologías de la Información, se están introduciendo en el mundillo de la inteligencia artificial en España y en el resto del mundo, desarrollar sus propias herramientas, con chatbots como ChatGPT o servicios de mejora de imágenes, como Stable Diffusion. Microsoft es la última en meterse en esta situación, y ha presentado para ello su nuevo modelo de lenguaje: VALL-E.

Este modelo es de naturaleza TTS, es decir, síntesis de voz a texto. En esencia, es capaz de imitar cualquier voz humana prácticamente a la perfección con escasos segundos de exposición a la voz original. Es decir, que sobre el papel y según Microsoft, VALL-E puede imitar estas voces escuchando tan solo 3 segundos de la voz a imitar.

Microsoft deja claro en su web que VALL-E no solo se constituye por sí solo como un modelo de síntesis de voz a texto.

Sino que engloba aplicaciones de síntesis de voz que se pueden combinar con otros modelos ya conocidos en el mercado, como el ya famoso GPT-3. Eso incluye creación de contenido, edición de voz y aplicaciones de síntesis de voz zero-shot.

Funcionamiento de VALL-E

Microsoft incluye en su web no solo un esquema de cómo funciona el modelado de lenguaje de códec neural, sino que integra muestras que revelan el propio funcionamiento de VALL-E. Incluye la muestra original de la voz, si no detalles de la misma como su base o sus detalles intermedios, incluyendo su tono. VALL-E recoge todos estos detalles y los imita absolutamente todosincluyendo la cadencia de la voz.

Además, el modelo es capaz de sintetizar muestras de voz personalizadas con las llamadas seeds propias de VALL-Elo que permite prácticamente ‘transformar’ muestras de voces en otras. Tanto es así, que puede sintetizar estas voces personalizadas pero manteniendo la cadencia, el tono e incluso el entorno acústico del aviso del hablante.

Por otro lado, en las etapas previas de entrenamiento, los responsables de VALL-E escalaron los datos de entrenamiento de síntesis de voz a texto a 60.000 horas de habla en inglés, superando en palabras de Microsoft a los otros sistemas TTS zero-shot ya existentes en el mercado.

También es capaz de mantener las emociones en las muestras de voz originales de audio en una base de datos de voces emocionales.

Desde que vimos las intenciones de Microsoft de incluir modelos como ChatGPT en servicios como Bing, queda claro que los de Redmond quieren extender su mercado de IA a muchos otros términos. El hecho de que pretenda integrar VALL-E para que funcione con otros modelos generativos podría abrirnos un futuro en el que los servicios de Microsoft estuvieran aderezados por estos modelos en conjunto, formando funciones como pedir a un modelo que imite la voz de alguien en específico.

Encuentra más contenido como este en nuestras rede sociales:

Facebook - Iconos gratis de redes sociales Facebook

Linkedin - Iconos gratis de redes sociales LinkedIn

Logo Instagram PNG transparente - StickPNGInstagram

Icono de Twitter Fondo transparente | PNG PlayTwitter

¡Síguenos en nuestras redes sociales!

Grupo CINTE ® , Agencia Consultora, Bosque de ciruelos 186 Oficina 9-A, colonia Bosques de las Lomas, código postal 11700, alcaldía Miguel Hidalgo, Ciudad de México.
Oficinas en España, Colombia y Perú con presencia a nivel internacional.

Profesionales en TI