Microsoft sorprende con una IA que copia la voz humana

Aseguran que con solo tres segundos de muestra puede emular el tono de una persona a la perfección. Su uso aún no está disponible para el público.

Anahí Di Santo.

Periodista.

Guardar

IA voz digital
IA voz digital

El reciente lanzamiento de Microsoft se llama VALL-E y es una novedosa herramienta de Inteligencia Artificial para convertir texto a voz. Sus creadores aseguran que solo hacen falta tres segundos de muestra de la voz original de una persona para poder imitarla y generar audios de alta calidad, diciendo cualquier cosa y conservando un tono humano y personal, pero producidos de manera digital.

La característica de estas tecnologías es que su “aprendizaje” se basa en la repetición, por eso para entrenarlas hace falta un gran volumen de datos que le servirán de ejemplo para luego ejecutar tareas con autonomía, lo que se denomina Machine Learning. Para Vall-E, Microsoft tomó la biblioteca de audio "LibriLight" de Meta, que contiene unas 60.000 horas de voces en inglés de más de 7.000 personas distintas, que han sido extraídas de audiolibros de dominio público de LibriVox.

Sin embargo, o al menos por el momento, para que VALL-E funcione adecuadamente, el gigante tecnológico indica que se requiere que la muestra de tres segundos original coincida con una voz de las que tiene en sus datos de entrenamiento.

Los resultados no son óptimos en todos los casos, pero sí sorprendentes y un poco escalofriantes. En este enlace es posible escuchar algunos ejemplos. No solamente imita el timbre de voz del hablante, sino también las inflexiones y entonaciones que puede realizar una persona al expresarse, que tienen que ver con características personales o de estados de ánimo, lo que hasta el momento diferenciaba a las voces reales de las sintéticas por su ritmo “robótico”. Y también tiene en cuenta el entorno acústico en el que se realizó la grabación de muestra, que será a la vez replicado en el audio resultante.

Complementos y familia IA

El nombre de esta nueva herramienta hace referencia a DALL-E, una inteligencia artificial generativa de imágenes realistas o ilustraciones a partir de breves textos descriptivos.

En la que se podría denominar su versión sonora, VALL-E utiliza un “modelo de lenguaje de códec neuronal”. Esto quiere decir que su funcionamiento no se basa en la copia de las ondas de sonido, sino que divide la información en componentes discretos denominados como "tokens" usando otra tecnología, EnCodec. Esta aplicación creada por Meta, es un códec de audio diez veces más eficiente que MP3, y sirve para comprimir y descomprimir archivos multimedia sin alterar la calidad.

Entonces, VALL-E, usa datos de su entrenamiento (basado en la biblioteca de audio mencionada) para comparar lo que "conoce" sobre cómo sonaría esa voz si dijera otras frases, más allá de esas pocas palabras de la muestra de tres segundos.

Otra de las funcionalidades de esta novedosa herramienta, además del pasaje de texto a voz, es la edición de grabaciones en las que se podría cambiar el contenido del audio, a partir de un texto ingresado por un usuario o por contenidos creados a partir de otra inteligencia artificial generativa, como ChatPGPT, que realiza tareas relacionadas con el lenguaje, desde la traducción hasta la generación de texto.

Riesgos de uso indebido

Dada la posibilidad de confundir un audio generado artificialmente con uno emitido por una persona, con el peligro ético (y también legal) de que sea utilizado para “colocar palabras en la boca de alguien”, Microsoft no ha abierto al público el uso de la herramienta. Desde la compañía señalan que esto podría derivar en riesgos potenciales en el uso indebido de su modelo, principalmente para falsificar identificaciones de voz, o hasta suplantaciones.

Además, aseguran que todas las pruebas se han realizado con el consentimiento de las personas que prestaron sus voces para ser imitadas por la inteligencia artificial. Y que es importante que quienes utilicen VALL-E en el futuro acepten ejecutar el software captando sus voces.