Microsoft revela VALL-E, una IA capaz de imitar cualquier voz con tan solo escucharla por 3 segundos

VALL-E es la nueva inteligencia artificial de Microsoft capaz de imitar la voz de cualquier persona con tan solo escucharla por 3 segundos. | Fuente: Unsplash | Fotógrafo: KELLY SIKKEMA X

10 de Enero del 2023 9:28 AM · Actualizado el 10 de Enero del 2023 9:28 AM

El nuevo modelo de lenguaje para la síntesis de texto a voz desarrollado por Microsoft puede replicar cualquier voz con solo 3 segundos de haberla escuchado.

Microsoft está sumamente interesada en la inteligencia artificial y no solo ha optado por invertir en GPT-3 de OpenAI, la cual terminará siendo aplicada a los programas y servicios de la firma como Word y Bing, sino que además ha presentado una nueva iniciativa desarrollada por su propio equipo. La compañía ha revelado VALL-E, una herramienta capaz de imitar la voz de cualquier persona con tan solo haberla escuchado por 3 segundos.

La empresa dirigida por Satya Nadella está trabajando en sus propios modelos de inteligencias artificiales. En concreto, VALL-E es un modelo de lenguaje para la síntesis de texto a voz (TTS) basado en EnCodec -códec de audio de Meta- que puede generar audios mediante una pequeña descripción en texto.

Diferenciándose de otras tecnologías similares

Si bien la propia Microsoft ya cuenta con un sistema similar llamado Text to Speech para convertir un texto en voz sintetizada, la característica que diferencia a VALL-E de su antecesor según la compañía es que puede analizar la voz de una persona para luego interpretar cómo sonaría con frases distintas mientras conserva la entonación y las emociones del hablante. Solo requiere de 3 segundos para obtener resultados sorprendentes.

“Específicamente, entrenamos un modelo de lenguaje de códec neuronal utilizando códigos discretos derivados de un modelo de códec de audio neuronal listo para usar, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de una regresión de señal continua como en el trabajo anterior. Durante la etapa previa al entrenamiento, escalamos los datos de entrenamiento de TTS a 60 mil horas de habla en inglés, lo que es cientos de veces más grande que los sistemas existentes”, dijo Microsoft en la web de la herramienta.

VALL-E es un modelo de lenguaje para la síntesis de texto a voz (TTS) basado en EnCodec que puede generar audios mediante una pequeña descripción en texto.Fuente: GitHub/Microsoft

Una IA impresionante y peligrosa

Además de ser capaz de replicar la voz de cualquier persona con una excelencia de temer, la inteligencia artificial VALL-E de Microsoft también puede usarse con otros modelos de IA generativa como el ya mencionado GPT-3. A través de esta opción, los usuarios tendrán la facultad de pedirle al popular chatbot ChatGPT que imite la voz de un personaje en específico.

Con estas alternativas, Microsoft busca conseguir un sistema capaz de crear discursos de voz mediante una descripción de texto y, si bien resulta impresionante en concepto, lo cierto es que puede representar un grave riesgo si es que llega a estar disponible al público general. VALL-E podría ser utilizado para suplantar la identidad de las personas.

Microsoft señaló que “es posible construir un modelo de detección para discriminar si un clip de audio ha sido sintetizado por VALL-E”, pero esta IA podría ser el medio por el que una nueva generación de estafas aparezca en Internet.

Te recomendamos METADATA, el podcast de tecnología de RPP. Noticias, análisis, reseñas, recomendaciones y todo lo que debes saber sobre el mundo tecnológico.

"La IA debe ser sencilla y fluida": Samsung explica la visión detrás del Galaxy S26 [Entrevista]

Samsung Galaxy S26, S26+ y S26 Ultra: precios, características, colores y todos los detalles de los nuevos modelos

Samsung presentó el Galaxy S26, su nueva línea de smartphones de gama alta que refuerza el uso de la inteligencia artificial

Samsung Galaxy Unpacked 2026 EN VIVO: ¿Dónde ver el lanzamiento del S26, S26+ y S26 Ultra?

Microsoft revela VALL-E, una IA capaz de imitar cualquier voz con tan solo escucharla por 3 segundos

El nuevo modelo de lenguaje para la síntesis de texto a voz desarrollado por Microsoft puede replicar cualquier voz con solo 3 segundos de haberla escuchado.

Diferenciándose de otras tecnologías similares

Una IA impresionante y peligrosa

RPP TV

En Vivo

"La IA debe ser sencilla y fluida": Samsung explica la visión detrás del Galaxy S26 [Entrevista]

Samsung Galaxy S26, S26+ y S26 Ultra: precios, características, colores y todos los detalles de los nuevos modelos

Samsung presentó el Galaxy S26, su nueva línea de smartphones de gama alta que refuerza el uso de la inteligencia artificial

Samsung Galaxy Unpacked 2026 EN VIVO: ¿Dónde ver el lanzamiento del S26, S26+ y S26 Ultra?

WhatsApp ya no funcionará en algunos celulares desde fines de febrero 2026: ¿cuáles son?

Lo más leído

Estados Unidos

¡En plena audiencia! Acusado atacó a jueza que le negó la libertad condicional [VIDEO]

La Libertad

La Libertad reportó dos muertos por la COVID-19 y ya suman tres a nivel nacional en 2024

Actualidad

¡Atención! Actualmente hay 89 playas no saludables y solo 42 saludables en el Perú, según Digesa

Estados Unidos

Reportan víctimas en tiroteo en una escuela secundaria de Iowa

Actualidad

Verano 2024: conoce cuáles son las playas saludables para visitar, según Digesa

Lima

Lluvias intensas en Lima elevan a "nivel naranja" tramos del río Rímac y se producen "flujos de agua" en vías

Judiciales

Abogado penalista señala que Marisel Linares deberá pagar una eventual reparación civil en caso de Lizeth Marzano

Arequipa

Emergencia en Arequipa: así se encuentran las zonas afectadas tras el último desborde de la torrentera Chullo [VIDEO]

Fútbol Mundial

Partidos de hoy, jueves 26 de febrero del 2026 EN VIVO: horarios y canales TV

EE. UU. obligará a las aerolíneas a cambiar los altímetros que tengan problemas con las redes 5G