IA de Microsoft logra clonar voces humanas a la perfección, pero sus desarrolladores la consideran demasiado peligrosa para el público

VALL-E 2 genera un habla tan precisa y realista que podría ser utilizada para estafas | Fuente: Freepik

12 de Julio del 2024 12:12 PM · Actualizado el 4 de Noviembre del 2024 4:11 PM

Sus creadores indican que no está en los planes incorporar VALL-E 2 en un producto o ampliar su acceso al público, ya que su uso indebido podría conllevar riesgos potenciales.

En 2023, Microsoft logró desarrollar VALL-E, un nuevo modelo de inteligencia artificial capaz de imitar cualquier voz humana a partir de una grabación de solo 3 segundos. Lo más curioso de esta Inteligencia Artificial Generativa (IAG) es que no solo reproduce la voz, sino que también captura y emula el tono emocional del usuario.

Sin embargo, Microsoft decidió ir más allá de los buenos resultados obtenidos con VALL-E. La empresa ha estado desarrollando su último avance en modelos de lenguaje de códecs neuronales: VALL-E 2. Este nuevo modelo presenta mejoras significativas que elevan su rendimiento en comparación con su predecesor, logrando la "paridad humana por primera vez".

"VALL-E 2 logra por primera vez el rendimiento TTS de disparo cero de paridad humana. En este contexto, la paridad humana indica que las métricas de robustez, naturalidad y similitud de VALL-E 2 superan a las de las muestras de realidad fundamental [...], lo que significa que VALL-E 2 puede generar un habla precisa y natural en la voz exacta del hablante original, comparable al rendimiento humano", se puede leer en la web de Microsoft.

Comparativa de VALL-E 2 con otros modelos de lenguaje para la síntesis de texto a voz (TTS)Fuente: Microsoft

Es tan perfecto que genera temor

A pesar de los impresionantes avances y capacidades demostradas por VALL-E 2, los creadores han decidido mantenerla como "puramente un proyecto de investigación". Actualmente no permiten que el público tenga acceso a esta herramienta debido a los posibles riesgos asociados con su uso indebido.

En su página web, Microsoft advirtió que "puede conllevar riesgos potenciales en el uso indebido del modelo, como falsificar la identificación de voz o hacerse pasar por un hablante específico". La empresa recalcó que "no tenemos planes de incorporar VALL-E 2 en un producto o ampliar el acceso al público".

Muestras de audio con VALL-E 2

Texto	Modelo de voz	VALL-E 2
"Clever cats carefully crafted colorful collages creating cheerful compositions"

Voces clonadas: la nueva modalidad de estafa

En una entrevista para RPP, Roger Menéndez, especialista en ciberseguridad, ha advertido sobre el peligroso uso de inteligencias artificiales que, a partir de fragmentos de voz o grabaciones previas, pueden generar audios que imitan a la perfección el timbre y entonación de estas personalidades.

"Estas tecnologías permiten no solo clonar la voz, sino también editar videos de manera convincente, creando así montajes en los cuales pareciera que estas figuras públicas están promoviendo productos o solicitando acciones específicas, como hacer clic en enlaces maliciosos", mencionó Menéndez

La técnica empleada por los ciberdelincuentes consiste, en primer lugar, en crear audios falsos utilizando inteligencia artificial, luego editan videos utilizando imágenes previamente grabadas y finalmente los combinan para generar contenido engañoso y polémico. Esta manipulación tiene como objetivo incitar a las personas a realizar acciones como clics en sitios fraudulentos, descargas de software malicioso o transferencias de dinero.

Cabe mencionar que cualquier persona, sin importar si es una figura pública o no, puede ser víctima de este tipo de estafas. Menéndez advierte que los delincuentes pueden obtener fragmentos de voz de las redes sociales y utilizarlos para crear audios falsos que, por ejemplo, soliciten dinero a familiares o amigos.

RPP en YouTube

La voz de todo el Perú.

¡Suscríbete gratis

METADATA

METADATA | E251: Samsung afina la estrategia IA; Worldcoin y las preguntas que tenemos sobre el escaneo de iris

¡Bienvenidos al episodio 251 de Metadata, el podcast de Tecnología de RPP! Estamos próximos al siguiente Unpacked de Samsung y comentamos lo que esperamos. Martin Mazza, gerente de Tools for Humanity, responde nuestras dudas sobre Worldcoin. Qualcomm da el salto a las laptops con bastantes promesas y Lima tendrá un torneo de Dota 2 con 1 millón de dólares en premios.

METADATA | E251: Samsung afina la estrategia IA; Worldcoin y las preguntas que tenemos sobre el escaneo de iris

00:00 · 00:00

iREX 2025: robots boxeadores, rescatistas y auxiliares médicos destacan en la feria de autómatas más grande del mundo [FOTOS]

Caída de Cloudflare: Millones de usuarios sufrieron fallos de acceso a internet

IA de Microsoft logra clonar voces humanas a la perfección, pero sus desarrolladores la consideran demasiado peligrosa para el público

Sus creadores indican que no está en los planes incorporar VALL-E 2 en un producto o ampliar su acceso al público, ya que su uso indebido podría conllevar riesgos potenciales.

Es tan perfecto que genera temor

Muestras de audio con VALL-E 2

Voces clonadas: la nueva modalidad de estafa

RPP TV

En Vivo

iREX 2025: robots boxeadores, rescatistas y auxiliares médicos destacan en la feria de autómatas más grande del mundo [FOTOS]

Caída de Cloudflare: Millones de usuarios sufrieron fallos de acceso a internet

China va a ganar la carrera de la IA a EE.UU., advirtió el director de Nvidia

Wikipedia tiene rival: Elon Musk lanza Grokipedia, su enciclopedia creada con inteligencia artificial

Caída en la nube de Amazon causa fallos en sitios web y aplicaciones de todo el mundo

Lo más leído

Estados Unidos

¡En plena audiencia! Acusado atacó a jueza que le negó la libertad condicional [VIDEO]

La Libertad

La Libertad reportó dos muertos por la COVID-19 y ya suman tres a nivel nacional en 2024

Actualidad

¡Atención! Actualmente hay 89 playas no saludables y solo 42 saludables en el Perú, según Digesa

Estados Unidos

Reportan víctimas en tiroteo en una escuela secundaria de Iowa

Actualidad

Verano 2024: conoce cuáles son las playas saludables para visitar, según Digesa

Gobierno

José Jerí se disculpa tras agresión a periodistas de RPP por parte de su escolta en Tacna: "Es un hecho que no debe volver a darse"

Fútbol Mundial

Partidos de hoy, jueves 4 de diciembre del 2025: revisa la programación de la fecha

España

Escándalo en España: audio filtrado revela que gestor de hospital pedía rechazar pacientes para aumentar ganancias

Servicios públicos

Alumnos de la Universidad Nacional de Trujillo piden apoyo para obtener visa estudiantiles para estudiar en México

La Libertad: 15 mil pacientes se atendieron con tomógrafos de última generación