Deepfake
Estos audios adulterados fueron analizados por expertos. | Fuente: Difusión

Los intentos de estafa que usan grabaciones de voz manipuladas, o audios deepfakes, empiezan a ser comunes, pero todavía tienen una barrera que sortear para ser verdaderamente eficaces: capturar el tono de la persona que suplantan, pero también sus gestos específicos en el habla.

La compañía de ciberseguridad Nisos ha analizado una muestra de audio deepfake enviada a un empleado de una empresa tecnológica como mensaje de voz, que se hacía pasar por una orden del CEO de la misma. 

En su análisis, han descubierto que la grabación se escuchaba entrecortada y "no era consistente con una grabación de voz humana similar". De hecho, según explica en su blog oficial, cuando modificaron la velocidad de reproducción a 1.2, detectaron que sonaba como un sistema estándar que traslada el texto a voz y que carecía de ruido de fondo

En una grabación real de voz humana, señalan, el tono se suaviza más y se puede detectar un algo de ruido de fondo". "El problema central con los 'deepfakes' de audio tiene que ver con capturar no solo el tono de la persona, sino también los gestos específicos del habla", apuntan desde la compañía.

En este caso, el intento de estafa falló por no ser una manipulación de audio realista; para ello, señalan, se debería haber cogido una muestra de voz de alta calidad con poco o ningún ruido de fondo.

Asimismo, el audio sintéticamente manipulado debe enviarse en un escenario realista -tono de la persona que habla, el ruido de fondo y el motivo de la llamada-. Si no, la potencial víctima puede llamar al interlocutor para contrastar el audio. En este caso, avisan que las técnicas de audio deepfake no están todavía lo suficientemente avanzadas como para soportar una conversación larga.

El envío del mensaje de audio, además, debe hacer de tal forma que se evite tener una conversación en persona.

La compañía señala que aun en los casos de estafas reportadas con la implicación de audios, no está claro que realmente se emplearan audios sintéticamente manipulados, y que, en última instancia, el actor malicioso depende de la ingeniería social para hacer que alguien realice una acción.

Los investigadores de Nisos tampoco creen que por el momento se tenga la capacidad de externalizar fácilmente este tipo de falsificación para la producción individual o en masa.

(Con información de Europa Press)

Te recomendamos METADATA, el podcast de tecnología de RPP. Noticias, análisis, reseñas, recomendaciones y todo lo que debes saber sobre el mundo tecnológico. Para escucharlo mejor, #QuedateEnCasa.