Por qué las estafas mediante audio 'deepfake' aún no son eficaces

Guardar

telefono_017
telefono_017

Los intentos de estafastelefónicas mediante el uso de grabaciones de voz manipuladas, o audios'deepfakes', están cada vez más extendidas, pero todavía tienen un importante aspectoque mejorar para ser realmente eficaces: capturar el tono y los gestosespecíficos del habla de la persona a la que suplantan.

Así lo asegura la compañía de ciberseguridad Nisos tras haber analizado una muestra de audio 'deepfake' que fue enviada a un empleado de una empresa de tecnológica como un mensaje de voz en el que se hacía pasar por el CEO de su misma compañía dándole una orden.

En dicho análisis, han detectadoque la grabación se escuchaba entrecortada y que tampoco "era consistentecon una grabación de voz humana similar". De hecho, tal y como explica lacompañía en su blog oficial, al modificar la velocidad de reproducción a 1.2.notaron que sonaba igual que un sistema estándar que traslada el texto a la vozy que no tenía ningún ruido de fondo.

"En una grabación real de voz humana el tono se suaviza más y se puede detectar un algo de ruido de fondo. El problema central con los 'deepfakes' de audio tiene que ver con capturar no solo el tono de la persona, sino también los gestos específicos del habla", apuntan desde la compañía.

https://soundcloud.com/jason-koebler/redacted-clip

En el caso de su análisis, elintento de estafa fracasó por no ser una manipulación de audio realista, algoque en Nisos afirman se hubiera corregido tomando una muestra de voz de altacalidad con poco ruido de fondo o con ninguno.

La importancia del tono y del contexto

El éxito de una estafa mediante 'deepfakes' no solo depende de estos factores. También es fundamental que el audio sintéticamente manipulado sea enviado en un escenario realista en el que no llamen la atención ni el motivo de la llamada ni el tono de la persona que habla. Si no, la potencial víctima podría contrastar el audio llamando directamente al interlocutor y seguramente se daría cuenta del engaño ya que desde Nisos también advierten de que las técnicas de audio 'deepfake' todavía no están lo suficientemente avanzadas como para soportar una conversación larga.

Otra de las claves de la estafa a través de 'deepfakes' es que se haga de tal modo que se evite tener una conversación en persona.

La compañía de ciberseguridad tambiénsubraya que ni siquiera en los casos de estafas reportadas con la utilizaciónde audios 'deepfake', está claro que realmente se emplearan audiossintéticamente manipulados por lo que, en última instancia, el actor maliciosodepende de la ingeniería social para hacer que alguien realice una acción.Asimismo, los investigadores de Nisos tampoco creen que, por el momento, setenga la capacidad de externalizar fácilmente esta clase de falsificación parala producción individual o en masa.