Cada vez resulta más difícil distinguir lo real de lo generado por inteligencia artificial. La suplantación de voz ya se usa para atacar a empresas. Pero, ¿cómo identificar una llamada falsa mediante IA? Vamos a tratar en esta publicación, la amenaza que cada día consigue engañar a más empresas, con lo que ello puede suponer.
Hasta hace un tiempo, se podía creer todo lo que veíamos y escuchábamos. Lamentablemente, esos días ya no volverán. La IA Generativa (GenAI) ha democratizado la creación de audio y vídeo falsos, hasta el punto que generar un clip fabricado es tan fácil como pulsar un botón. Esto supone una muy mala noticia, principalmente para las empresas.
Las deepfakes pueden ser usadas de varias formas: desde eludir autenticaciones y controles del tipo knowYourClient, hasta infiltrarse en organizaciones, creando un candidato falso para procesos de selección de personal. Sin embargo, la mayor amenaza que plantean, se puede decir que es el fraude financiero y el secuestro de cuentas de ejecutivos.
Según informes del Gobierno británico, el año pasado se llegaron a compartir hasta 8 millones de clips falsos, frente a los 500 mil que habían sido compartidos en el año 2023. La cifra puede ser mucho mayor, aunque las organizaciones tienden a subestimar esta amenaza.
¿Cómo funciona el ataque?
Nunca había sido tan fácil lanzar un ataque de audio deepfake. Todo lo que se requiere, es un clip corto de la víctima para ser suplantado. La IA generativa hará el resto, pudiendo proceder al ataque de la siguiente manera:
- Un atacante, selecciona a la persona que va a suplantar. Puede ser un CEO, un CFO o incluso un proveedor de la empresa.
- Mediante una muestra de audio en Internet, lo cual resulta bastante fácil de obtener, ya que muchos ejecutivos de alto nivel hablan en público con bastante regularidad, con unos segundos de grabación bastaría.
- Seleccionan a la persona a la que van a llamar. Para ello, puede ser necesaria una investigación documental, normalmente en LinkedIn, en busca de personal del servicio de asistencia informática o miembros del equipo financiero, por ejemplo.
- Pueden llamar directamente a la persona, o bien, enviar un correo electrónico en el que un director general solicita una transferencia de dinero urgente, una solicitud de restablecimiento de contraseña o autenticación multifactor (MFA), o un proveedor exige el pago de una factura vencida, por ejemplo.
- Llaman al objetivo preseleccionado, utilizando el audio deepfake, generado mediante IA, para hacerse pasar por el CEO o el proveedor. Dependiendo de la herramienta, pueden ceñirse a un discurso preestablecido o utilizar un método más sofisticado de «voz a voz», en el que la voz del atacante se traduce casi en tiempo real.

¿Difícil de creer?
Este tipo de ataque, resulta cada vez más barato y sencillo de realizar, a la vez que convincente. Algunas herramientas, son capaces incluso, de insertar ruidos de fondo, pausas o tartamudeos, para que la voz suplantada resulte aún más creíble. Cada vez imitan mejor los ritmos, las inflexiones y los tics verbales, propios de cada orador. Pero, cuando un ataque se lanza por teléfono, los fallos relacionados con la IA pueden ser aún más difíciles de detectar, para quien se encuentra a la escucha.
Los atacantes, también pueden utilizar tácticas de ingeniería social, como presionar para que la persona responda con mayor urgencia a su petición, con el fin de lograr sus objetivos. Si a ello, añadimos que a menudo se hacen pasar por un alto ejecutivo, es fácil ver por qué algunas víctimas son engañadas. ¿Quién querría llevarle la contraria al mismísimo director general?
Dicho esto, existen distintas formas de detectar a un impostor. Dependiendo de lo sofisticada que sea la IA que están utilizando, puede ser posible discernir lo siguiente:
- Un ritmo antinatural en el discurso del orador.
- Un tono emocional demasiado «plano» en la voz del orador.
- Respiración poco natural o incluso, emitir frases largas sin respirar.
- Un sonido robótico, detectable cuando se utilizan herramientas menos avanzadas.
- Ruidos de fondo ausentes o demasiado uniformes.

¿Cómo actuar?
La razón por la que los autores dedican cada vez más tiempo a este tipo de estafas, es muy sencilla: las posibles recompensas que ofrecen. Uno de los mayores errores, que pueden ilustrar este hecho, se produjo en 2020 cuando se consiguió engañar al empleado de una empresa de los Emiratos Árabes Unidos, haciéndole creer que su director llamaba para solicitar una transferencia de fondos por valor de 35 millones de dólares, para una operación de fusión y adquisición de otra empresa.
Puesto que la tecnología deepfake ha mejorado significativamente desde entonces, vale la pena revisar algunos pasos clave, que se pueden tomar para minimizar el riesgo de que esto pueda llegar a ocurrir.
Para ello, es fundamental empezar por la formación y concienciación de los empleados. Dichos programas deben actualizarse, para incluir simulaciones de audio deepfake, que garanticen que el personal sabe qué puede esperar, qué está en juego y cómo actuar. Se debe enseñar a detectar aquellos signos reveladores de la ingeniería social, así como los escenarios típicos de deepfake, como los descritos anteriormente. Deben realizarse ejercicios de red team, para comprobar si los empleados asimilan bien el proceso correcto:
- Verificación de cualquier solicitud telefónica, utilizando cuentas de mensajería corporativas, para comprobar con el remitente de forma independiente.
- Que dos personas sean las que firmen las transferencias financieras importantes o los cambios en los datos bancarios de los proveedores, puede ser de gran ayuda.
- Establecer contraseñas o preguntas acordadas previamente, que los ejecutivos deban responder, para demostrar así que son quienes dicen ser por teléfono.
La tecnología también puede ser de gran ayuda. Existen en el mercado, herramientas de detección que comprueban diversos parámetros para detectar la presencia de voz sintética. Aunque más difícil de poner en práctica, otra forma de actuar sería limitar las oportunidades para que los actores de amenazas, se hagan con el audio, limitando las apariciones públicas de los ejecutivos.
Trabajar de la mano personas, procesos y tecnología
La conclusión es que las falsificaciones son cada vez más sencillas de realizar y su producción cuesta muy poco. Dadas las enormes sumas que pueden obtener los estafadores, no es probable que se vea a corto o medio plazo el final de las estafas de clonación de voz, que han ido en aumento con el avance de la tecnología.
La sofisticación de estas técnicas permite que se imiten voces de manera casi indistinguible, lo que genera un alto nivel de confianza en las víctimas potenciales. Por lo tanto, la mejor opción que tiene una organización para mitigar el riesgo, es un enfoque integral que combine las capacidades del personal, la implementación rigurosa de procesos internos, así como la adopción de tecnologías avanzadas para detectar y prevenir fraudes.
Dicho enfoque debe incluir la formación constante de los empleados para que puedan identificar signos de estafas, así como la inversión en herramientas de inteligencia artificial que ayuden a reconocer patrones de comportamiento sospechosos y alerten sobre posibles amenazas en tiempo real. Para que se adapte a medida que avanza la innovación en IA, es importante que sea revisado periódicamente.
El nuevo panorama del ciberdelito, exige una atención cada vez más constante.


Deja un comentario