Una persona gritando al otro lado del teléfono, símil a un familiar secuestrado, que pide plata para «salir con vida», o una Institución que supuestamente te ubicó por una deuda que tendrás que saldar transfiriendo un monto a una cuenta, son las estafas telefónicas más comunes en todo el mundo. Sin embargo, la actuación del malhechor impostando una tonalidad de voz y cierto speech para que la víctima confíe en que quien llamó es realmente quien dice ser, está siendo desplazado por las ventajas de las voces clonadas por Inteligencia Artificial (IA).
«Abuela, estoy en la cárcel, sin billetera, sin teléfono. Necesito dinero para la fianza», dijo la voz que se comunicó por teléfono con la anciana canadiense Ruth Card, quien sin pensarlo -dado el sonar humano que creyó que era de su nieto- prosiguió a dirigirse al banco para obtener el efectivo solicitado, y así poder enviarlo.
Ruth Card, de 73 años, y su esposo, Greg Grace, de 75, fueron al banco en Regina, Saskatchewan, y extrajeron unos US$ 3.000 canadienses (2.207 dólares estadounidenses), el máximo estipulado de retiro diario. Luego, corrieron hacia otra entidad bancaria, pero allí el gerente notó su comportamiento extraño, los llamó a su despacho y les reveló que otro cliente había sido llamado bajo la misma modalidad de falsificación de voz, por lo que era obvio que querían estafarlos.
En Estados Unidos, existen 36,000 informes de estafados por delincuentes que usurpan la identidad de un familiar o amigo — 5100 de éstos por teléfono y US$ 11 millones de pérdidas—, así lo reportó la Comisión Federal de Comercio en el 2022.
“Hace dos años, incluso hace un año, necesitabas mucho audio para clonar la voz de una persona”, dijo Hany Farid, profesor de ciencia forense digital en la Universidad de California en Berkeley. “Ahora… si tienes una página de Facebook… o si grabaste un TikTok y tu voz está allí durante 30 segundos, la gente puede clonar tu voz”, lanzó en diálogo con The Washigton Post.
Tal como explica el especialista informático Hany Farid, la nueva tecnología de Inteligencia Artificial en línea y con versiones gratuitas, permite no solo crear una imagen irrepetible a partir de una descripción, o bien producir una obra o mantener una conversación a partir de una temática (ChatGPT), sino que son capaces de traducir un audio de voz a otro siguiendo ciertos parámetros estipulados.
Por su parte, la empresa ElevenLabs, compañía emergente de síntesis de voz de IA fundada en el 2022, transmuta una breve muestra de voz en una voz sintética muy humanizada generada a través de una conversión de texto a voz. Así, el uso de este software que puede ser gratuito o cuya membresía puede costar entre US$5 a US$330 mensuales, generó varias «fakenews», como aquel video en que se ve y escucha a Emma Watson recitando «Mein Kampf» de Adolf Hitler. Ante acusaciones públicas sociales, la compañía está incorporando medidas de seguridad y sus usuarios gratuitos ya no pueden crear voces personalizadas.