¿Te podrían engañar con una voz copiada por una Inteligencia Artificial? Hacé la prueba

Antonio Martínez Ron

0

En marzo de 2019 se produjo la primera gran estafa mediante la suplantación de la voz de la que tenemos noticia. Un ejecutivo de una filial británica de una gran compañía energética recibió una llamada desde la central en Alemania en la que un superior jerárquico le pedía que hiciera una transferencia urgente a un cliente. El empleado hizo un pago de 220.000 euros y días después la llamada se repitió; solo entonces descubrieron que la voz al otro lado del teléfono no era la del jefe de operaciones, sino una voz generada por computadora para engañarlos.

La tecnología para copiar la voz de cualquier persona experimentó un crecimiento exponencial desde entonces. Apple anunció recientemente el lanzamiento de un software que permitirá crear una copia de tu voz a partir de 15 minutos de grabaciones, facilitando un proceso que antes requería conocimientos técnicos. Al mismo tiempo, la proliferación de herramientas de Inteligencia Artificial (IA) generativa facilitó que numerosos canales de entretenimiento usen la duplicación de la voz para realizar montajes. En TikTok, por ejemplo, la cuenta ‘El Circo de los Diputados’ reproduce partidas de Minecraft comentadas por las voces de políticos como Pablo Iglesias o Santiago Abascal (que generan mediante la IA de ElevenLabs) y durante la campaña electoral se viralizó un vídeo en el que Pedro Sánchez repetía una perorata muy conocida del youtuber Xocas, con su voz duplicada.

Con este panorama, la posibilidad de que este tipo de tecnologías interfieran en nuestras vidas aumenta, pero ¿hasta qué punto son efectivas y dónde llega su capacidad de engaño? Es la pregunta que se hicieron un grupo de investigadores del University College de Londres, en Reino Unido, quienes publican este miércoles un interesante estudio en la revista PLOS ONE. Para el trabajo, el equipo de la investigadora Kimberly Mai reclutó a 529 personas y les pidió que completaran una actividad en línea que consistía en intentar identificar, entre múltiples clips de audio, cuáles eran las voces humanas reales y cuáles eran las falsificaciones generadas por la tecnología. 

Los participantes identificaron correctamente las falsificaciones del habla solo el 73 por ciento de las veces

El estudio se llevó a cabo tanto en inglés como en mandarín y el resultado fue que los participantes identificaron correctamente las falsificaciones del habla solo el 73 por ciento de las veces. Los hablantes de los dos idiomas mostraron tasas de detección similares, aunque cuando se les pidió que describieran las características del habla que usaron para la detección, los hablantes de inglés mencionaron con mayor frecuencia la respiración, mientras que los hablantes de mandarín mencionaron más a menudo la cadencia, el ritmo entre palabras y la fluidez.

Los autores también comprobaron que en la mitad de los participantes a los que entrenaron antes de la prueba (les pusieron cinco grabaciones sintéticas para que vieran cómo eran) la capacidad de discernir entre unos y otros apenas mejoró un dos por ciento. “Nuestros hallazgos confirman que los humanos no pueden detectar de manera confiable una voz falsa, ya sea que hayan recibido o no capacitación para ayudarlos a detectar contenido artificial”, señala Mai. 

Ponete a prueba

De los 50 clips de audio de las pruebas, hubo algunas en los que los participantes se equivocaron con mayor frecuencia, dos de las cuales reproducimos aquí para que los lectores puedan poner a prueba su propia capacidad de diferenciar entre una voz artificial y una humana. Se trata de dos pares de audios que dicen la misma frase en inglés, en la que una grabación es real y la otra es falsa. Elegí la opción que crees real y consultá los resultados al final del artículo (donde vas a encontrar otras dos pruebas).

  • PRUEBA 1

Audio 1 A

Your browser doesn’t support HTML5 audio

Audio 1 B

Your browser doesn’t support HTML5 audio

  • PRUEBA 2

Audio 2 A

Your browser doesn’t support HTML5 audio

Audio 2 B

Your browser doesn’t support HTML5 audio

Mejorar los detectores de deepfakes 

Otro de los puntos que abordaron los autores del estudio fue comparar la capacidad de los humanos para detectar deepfakes de audio con la de los sistemas automatizados que se emplean con este objetivo. Aunque hubo diferencias dependiendo del tipo de prueba, lo que vieron en general fue que los humanos eran “peores que los mejores programas automatizados de detección” (en una de las condiciones el detector automático acertaba en un 100 % de ocasiones frente al 73 % de los humanos). Pero este nivel de aciertos solo los tenía el sistema cuando era específicamente entrenado con la voz de las pruebas; cuando se usaba un sistema estándar no entrenado, el nivel de aciertos era mucho peor incluso que las personas. Por eso los autores consideran que el siguiente paso debe ser desarrollar mejores detectores de voz automatizados para contrarrestar la amenaza del audio y las imágenes generadas artificialmente.

Aunque los 'deepfakes' tienen aplicaciones positivas, los actores maliciosos pueden usarlos para cometer delitos”, explica Mai a elDiario.es. “Los algoritmos de código abierto para sintetizar el habla están disponibles gratuitamente y, además de para cometer fraude, se han usado en campañas de desinformación y phishing”. Dado que los detectores automáticos fallan en condiciones de ruido ambiente y cuando se cambian las identidades de los hablantes, cree que la prioridad debe ser “mejorar los detectores automatizados haciéndolos más resistentes a las diferencias en el audio de prueba”. 

Los algoritmos de código abierto para sintetizar el habla , además de para cometer fraude, se han usado en campañas de desinformación

Con la tecnología de inteligencia artificial generativa cada vez más sofisticada y muchas de estas herramientas disponibles en abierto, estamos a punto de ver numerosos beneficios y riesgos”, asegura Lewis Griffin, investigador del UCL Computer Science y autor principal del estudio. “Sería prudente que los gobiernos y las organizaciones desarrollen estrategias para enfrentar el abuso de estas herramientas”.

Condiciones demasiado ideales

A Inma Hernáez, investigadora del Centro HiTZ de la Universidad del País Vasco (UPV/EHU) especializada en tecnologías de voz, no le sorprende que los humanos confundan muchas de estas reproducciones, puesto que son casi perfectas en condiciones ideales. “Otra cosa sería sacarlo del dominio, como si les pones a leer poesía”, observa. “Las condiciones donde se hicieron los experimentos son muy de laboratorio, en el sentido de que no son realistas para situaciones donde los 'deepfakes'  puede ser problemáticos”, coincide Fernando Cucchietti, responsable del grupo de Análisis y Visualización de datos del Barcelona Supercomputing Centre (BSC-CNS), en declaraciones al SMC. “Es un estudio muy puntual con condiciones muy concretas que en otros contextos no tienen por qué aplicarse completamente”, sostiene.

Hernáez recalca que en este estudio se evaluaron “deepfakes” hechos con un sistema que fue entrenado con unas 24 horas de audio de un mismo locutor, cuando “las posibilidades de que esto se dé en la realidad son bastante remotas”. “Más preocupante es la calidad que están alcanzando sistemas tipo 'zero-shot' que imitan la voz con unos pocos segundos de entrenamiento”, advierte. “Esto significa que yo te grabo unos minutitos y luego hago un sintetizador con tu voz y lo uso para entrar en tu cuenta bancaria y me borro”, bromea.

La voz generada por IA a menudo hace pausas largas donde no corresponde y respira donde no debería

A su juicio, la gran limitación de este estudio es que trabaja con condiciones ideales. Por suerte, de momento, los sistemas de reproducción de voz suelen tener algunas lagunas que permiten al oyente no entrenado sospechar que no es una voz real. “Hace pausas largas donde no corresponde y respira donde no deberían, y a veces la entonación no corresponde bien con lo que está diciendo”, describe.

Una prueba extra

Para comprobar la diferencia de generación de voz de una red neuronal entrenada, como la del estudio, con lo que se está haciendo con herramientas disponibles para creadores, dejamos otros dos test de agudeza auditiva para poner a prueba la capacidad de distinguir a la máquina del humano.

Con la colaboración con los creadores del canal de TikTok El Circo de los Diputados’, añadimos dos recreaciones de voces de dos de los políticos españoles que han mimetizado: Pedro Sánchez y Mariano Rajoy. Como antes, se trata de distinguir la voz real de la artificial, aunque en este caso será presumiblemente más sencillo porque el sistema no está tan entrenado como el del estudio.

  • PRUEBA 3

Audio Sánchez 1

Your browser doesn’t support HTML5 audio

Audio Sánchez 2

Your browser doesn’t support HTML5 audio

  • PRUEBA 4

Audio Rajoy 1

Your browser doesn’t support HTML5 audio

Audio Rajoy 2

Your browser doesn’t support HTML5 audio

Al escuchar los dos clips de la mítica frase de Rajoy, parece más fácil que antes distinguir la voz artificial creada con herramientas comerciales disponibles en abierto. Para que se vea la diferencia, adjuntamos aquí un tercer clip de Rajoy, generado por la red neuronal de un equipo de investigadores de un centro puntero que, de momento, prefieren mantenerse en el anonimato. Es una muestra del “estado del arte” en el mundo de la generación de voces artificiales y de la inquietante capacidad de copia a la que se puede llegar:

Audio Rajoy 3

Your browser doesn’t support HTML5 audio

Mucho más parecido, ¿no? Lo que parece difícil de copiar, por mucho que avance la tecnología, es la forma de construir frases de Rajoy.

LC

La solución a las pruebas

Prueba 1: El audio real es el 1A

Prueba 2: El audio real es el 2 B

Prueba 3: El audio real es el de Sánchez 2

Prueba 4: El audio real es el de Rajoy 1