¿Adiós a las trampas con ChatGPT? Desarrollan marcas de agua para detectar los textos generados por IA

Antonio Martínez Ron

0

Desde la aparición de los modelos de lenguaje extenso de inteligencia artificial (IA) como ChatGPT, una de las grandes preocupaciones fue la posibilidad de que muchas personas hagan pasar por propios trabajos que en realidad produjo un algoritmo, un asunto de especial relevancia en ámbitos como el educativo o el de la investigación. 

Un equipo liderado por Sumanth Dathathri y Pushmeet Kohli, miembros del laboratorio DeepMind de Google, desarrolló un algoritmo de muestreo capaz de aplicar marcas de agua al texto generado por su herramienta de IA y hacerlo reconocible. El sistema introduce pequeños cambios, detectables estadísticamente, pero apenas apreciables para los humanos, que funcionan como una firma que puede ser reconocida por el software de detección asociado. 

El nuevo software, bautizado como SynthID-Text, se describe en un trabajo publicado este miércoles en la revista Nature. Los autores pusieron a prueba la detectabilidad de estas marcas de agua y encontraron una mejora sustancial en comparación con los enfoques existentes. El algoritmo dispone de un modo “distorsionador”, que mejora la marca de agua con un pequeño costo de la calidad de salida del texto, y un modo “no distorsionador”, que preserva la calidad del texto.

La calidad del texto se ha evaluado utilizando casi 20 millones de respuestas de interacciones de chat en vivo con el modelo de lenguaje de Google DeepMind, Gemini LLM

Los autores evaluaron el sistema utilizando casi 20 millones de respuestas de interacciones de chat en vivo con el modelo de lenguaje de Google DeepMind, Gemini LLM y concluyen que el modo sin distorsión no disminuye la calidad del texto. También comprobaron que la herramienta no tiene un impacto significante en la potencia computacional necesaria para ejecutar LLM, lo que reduce la barrera para la implementación.

Aunque los investigadores de DeepMind probaron la herramienta de Google, este tipo de aproximaciones podrían generalizarse en otras tecnologías, como la más popular, ChatGPT. La compañía responsable de este chatbot, OpenAI, reconoció este verano que tiene listo un sistema para reconocer sus textos, aunque no se decide a lanzarlo por temor a perjudicar sus resultados. “Nuestros equipos desarrollaronun método de marca de agua de texto que seguimos considerando mientras investigamos alternativas”, admitieron desde la empresa. También están investigando el uso de otras vías, como los metadatos, para reconocer la procedencia del texto.

“Esta tecnología permite a Google detectar contenido de texto generado por nuestra propia aplicación Gemini y la experiencia web”, explican desde DeepMind. “Ahora, otros desarrolladores de IA generativa podrán usar esta tecnología para ayudarlos a detectar si los resultados de texto provienen de sus propios LLM, ya que se ofrece en código en código abierto”. Los autores del nuevo trabajo consideran que es un paso más para mejorar la rendición de cuentas y la transparencia del uso responsable de la inteligencia artificial, aunque reconocen que las marcas de agua de texto se pueden evitar editando o parafraseando el resultado.

Una posible vía de escape

La doctora en inteligencia artificial, Nerea Luis, cree que el resultado es muy interesante y destaca que, a pesar de introducir ciertos conjuntos de palabras para generar esas marcas, la calidad del texto no se altera y el usuario no percibe una pérdida de calidad. “Para mí el punto fuerte es que la demostración se ha hecho con el modelo como el que usa todo el mundo, no uno de laboratorio”, explica. “Aun así, el método es efectivo en la primera generación del texto, pero no se puede mantener en el tiempo si se añade nuevo o se modifica parte”, señala. “Este es el verdadero problema en general del tema de trazabilidad si queremos aplicarlo a LLMs, especialmente con textos, que son algo tan cambiante”. 

El punto fuerte fuerte es que la demostración se ha hecho con el modelo como el que usa todo el mundo, no uno de laboratorio

“Mientras que en imágenes, videos o audios es sencillo insertar marcas de agua, en el caso del texto esto representa un desafío, ya que cualquier alteración en las palabras puede afectar significativamente el significado y la calidad del contenido”, asegura Pablo Haya, investigador del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM) en declaraciones al SMC . Actualmente, los sistemas para detectar si un documento fue generado por IA tienen bajos índices de acierto, por lo que tecnologías que faciliten la identificación de la autoría son muy necesarias, explica.

Para entender cómo funcionan estas marcas de agua, Haya pone un ejemplo. Si el modelo hubiera producido la siguiente frase: El informe muestra que el mercado ha tenido un crecimiento significativo durante el último trimestre, relata, el algoritmo de marca de agua generaría una frase equivalente, pero escogiendo una serie de palabras que, sin modificar el significado, siguen una relación estadística conocida por el algoritmo: El reporte indica que el mercado ha tenido un avance notable durante el último trimestre. “En este ejemplo, que aparezcan en la misma frase estas cuatro palabras, 'reporte', 'indica', 'avance', 'notable', y no otras, es poco probable en el caso de un LLM, y altamente probable si se ha utilizado el algoritmo de marca de agua”, explica a SMC.

Mikel Galar, experto en IA de la Universidad Pública de Navarra (UPNA), recuerda que este estudio está basado en otros trabajos previos. “Los resultados parecen convincentes y dicen que el sistema ya está implantado en Gemini y Gemini advanced”, destaca. “Creo que para sus usuarios sería importante saber esto, porque quizás no tengan interés en usar un sistema que sea fácilmente detectable”.

Este tipo de técnicas son vulnerables a modificaciones del texto o reescrituras por parte de otros modelos, por lo que su utilidad práctica está todavía por ver

Según los resultados, recuerda Galar, para textos cortos (100 tokens, 60-70 palabras) la detección es de un 50%, aunque con muy pocos falsos positivos (1%), y aumenta al 80% cuando llegamos a los 400 tokens (unas 300 palabras). “Aunque es un paso adelante, las limitaciones de este trabajo son claras y expuestas por los autores: hay muchas implementaciones abiertas en internet que no van a incluirlo”, subraya. “Además, este tipo de técnicas son vulnerables a modificaciones del texto o reescrituras por parte de otros modelos, por lo que su utilidad práctica está todavía por ver. Alguien con conocimiento podría modificar ligeramente el texto reduciendo la capacidad de detección”.