Ciberseguridad

Una simple técnica de piratería facilita la extracción de datos de entrenamiento de ChatGPT

Para que el chatbot empiece a revelar sus secretos solo hay que incitarlo a repetir ciertas palabras, según ha descubierto un grupo de investigadores.

Periodista

5 de diciembre de 2023 (07:40 CET)

Guardar

ChatGPT (Foto de Emiliano Vittoriosi en Unsplash)

Los investigadores de ciberseguridad siguen buscándole las vueltas a ChatGPT. Cuatro expertos pertenecientes a Google DeepMind, junto a otros de la Universidad de Cornell y otras cuatro investigadores han probado cómo la herramienta de OpenAI puede filtrar datos cuando se le solicita de manera específica.

Según sus hallazgos, es tan sencillo como hacer que el chatbot repita la misma palabra una y otra vez para lograr que 'vomite' grandes cantidades de información que se han usado para su entrenamiento, incluyendo información de identificación personal.

En un un informe que se acaba de publicar los investigadores han descrito cómo han logrado que ChatGPT revele este contenido simplemente incitándolo a repetir palabras como "poema", "compañía", "enviar", "hacer" y "parte", según se hace eco Dark Reading.

Al pedir al chatbot que reprodujera la primera de estas palabras para siempre, al principio comenzó a hacerlo sin problemas, según las instrucciones. Pero transcurridos cientos de veces el modelo de lenguaje comenzó a ofrecer resultados sin sentido, que incluían porciones de los datos de entrenamiento que había memorizado. Entre ellos, estaban la firma de email de un individuo y detalles de contacto.

A base de ensayo-error los investigadores descubrieron que había ciertas palabras más propicias para lograr que la IA generativa compartiera 'alegremente' esos datos. Pidiéndole que repitiera el término 'empresa' , por ejemplo, hacía que emitiera la información de entrenamiento 164 veces más a menudo que otras palabras como "saber".

En definitiva, los autores de este experimento pudieron obtener información de identificación de docenas de personas, contenido explícito (cuando usaron una palabra 'picante' como indicación), párrafos textuales de libros y poemas, (cuando metían la indicación 'libro' o 'poema'), URL, identificadores de usuario únicos, direcciones de bitcoin y código de programación.

Conclusiones del experimento

"Invirtiendo sólo 200 dólares en consultas a ChatGPT (gpt-3.5-turbo), podemos extraer más de 10.000 ejemplos únicos de entrenamiento memorizados palabra por palabra", han comentado los investigadores en un artículo donde revelan estos hallazgos.

"Nuestra extrapolación a presupuestos más grandes sugiere que adversarios dedicados podrían extraer muchos más datos", añaden. Los investigadores aseguran que un ciberdelincuente sería capaz de extraer diez veces más datos con más consultas.

El ataque que los investigadores han descrito en su informe sería específico de ChatGPT y no funciona contra otros LLM (modelos de lenguaje masivo). Pero el documento debería servir para advertir a los profesionales de que no deben capacitar ni implementar LLM "para aplicaciones sensibles a la privacidad sin salvaguardias extremas", señalaron.

Archivado en: