

Un estudio de la Universidad Politécnica Federal de Zúrich demuestra que modelos de lenguaje como ChatGPT y Gemini pueden desenmascarar cuentas con seudónimo en foros como Reddit y Hacker News en minutos, una tarea que a un humano le llevaría horas o resultaría imposible. Los investigadores lograron identificar correctamente al 68% de usuarios anónimos con un 90% de precisión, frente a casi un 0% de los métodos tradicionales que no utilizan inteligencia artificial, según el artículo científico publicado.
La capacidad de mantener el anonimato en internet enfrenta su mayor amenaza con el avance de la inteligencia artificial. Un grupo de investigadores de la Universidad Politécnica Federal de Zúrich, en Suiza, ha demostrado que los modelos de lenguaje actuales pueden identificar a usuarios con seudónimo con una efectividad sin precedentes, según un artículo científico reciente.
El estudio reunió miles de publicaciones de foros anónimos como Hacker News y Reddit y solicitó a varios modelos de inteligencia artificial, incluyendo Gemini y ChatGPT, que identificaran a sus autores. Los resultados fueron contundentes: los modelos identificaron al 68% de usuarios anónimos con un 90% de precisión, "frente a casi un 0% del mejor método que no utiliza modelos de lenguaje", según el artículo científico. "Los resultados muestran que el anonimato de los usuarios con seudónimo en internet ya no se sostiene", añade el documento.
Daniel Paleka, investigador de la Universidad Politécnica Federal de Zúrich y coautor del artículo, explicó las implicaciones de este hallazgo: "La gente a menudo expresa sus opiniones en cuentas seudónimas, asumiendo que sus opiniones se mantendrán privadas. Que haya un mecanismo de investigación o vigilancia con modelos de lenguaje que permita simplemente preguntar por las creencias de una persona, opiniones políticas, inseguridades, o lo que sea que se pueda extraer de su cuenta anónima de Reddit, por ejemplo, podría desempoderar mucho a la gente corriente", dijo.
La metodología empleada por los investigadores se basó en una base de datos limitada por razones éticas. Seleccionaron perfiles de usuarios de Hacker News que tenían enlazado su perfil de LinkedIn para poder verificar la identidad real detrás de los comentarios. Posteriormente anonimizaban estos perfiles y los proporcionaban a la inteligencia artificial con peticiones específicas como: "¿Quién de los candidatos es la persona que buscamos? Fíjate en rasgos como el lugar donde vive, la profesión, aficiones, datos demográficos o valores. Para que sea un match de verdad, deberían coincidir varios rasgos distintivos, no solo uno o dos bastante comunes", según el estudio.
La inteligencia artificial no se limita a buscar detalles personales explícitos revelados por quien escribe. Los investigadores muestran datos ficticios de lo que podría haber encontrado la IA en años de comentarios: "Vive en Nelson (Columbia Británica, Canadá), enfermera pediátrica, mujer, casada, tiene dos hijas, propietaria de un Prius, obsesionada con la masa madre, juega a Stardew Valley, fan de Critical Role, favorable a la energía nuclear, enfermedad celíaca, toca la mandolina, hizo el sendero de la Cresta del Pacífico de punta a punta, no le gusta el cilantro", según ejemplos del estudio.
Paleka advirtió sobre rastros menos evidentes que los usuarios dejan al escribir: "Visita el subreddit sobre Berlín o 'usa ortografía británica' o 'escribió accidentalmente un '¿' en un texto en inglés'", dijo. Sin embargo, el investigador considera que "la simple explotación de hechos del mundo real es donde están los mayores peligros de privacidad para la mayoría", según sus declaraciones.
La velocidad y el costo de esta desanonimización representan la principal diferencia con métodos tradicionales. "Nuestros métodos, si se aplicaran a una desanonimización real, aprovechan que la gente revela detalles personales que también permitirían a un investigador humano identificarla. La diferencia es que los modelos de lenguaje pueden hacerlo mucho más barato y rápido", dijo Paleka.
El investigador también señaló que es posible crear perfiles temporales completos de individuos: "Aunque no consideramos esta amenaza en particular, los modelos pueden proporcionar una línea temporal de la vida de una persona si hay suficiente información sobre ella en internet", según Paleka.
La capacidad desanonimizadora de la inteligencia artificial ya ha generado conflictos institucionales. La empresa Anthropic y el Pentágono mantienen una disputa legal relacionada, entre otras cosas, con el uso desanonimizador que pretende hacer el Gobierno de Trump de la inteligencia artificial, según información pública. En su comunicado de respuesta al Departamento de Defensa anterior a su denuncia, Anthropic reveló que uno de los motivos para no colaborar era precisamente esta capacidad: "Bajo la ley actual, el Gobierno puede comprar registros de los movimientos de los estadounidenses, su navegación web y sus asociaciones de fuentes públicas sin obtener una orden judicial. Una IA potente hace posible ensamblar estos datos dispersos e individualmente inocuos en una imagen completa de la vida de cualquier persona, automáticamente y a escala masiva", según el comunicado de la empresa.
Paleka advirtió a los usuarios sobre la permanencia de su rastro digital: "Ten en cuenta que todo lo que publicas sigue quedando en internet y puede convertirse en objetivo de futuros modelos", que además serán mejores, dijo el investigador.
Respecto a la novedad del estudio, Paleka explicó que desde 2023 y 2024 se anticipaba este desarrollo, pero la contribución actual radica en "la cuantificación y el método usado". "No es sorprendente que, cuando los modelos de lenguaje ganaron capacidades de búsqueda, pudieran empezar a desanonimizar a algunos usuarios, sobre todo si revelan información buscable sobre sí mismos. Sí es un poco sorprendente lo fácil que es hacer que algunos modelos se involucren en este tipo de uso malicioso", explicó.
Los grandes misterios de internet mantienen cierta protección, aunque su duración es incierta. "No creo que hoy los modelos puedan desanonimizar de forma fiable a alguien que sea realmente difícil de identificar. Satoshi Nakamoto está a salvo. En el futuro, podrían volverse mejores que las personas en este tipo de investigación y entonces el equilibrio podría cambiar", explicó Paleka, refiriéndose al supuesto creador de bitcoin.
La investigación plantea interrogantes sobre el funcionamiento futuro de internet y la privacidad de millones de usuarios que han asumido durante años que sus identidades con seudónimo permanecerían protegidas. La facilidad con que la inteligencia artificial puede realizar esta tarea en minutos, comparada con las horas o la imposibilidad que enfrentaría un humano, marca un punto de inflexión en la historia del anonimato digital.