Desanonimización: cómo la IA rastrea identidades ocultas

Gracias a la IA, aquellas cuentas que operan bajo seudónimos o escondidas tras el anonimato en redes, serán más complicadas de mantener. Un grupo de investigadores, tras revisar miles de publicaciones en foros anónimos como Hacker News y Reddit, pidió a varias herramientas de IA que identificaran a sus autores. Los modelos de lenguaje como Gemini o ChatGPT, hicieron en minutos lo que a un humano le llevaría demasiadas horas o quizá no lograría nunca.

Trabajo de investigación

Según se recoge en el artículo científico, los resultados muestran que el anonimato de los usuarios que se esconden tras un seudónimo en internet, no se va a poder sostener durante mucho tiempo.

A medida que la tecnología avanza y las herramientas de análisis de datos se vuelven más sofisticadas, se ha vuelto cada vez más fácil rastrear la identidad de aquellos que intentan permanecer en el anonimato.

Esto plantea importantes implicaciones para la privacidad y la seguridad en línea, ya que, a pesar de las intenciones de un «seudónimo», la exposición a la vigilancia digital y la recopilación de información personal pueden socavar la idea de un espacio seguro en la web.

La tarea, es tan solo una más de las que la IA puede llevar a cabo, cada vez más rápido, pero tiene implicaciones para el funcionamiento de internet tal como lo conocemos. Según declaraciones de Daniel Paleka, investigador de la Universidad Politécnica Federal de Zúrich (Suiza) y uno de los coautores del artículo de investigación: “la gente a menudo expresa sus opiniones en cuentas bajo seudónimos, asumiendo que sus opiniones se mantendrán privadas”.

Según añade: “el hecho de que haya un mecanismo de investigación o vigilancia con modelos de lenguaje, que permita simplemente preguntar por las creencias de una persona, opiniones políticas o lo que sea que se pueda extraer de su cuenta anónima de Reddit, por ejemplo, podría desempoderar mucho a la gente corriente”. En España, una plataforma obvia para probar estos métodos sería Forocoches.

Ni siquiera es necesario doxear (revelar la identidad detrás de una cuenta anónima), a nadie, para conseguir afectar a su modo de actuar: una IA ya puede revelar mucha información personal de cuentas con seudónimo en foros y redes.

La empresa Anthropic y el Pentágono entablan una disputa legal, por el uso desanonimizador que quiere hacer el Gobierno de Trump, de la IA. A través de un comunicado de respuesta al Departamento de Defensa, anterior a su denuncia, Anthropic reveló que uno de los motivos para no colaborar, se basaba precisamente en esta capacidad de la IA: “bajo la ley actual, el Gobierno puede comprar registros de los movimientos de los estadounidenses, su navegación web y sus asociaciones de fuentes públicas, sin obtener una orden judicial. Una IA potente, posibilita ensamblar estos datos dispersos e individualmente inocuos, en una imagen completa de la vida de cualquier persona, de manera automática y a escala masiva”, según aclaran desde la empresa.

Es una tarea fácil de conseguir, aunque los investigadores no han explorado ese camino, añade Paleka: “Aunque no consideramos esta amenaza en particular, los modelos pueden proporcionar una línea temporal en la vida de una persona, si hay suficiente información sobre ella en internet”.

El anonimato oculto tras seudónimos en redes sociales, puede tener los días contados con la IA.

Los investigadores han llevado a cabo su trabajo, sobre una base de datos limitada por razones éticas, ya que tenían que conseguir saber quién era la persona real detrás de los comentarios en foros: por ejemplo, escogieron perfiles de usuarios de Hacker News que tenían enlazado su perfil de LinkedIn. Después, lo anonimizaban y se lo ofrecían a la IA para que buscase detalles biográficos o personales con peticiones como: “¿Quién de los candidatos es la persona que buscamos? Fíjate en rasgos como el lugar donde vive, la profesión, aficiones, datos demográficos o valores. Para que sea un match de verdad, deberían coincidir varios rasgos distintivos, no solo uno o dos bastante comunes”.

El rastro digital que ya dejan la mayoría de personas, es difícil de manejar para ellas, pero no para una IA. “Nuestros métodos, aplicados a una desanonimización real, aprovechan que la gente revela detalles personales que también permitirían a un investigador humano identificarla. La diferencia se encuentra en que los modelos de lenguaje pueden hacerlo mucho más barato y rápido”, aclara el investigador. Las personas usuarias de internet, también las anónimas, no han prestado mucha atención a estos detalles durante su uso de internet, hasta ahora: “Hay que tener en cuenta que, todo lo que publicamos queda en internet y puede convertirse en objetivo para futuros modelos”, que además serán mucho más eficientes, según afirma el investigador.

Detalles que pueden delatar

Mediante la IA, no solo se pueden buscar detalles personales revelados por quien escribe. Los investigadores muestran datos ficticios de lo que podría haber encontrado la IA: “Vive en Nelson (Columbia Británica), es enfermera pediátrica, está casada, tiene dos hijas, está obsesionada con la masa madre, juega a Stardew Valley, es fan de Critical Role, partidaria de la energía nuclear, sufre una enfermedad celíaca, toca la mandolina, hizo el sendero de la Cresta del Pacífico y no le gusta el cilantro”.

Según advierte Paleka, no somos conscientes de otros rastros que dejamos al escribir, como detalles menos evidentes y más difíciles de detectar. “Visita el subreddit (comunidad online) sobre Berlín, usa ortografía británica, escribió accidentalmente el signo ‘¿’ en un texto en inglés”, agrega. Aunque con detalles más obvios sería suficiente: ”La estilometría sería muy útil para vincular dos cuentas online de la misma persona, pero tiendo a pensar que la simple explotación de hechos del mundo real, es donde están los mayores peligros de privacidad para la mayoría”.

Desde los años 2023 y 2024, era de esperar que esto acabaría pasando. La novedad del estudio, se encuentra en la cuantificación y el método usado. “No puede sorprendernos que, cuando los modelos de lenguaje ganaron capacidades de búsqueda, pudieran comenzar a desanonimizar a algunos usuarios, sobre todo si revelan información sobre sí mismos. Es sorprendente, lo fácil que es hacer que algunos modelos se involucren en este tipo de uso malicioso”, concluye el investigador.

Desanonimización: cómo la IA rastrea identidades ocultas

Trabajo de investigación

Detalles que pueden delatar

Comparte esto:

Descubre más desde STI 2020 ®

Comentarios

Deja un comentario Cancelar la respuesta