Cómo proteger nuestra información en el uso de herramientas de IA

Algunas preguntas que nos hacemos frecuentemente son: cómo se almacenan nuestras conversaciones en ChatGPT, quién puede acceder a nuestros datos y qué configuraciones usar para proteger la información sensible. Es crucial entender que todas las interacciones en la plataforma se registran para mejorar el servicio y la experiencia del usuario. Sin embargo, solo ciertos empleados autorizados tienen acceso a esta información, lo que ayuda a mantener la confidencialidad. Al menos, es lo esperado.

Para proteger nuestra información sensible, debemos asegurarnos de utilizar las configuraciones de privacidad disponibles en la aplicación; esto nos permitirá decidir qué datos compartimos y cómo se utilizan. Además, es recomendable tener cuidado con la información personal que decidimos compartir durante nuestras interacciones, ya que ello puede aumentar la seguridad de nuestros datos.

La inteligencia artificial, como ChatGPT, se ha convertido en una herramienta esencial para muchas personas, alcanzando más de 900 millones de usuarios activos semanales. Sin embargo, su amplio uso plantea preocupaciones sobre la seguridad digital y la gestión de datos.

A menudo, se piensa que las conversaciones son efímeras, pero interactuar con modelos de lenguaje implica un complejo sistema de almacenamiento y procesamiento de datos, lo que puede poner en riesgo información sensible. En artículos anteriores, se ha tratado sobre las preguntas que no se deben hacer a ChatGPT. A continuación, exploraremos qué sucede con nuestro texto introducido.

¿Dónde van a parar nuestras conversaciones con ChatGPT?

Cuando escribimos en ChatGPT, el texto no se guarda solo en nuestro navegador, recorriendo capas fundamentales para el tratamiento de los datos.

Almacenamiento e historial de uso

Cuando introducimos un mensaje solicitando una acción, se almacena en los servidores de OpenAI para acceder a nuestro historial y que el chatbot mantenga el contexto de la conversación. Puede conservarse por períodos limitados, hasta 30 días en ciertos casos, por motivos de seguridad y monitorización de abusos.

Entrenamiento de modelos de lenguaje

El centro del debate sobre la privacidad, se centra en que OpenAI puede usar las conversaciones de las versiones gratuitas y Plus para perfeccionar sus modelos, pero el usuario puede desactivar esta opción en la configuración. En ChatGPT Business y otros, no se utilizan los datos para entrenamiento, de forma predeterminada.

El riesgo aparece cuando una persona introduce código propietario, lo cual podría afectar al modelo. Aunque parece lógico pensar que al entrenar el modelo con nuestra información esta podría ser utilizada por otros, esto sugiere la posibilidad de que la IA comparta datos sensibles, lo cual no debería ocurrir según la política de privacidad. Sin embargo, estudios académicos han demostrado que los modelos de lenguaje de gran escala (LLM), pueden memorizar parte de los datos de entrenamiento y, bajo ciertas condiciones, esta información puede ser extraída mediante el uso de técnicas especializadas.

Revisores humanos

Para garantizar que la IA no genere contenido ofensivo, revisores humanos evalúan conversaciones anonimizadas. Estos especialistas leen fragmentos para asegurar la calidad y seguridad de las respuestas. Así, no solo es una máquina la que «lee»; personas reales pueden acceder a partes de nuestra interacción.

El uso de ChatGPT se ha extendido, arrojando ciertas dudas sobre cómo se trata la información.

Cómo utiliza la inteligencia artificial la información para entrenar modelos

Uno de los mayores mitos que circulan sobre la Inteligencia Artificial, es que funciona como una base de datos tradicional donde podemos «eliminar» un registro. En realidad, los datos de entrenamiento pasan por un proceso de ponderación dentro del modelo de lenguaje, necesario para su entrenamiento.

Filtración de la información

El riesgo no es solo que OpenAI acceda a nuestros datos, sino que la IA «aprenda» patrones de nuestro texto y los reproduzca en sus respuestas.

Un ejemplo de impacto estratégico, podría ser el de un analista que utiliza una cuenta personal de IA para un plan confidencial. Dependiendo de la herramienta utilizada y la configuración de privacidad, dicho contenido puede mejorar modelos futuros, exponiendo a la empresa a la pérdida de control sobre la información sensible y riesgos de memorización o extracción de datos. Por ello, los planes estratégicos, el código propietario, datos de clientes y otra información confidencial, deben utilizarse solo en herramientas de IA aprobadas por la empresa y bajo controles de privacidad adecuados.

Revisores humanos y anonimato

Aunque OpenAI alegue que los datos para la revisión son anonimizados, el contexto puede llegar a revelar al usuario.

Si compartimos con la herramienta un contrato legal detallado, aunque eliminemos el nombre de la empresa y otros datos, un revisor podría identificarlo. En seguridad digital, un dato anonimizado es seguro solo cuando no permite la «reidentificación».

Impacto de ChatGPT en el entorno empresarial y riesgo asociado a la LGPD

Para aquellas empresas que operan en Brasil, por ejemplo, el uso de ChatGPT sin unas directrices claras, puede generar conflictos con la Ley General de Protección de Datos (LGPD).

Tratamiento de datos sin consentimiento: cuando un empleado introduce datos de clientes en la IA para generar un informe, la empresa está transfiriendo datos personales a un tercero (OpenAI), sin la base legal adecuada, ni el control de seguridad correspondiente.
Shadow AI: el uso de cuentas de IA personales en el trabajo crea un «punto ciego» para el departamento de TI, lo que lleva a la pérdida de control sobre la propiedad intelectual.

El uso de ChatGPT en el entorno empresarial, debe someterse a un control específico, no debiendo suponer un riesgo para la información confidencial de la empresa, así como la de terceros. Imagen creada mediante IA.

Seguridad de cuentas: el peligro de las credenciales en la Dark Web

Además de los riesgos en el procesamiento de datos por la plataforma, existe la creciente amenaza de los ciberdelincuentes, interesados en las credenciales de acceso a ChatGPT. Dado que las conversaciones pueden contener información sensible y estrategias de negocio, una cuenta comprometida puede ser un blanco para el espionaje industrial y el robo de identidad.

Datos del año 2024, muestran la gravedad del escenario: más de 225.000 registros de inicio de sesión de ChatGPT fueron encontrados a la venta en foros de la Dark Web. El volumen masivo de credenciales robadas, a menudo mediante malware del tipo infostealer, demuestra que el peligro no está solo en lo que escribimos, sino en quién puede acceder a nuestro historial si la cuenta no está correctamente protegida.

¿Cómo tratan otras herramientas la privacidad?

Pese a que ChatGPT domina el asunto, la Inteligencia Artificial Generativa incluye otros actores con enfoques diferentes en la protección de datos. Para los usuarios que se mueven entre plataformas, entender que el riesgo varía según la empresa, es el primer paso hacia una postura de seguridad digital consciente.

¿Cómo almacena Gemini la información?

Google Gemini opera dentro de la infraestructura de Google. Según el Centro de Privacidad de Gemini, la empresa usa las conversaciones para mejorar servicios, incluyendo la revisión por entrenadores humanos.

La diferencia, radica en la integración: si se utiliza Gemini en Google Workspace, las políticas de privacidad empresarial establecen que los datos no se usarán para entrenar modelos globales de lenguaje. La «anonimización» elimina la información de la cuenta, pero el contenido puede ser analizado para mejorar respuestas, a menos que se desactive manualmente dicha opción en la actividad de la IA.

¿Cómo utiliza Claude nuestra información?

En un artículo de próxima publicación, vamos a conocer más sobre el entorno de Anthropic, pero conviene conocer que su modelo Claude, presenta una filosofía de «IA Constitucional». En su Política de Privacidad y Términos de Uso, la empresa destaca que la retención de datos se mantiene al mínimo, pero haberla, la hay. Claude se distingue por poner mayor énfasis en mecanismos automatizados de alineación del comportamiento de la IA, mediante principios automatizados de seguridad.

Para las personas usuarias de la versión gratuita, los datos pueden usarse para mejorar el modelo, pero Anthropic alega ofrecer un proceso de exclusión (opt-out), más directo para sus clientes comerciales, asegurando que el código fuente o los secretos empresariales enviados a través de la API permanezcan privados.

Entre ambos modelos, la semejanza es que ninguno funciona como una «bóveda» completamente aislada. En OpenAI, Google o Anthropic, el aprendizaje automático depende de los datos con los que se alimentan. La diferencia para nuestra seguridad, radica en el contrato de uso: en las versiones gratuitas, los datos mejoran el sistema, mientras que en las empresariales, la privacidad es un servicio premium, donde los datos se procesan, pero no se usan para entrenar modelos.

Cómo proteger la privacidad en ChatGPT y otras herramientas de IA

Una vez entendemos que el ciclo de vida de los datos en Inteligencia Artificial incluye almacenamiento y capacitación, queda claro que la seguridad depende tanto de las empresas como de la actitud de cada usuario. Para asegurar una experiencia productiva y segura con la IA, hemos recopilado las principales recomendaciones de protección.

Comportamiento y anonimización

La herramienta más poderosa de seguridad digital es nuestro criterio. La regla de oro, es no introducir información pública. Antes de enviar un prompt, debemos realizar una «limpieza»: usar alias para nombres de clientes, eliminar valores financieros específicos y ocultar fragmentos de código con claves de acceso. Debemos recordar que el «desaprendizaje» de la IA, es un proceso complejo y no siempre está garantizado.

La protección de la privacidad y los datos aportados en el uso de herramientas de IA, es esencial para evitar que caigan en manos no deseadas o puedan suponer un problema de magnitud variable.

Gestión de cuentas y protección ante acceso no autorizado

El robo de credenciales en la Dark Web es una amenaza real. Para proteger nuestro historial de conversaciones, debemos utilizar contraseñas fuertes y únicas, así como activar la autenticación de dos factores (2FA) en OpenAI, Google o Anthropic, algo que recomendamos en todas aquellas aplicaciones en las que sea posible. Mantener nuestro sistema operativo actualizado y antivirus de confianza para evitar el malware infostealer, responsable de recolectar credenciales, es también un asunto importante.

Configuración de la privacidad (Opt-out)

«Opt – out» (exclusión voluntaria), es un mecanismo que permite a usuarios o entidades, no participar en prácticas como marketing, seguimiento de datos o ciertos acuerdos con terceros, retirando su consentimiento previamente asumido. Implica una acción activa del usuario para darse de baja, desmarcar casillas o bloquear el uso de información personal.

No debemos aceptar la configuración predeterminada. Debemos explorar el menú de «Controles de datos» de la herramienta de IA, para desactivar el historial de chat y el entrenamiento de modelos. En el caso de Gemini, debemos gestionar nuestra actividad en «Actividad en apps de Gemini», para decidir qué debe o no, almacenar Google.

Conocer como gestionan las herramientas de IA nuestra información, así como seguir las acciones indicadas, reducen drásticamente nuestra huella digital y ayudan a que nuestras interacciones, sean tratadas con mayor confidencialidad.