La verdad sobre cómo las plataformas de IA usan tus datos (y que nadie te cuenta).

La IA ya se ha vuelto indispensable para muchos, pero no todo el mundo que la utiliza conoce cómo las compañías utilizan tus datos para entrenar sus algoritmos y los riesgos de privacidad y seguridad que eso supone para personas y empresas. Te lo cuento a continuación.

IA y datos personales

Computer Hoy / Pixabay

Roberto Corrales

La inteligencia artificial se ha convertido en una ola imparable y tanto las empresas como las personas se están lanzando a su uso por las posibilidades que ofrece de hacer a las personas más productivas.

Sin embargo, utilizar plataformas de IA no está exento de riesgos, sobre todo si eres una persona a la que le preocupa la privacidad y en manos de quién puedan acabar tus datos.

Los grandes modelos de lenguaje masivos (LLM, por sus siglas en inglés) requieren una cantidad de información inmensa. Para que te hagas una idea, GPT-4 tiene 1,78 billones –con B– de parámetros, según estimaciones del experto en IA George Hotz, ya que OpenAI ya no hace pública esta información.

El hecho de que tus datos se utilicen para entrenar ChatGPT y Dall-E o que acaben en manos de su desarrolladora tiene unas implicaciones de ciberseguridad que son evidentemente alarmantes tanto para personas como para empresas.

Esta es la verdad de lo que las herramientas de inteligencia artificial hacen con tus datos personales cada vez que les escribes o compartes información con ellas:

Los almacenan
Los usan para entrenar nuevos modelos de IA
Una vez utilizados, es casi imposible eliminar datos de un modelo de IA
Pueden caer en manos de terceros

Los almacenan

El curioso descubrimiento en un centro de datos de la vieja Twitter, y una advertencia para Elon Musk

DepositPhotos / Imagen generado con IA

Lo primero que debes saber es que en la mayoría de los casos, toda la información que compartes con una herramienta de inteligencia artificial se almacena. Algo de lo que te avisan todos los infinitos términos de uso a los que accedes cuando empiezas a usarlas y que nadie lee.

Toda esta información se guarda porque es de gran utilidad para la empresa que desarrolla la IA, ya sea OpenAI, Google o Microsoft, ya que le sirve para analizar su rendimiento, encontrar posibles incidencias e introducir mejoras en su tecnología.

En estas bases de datos inmensas que tienen las compañías de IA acaba mucha información que los usuarios comparten con los chatbots de forma descuidada, a pesar de que hay 5 datos personas que nunca deberías compartir con ChatGPT o con herramientas de IA similares.

En este sentido debes saber que si la plataforma de IA en concreto que utilizas cumple con el Reglamento General de Protección de Datos (RGPD) vigente en toda la Unión Europea, deberás poder demandar a la empresa que te diga qué datos tuyos almacenan y exigir que los borre si quieres.

No obstante, en los casos en que sea una IA desarrollada fuera de Europa –la mayoría– y que no cumpla el RGPD ni la primera ley de IA ya en vigor en el Viejo continente, solicitar que tus datos personales se borren de las bases de datos de las tecnológicas pasa a complicarse de forma significativa.

2. Los usan para entrenar nuevos modelos de IA

¿Qué es GPT-4 y qué novedades traerá esta inteligencia artificial tan avanzada?

Los datos que los usuarios comparten con las plataformas de IA tiene un uso fundamental una vez que pasan a las bases de datos de las compañías tecnológicas que los desarrollan: entrenar nuevos modelos.

Las plataformas de IA que usamos, ya sean chatbots o generadores de imágenes, se sirven de grandes modelos masivos o LLM compuestos por miles de millones o incluso billones de parámetros con los que después son capaces de funcionar sus algoritmos y herramientas.

Las fuentes de esta información suelen ser datos públicos que las empresas pueden obtener de diferentes fuentes. Google ya ha reconocido que puede utilizar cualquier cosa que compartas en internet de manera pública para mejorar su IA.

Esta información fundamental para el rendimiento de la IA está mejor contrastada cuando utiliza el feedback de usuarios reales. De esta manera, las interacciones con personas, y por ende los datos que estas comparten, son susceptibles de servir para entrenar futuros modelos masivos de los que se servirán las nuevas plataformas.

Por tanto, técnicamente es posible que información sensible como tu dirección, tu DNI o las credenciales de alguna de tus cuentas pueda aparecer en las consultas de futuros usuarios a las herramientas de IA.

3. Una vez utilizados, es casi imposible eliminar datos de un modelo de IA

Si por despiste o cualquier otra causa tus datos personales o información sensible de tu empresa termina formando parte de un modelo masivo de IA, ya hay bastantes pocas que puedas hacer para solucionarlo.

Las empresas de IA que cumplen las leyes europeas de protección de datos pueden garantizarte que han eliminado tus datos de sus bases de datos, pero por la forma en que funciona la IA es posible que estos datos vuelvan a aflorar de alguna forma o que determinan futuras respuestas.

En los casos en que no se cumple el RGPD porque el desarrollador no opera con leyes europeas, esto ni siquiera es una posibilidad.

4. Pueden caer en manos de terceros

Robo de datos. Getty Images

Cuando tus datos pasan a formar parte de un LLM y afloran en las respuestas de herramientas de IA, los usuarios se exponen a un peligro: que no solo puede acceder a ellos la desarrolladora sino también terceros.

En ese sentido, debes tener la misma preocupación con tus datos personales que en cualquier otro servicio de internet, ya que estos datos son susceptibles de utilizarse en el futuro con fines publicitarios para personalizar campañas de anuncios, como sucede con las cookies.

El otro gran problema es que el hecho de que pasen a ser públicos supone un riesgo en caso de que caigan en manos de cibercriminales con malas intenciones.

Investigaciones previas ya han demostrado que los chatbots de IA como ChatGPT son capaces de hacer que tu información privada se filtre y, con ello, que pueda utilizarse para convertirte en víctima de alguna estafa o ciberataque.

Comentarios