Cuestiones de privacidad del chatGPT: Esto es lo que nos espera

Image of Carlo Cilento

Publicado el 24 abr 2023 y editado el 19 dic 2023 por Carlo Cilento

Este artículo se ha traducido automáticamente. Cambia a la versión en inglés para ver el original.

La reciente prohibición de Chat GPT en Italia ha atraído la atención de los medios de comunicación y las críticas de los entusiastas de la tecnología. La semana pasada, el Consejo Europeo de Protección de Datos (la institución de la UE donde se sientan todos los vigilantes de la privacidad) creó un grupo de trabajo sobre el caso ChatGPT, y las cosas se pusieron aún más interesantes.

(Actualización: desde el 29 de abril, ChatGPT vuelve a estar disponible en Italia. La autoridad italiana de protección de datos aún no ha publicado ninguna decisión sobre ChatGPT, pero ha publicado un comunicado de prensa).

Este grupo de trabajo podría ser importante. Las cuestiones jurídicas planteadas por ChatGPT no son únicas: de hecho, la mayoría de ellas son problemas comunes para las IA generativas. Dada la implicación de la EDPB, es probable que el caso ChatGPT tenga un impacto significativo en el futuro de las IA generativas en la UE. Veamos qué ha ocurrido exactamente y qué cuestiones jurídicas están en juego.

Entremos en materia.

La historia hasta ahora

El 30 de marzo, tras una investigación de oficio, la autoridad italiana de protección de datos (GPDP) publicó una decisión urgente para bloquear provisionalmente la actividad de ChaptGPT en el territorio italiano. Más tarde, la autoridad anunció que estaba en contacto con el propietario de ChatGPT, Open AI, y discutió posibles formas de hacer que ChatGPT cumpliera con el GDPR.

El 11 de abril, el GPDP publicó otra decisión provisional sobre ChatGPT. La decisión ordenaba a OpenAI aplicar varias medidas de cumplimiento y prometía que la prohibición se levantaría si la empresa cumplía antes del 30 de abril.

La segunda decisión no es una luz verde para ChatGPT. La primera decisión fue el resultado de un procedimiento de urgencia y no de una investigación en profundidad. El GPDP puede seguir investigando el tratamiento de datos de ChatGPT y emitir nuevas decisiones, en caso necesario.

Por último, el 14 de abril, el GPDP anunció que había creado un grupo operativo para tratar el caso de ChatGPT. El grupo de trabajo se esforzará por encontrar un terreno común entre las autoridades sobre las cuestiones jurídicas planteadas por el caso ChatGPT. Dado que las propias autoridades de protección de datos participan en el grupo de trabajo, su labor repercutirá en la forma en que se traten los casos futuros en toda Europa.

Actualización: la prohibición se ha levantado desde el 29 de abril. El GPDP declaró en un comunicado de prensa que OpenAI consiguió cumplir algunas de sus exigencias, incluida la implantación de sistemas para atender las solicitudes de exclusión voluntaria del tratamiento de los datos para el traning del modelo de IA, así como las solicitudes de borrado de datos inexactos. Quedan por cumplir otras exigencias, como la implantación de un sistema más sólido de verificación de la edad.

La GDPD también señala que su investigación sobre ChatGPT sigue en curso.

robot-gpt.png

¿Cuáles son los problemas legales de ChatGPT?

Las decisiones de la GDPD son bastante sucintas, lo que es habitual en los procedimientos de urgencia. Así pues, examinaremos las cuestiones señaladas por el GPDP desde una perspectiva amplia y veremos lo que significan para las IAs generadoras en general.

Antes de entrar en materia, hay que tener en cuenta que ChatGPT procesa datos de dos categorías de personas (o sujetos de datos en la jerga jurídica). ChatGPT se entrenó (y se reentrena constantemente) tanto en su conversación con los usuarios como en una base de datos más amplia recopilada previamente de Internet. De la base de datos es de donde vienen los problemas realmente grandes porque los datos pertenecen a millones de personas que no tienen nada que ver con ChatGPT en absoluto.

Base jurídica

El principal problema es la falta de base jurídica. Como explicamos en nuestro blog, si procesas datos personales, necesitas una base jurídica según el GDPR, es decir, una justificación legal.

Los datos de los usuarios no son un gran problema porque basta con recabar su consentimiento (OpenAI no lo hizo, pero esto puede solucionarse fácilmente). El verdadero problema son los demás, y por demás nos referimos al mundo en general.

Según las preguntas frecuentes de OpenAI, ChatGPT se entrenó con "grandes cantidades de datos de Internet escritos por humanos, incluidas conversaciones". Las FAQ sugieren que ChatGPT no rastrea Internet ahora, sino que lo hizo hasta 2021 (o, como mínimo, que se alimentó de datos rastreados hasta ese año). En resumen, ChatGPT podría estar procesando datos personales de cualquiera que escribiera contenido en una página web de acceso público hasta 2021.

Son muchos datos personales y una gran responsabilidad para Open AI. No es fácil para una empresa encontrar una base jurídica para procesar toneladas de datos de personas que no tienen nada que ver con sus servicios. Por eso las bases jurídicas son un gran problema para las IA generativas en general.

¿Cuál podría ser la solución? Evidentemente, el consentimiento está descartado, dado el número de interesados. Lo mismo ocurre con la base jurídica del contrato, ya que la mayoría de los interesados no utilizan Chat GPT.

Basándonos en la segunda decisión1, creemos que el GPDP está considerando el interés legítimo. El interés legítimo es una base jurídica delicada porque requiere que el responsable del tratamiento garantice que el tratamiento es fundamentalmente leal, si es necesario, mediante la aplicación de salvaguardias de los derechos de los interesados. Estos requisitos no son triviales cuando se trata de una IA de caja negra, por lo que será interesante ver qué soluciones aporta OpenAI.

Transparencia

El GPDP señaló que ChatGPD no proporcionó a los interesados avisos de privacidad. Una vez más, esto es fácil de solucionar para los usuarios y no tan fácil para el resto, porque OpenAI necesita llegar a un público masivo. Como señaló el GPDP, es probable que OpenAI tenga que implicar a los medios de comunicación en una campaña de información a gran escala.

Pero, ¿qué pasa con las demás IA generativas? ¿Deberían todas hacer lo mismo? Aunque parezca una tontería, ¿deberíamos esperar un futuro en el que uno de cada dos anuncios en los periódicos sea un aviso de privacidad para alguna IA?

Ejercer los derechos sobre los datos

Los avisos de privacidad son importantes porque le indican cuáles son sus derechos (por ejemplo, acceder a sus datos o hacer que se borren) y cómo ejercerlos. En su segunda decisión, el GPDP ordenó a OpenAI que proporcionara a los interesados una forma de ejercer estos derechos. Esto no será trivial, especialmente en lo que respecta a los millones de no usuarios cuyos datos están siendo procesados.

Un problema algo similar surgió en la era pre-GDPR cuando la gente empezó a pedir a Google que desreferenciara sus datos personales de Google Search. Así es como llegamos a Google España, una sentencia histórica del Tribunal de Justicia de la UE que reforzó el derecho de supresión en la legislación sobre privacidad de la UE.

La aplicación estricta del derecho de supresión y de otros derechos de los interesados podría ayudar a aliviar algunos de los problemas de privacidad que plantean las IA. Pero con Google Search, basta con escribir tu nombre y ver qué aparece. Las cosas no son tan fáciles con una IA.

Supongamos que pides a OpenAI que acceda a tus datos personales. ChaptGPT tendrá primero que recuperar todos sus datos personales del conjunto de datos. La definición de datos personales del GDPR es bastante amplia, por lo que recuperar sus datos requerirá algo más que filtrar el conjunto de datos por su nombre u otros identificadores (por ejemplo, el nombre de usuario de un foro). Serán necesarios enfoques técnicos más sofisticados y, con toda probabilidad, no habrá garantías de que ChatGPT recupere con precisión todos sus datos personales.

¿Deberíamos asumir que si una IA tan avanzada como ChatGPT no puede reconocer ciertos datos como personales, entonces no tratarlos como tales es suficientemente seguro en la práctica? Este enfoque pragmático no suena tan mal e incluso podría tener sentido desde un punto de vista legal2.

Pero ChatGPT es cada día más inteligente y amplía constantemente su conjunto de datos hablando con sus usuarios. El hecho de que hoy no pueda reconocer determinados datos como datos personales no significa que no pueda hacerlo mañana. ¿Deberían los interesados enviar solicitudes de acceso todos los días, por seguridad? ¿Debería OpenAI escanear periódicamente el conjunto de datos y actualizar todos y cada uno de los interesados que presentaron una solicitud de acceso en el pasado?

El derecho a que sus datos sean corregidos y actualizados también parece problemático. Todos los datos del conjunto de datos de entrenamiento original están obsoletos desde hace dos años o más, lo que no es un buen comienzo.

Además, tanto los datos de entrada como los de salida pueden ser datos personales. Esto significa que usted tiene derecho a un resultado preciso en lo que respecta a sus datos personales. Pero, ¿cómo puedes saber que alguien, en algún lugar, ha obtenido información inexacta sobre ti a través de ChatGPT? ¿Y cómo puede OpenAI garantizar que los resultados de ChatGPT son precisos cuando cambian todo el tiempo, incluso en respuesta a consultas idénticas?

La autenticación de solicitudes también va a ser un rompecabezas. Si alguien te envía una solicitud para acceder a sus datos, debes cumplirla. Pero también hay que asegurarse de que la solicitud procede del interesado real para evitar revelar sus datos personales a otra persona. Autenticar una solicitud puede ser complicado, más aún cuando el interesado no tiene nada que ver con el servicio que usted presta (y no se le puede pedir que demuestre su identidad facilitando información conocida, como credenciales de inicio de sesión). Es posible que OpenAI tenga que hacer frente pronto a muchas solicitudes de este tipo, y no será un paseo por el parque.

Autenticación menor

El GPDP señaló que OpenAI no aplicaba la autenticación por edad a los usuarios, lo que permitía a menores de 13 años utilizar el servicio y quedar potencialmente expuestos a contenidos inapropiados para su edad. Probablemente esto no sea demasiado relevante para las IA en general, pero aun así merece la pena mencionarlo en aras de la exhaustividad.

¿Ayudará la Ley de Inteligencia Artificial a resolver estos problemas?

ChatGPT plantea varias cuestiones jurídicas, y será interesante ver cómo las aborda el grupo de trabajo de la EDPB. Pero, por supuesto, la carga de regular la IA en la UE no recae sólo en el EDPB.

La UE está trabajando en una propuesta de Reglamento conocida como Ley de IA. El proyecto establece un amplio conjunto de normas sobre IA, incluidas normas de calidad de los datos y obligaciones de gestión de riesgos. ¿Ayudará el próximo Reglamento a resolver algunos de los problemas de privacidad que plantean las IA?

Es probable que sí, hasta cierto punto. Pero no será la panacea.

Por así decirlo, la Ley de IA no es un RGPD para la IA. En realidad no es una ley de privacidad: su principal objetivo es regular el mercado de la UE mediante normas de seguridad comunes para los productos de IA. Algunas de sus disposiciones podrían reforzar la privacidad, pero ese no es su principal objetivo.

Además, las obligaciones más estrictas de la Ley se reservan a tipos específicos de sistemas de IA de alto riesgo, entre los que no se incluye la IA generativa según el borrador actual.

Pero en un futuro próximo, el Parlamento Europeo podría impulsar una revisión del bor rador de la Ley de IA para incluir las IA generativas en la categoría de alto riesgo, según informa Euractiv. El sistema de clasificación de riesgos es uno de los puntos más polémicos del proyecto de Reglamento, y el caso ChatGPT sin duda ha influido en el cambio de opinión del Parlamento.

Actualización: el Parlamento Europeo ha alcanzado un acuerdo provisional sobre un nuevo borrador de la propuesta de Ley de IA. La nueva propuesta clasifica las IA generativas como ChatGPT como sistemas de alto riesgo.

En cualquier caso, no debemos esperar que la Ley de IA resuelva todos los problemas de privacidad que plantean las IA. El RGPD seguirá siendo crucial a este respecto, lo que hace aún más importante la labor del grupo de trabajo del EDPB.

Conclusión

En Simple Analytics creemos que la privacidad es importante. Por eso nos esforzamos en explicar las noticias sobre privacidad de forma precisa y accesible. Creemos que no habrá un futuro favorable a la privacidad sin un público consciente de la misma.

También creemos que todos podemos contribuir a la causa de la privacidad. Por eso creamos una herramienta de análisis web que le proporciona toda la información que necesita, sin recopilar datos personales ni rastrear a los visitantes. La privacidad es nuestra prioridad absoluta, por lo que Simple Analytics está diseñado para hacer más con menos. Si esto le parece bien, ¡no dude en probarlo!

#1 El GPDP menciona que los interesados, incluidos los no usuarios, deben poder oponerse al tratamiento. Es una buena pista porque los interesados sólo tienen derecho a oponerse cuando el tratamiento se basa en un interés legítimo, y en otras situaciones específicas (véase el artículo 21 del GDPR) [^2]: Un caso plausible podría hacerse que en este escenario, los datos no son realmente datos personales bajo el GDPR. La noción de datos personales con arreglo al RGPD se basa en el contexto, lo que permite algunos razonamientos curiosos. Si tiene curiosidad, consulte el considerando 26 del RGPD y el comentario de gdprhub