Questions relatives à la protection de la vie privée sur chatGPT : Voici ce qui nous attend

La récente interdiction de ChatGPT par l'Italie a attiré l'attention des médias et suscité de nombreuses critiques de la part des passionnés de technologie. La semaine dernière, le Conseil européen de la protection des données (l'institution de l'UE où siègent tous les chiens de garde de la vie privée) a mis en place un groupe de travail sur l'affaire ChatGPT, et les choses sont devenues encore plus intéressantes.

(Mise à jour : depuis le 29 avril, ChatGPT est de nouveau disponible en Italie. L'autorité italienne de protection des données n'a pas encore publié de nouvelles décisions sur ChatGPT, mais a mis à disposition un communiqué de presse ).

Ce groupe de travail pourrait être important. Les questions juridiques soulevées par ChatGPT ne sont pas uniques : en fait, la plupart d'entre elles sont communes aux IA génératives. Compte tenu de l'implication de l'EDPB, l'affaire ChatGPT aura probablement un impact significatif sur l'avenir des IA génératives dans l'UE. Voyons donc ce qui s'est passé exactement et quelles sont les questions juridiques en jeu.

Plongeons dans l'affaire !

L'histoire jusqu'à présent

Le 30 mars, après une enquête menée de sa propre initiative, l'autorité italienne de protection des données (GPDP) a publié une décision urgente visant à bloquer provisoirement l'activité de ChaptGPT sur le territoire italien. L'autorité a ensuite annoncé qu'elle était en contact avec le propriétaire de ChatGPT, Open AI, et qu'elle avait discuté des moyens possibles de rendre ChatGPT conforme au GDPR.

Le 11 avril, le GPDP a publié une autre décision provisoire concernant ChatGPT. Cette décision ordonnait à OpenAI de mettre en œuvre plusieurs mesures de conformité et promettait que l'interdiction serait levée si l'entreprise s'y conformait avant le 30 avril.

Ladeuxième décision n'est pas un feu vert pour ChatGPT. La première décision résultait d'une procédure d'urgence et non d'une enquête approfondie. Le GPDP peut poursuivre son enquête sur le traitement des données de ChatGPT et rendre de nouvelles décisions, le cas échéant.

Enfin, le 14 avril, l'EDPB a annoncé qu'il avait mis en place un groupe de travail pour traiter le cas de ChatGPT. Ce groupe de travail s'efforcera de trouver un terrain d'entente entre les autorités sur les questions juridiques soulevées par l'affaire ChatGPT. Les autorités chargées de la protection des données étant elles-mêmes impliquées dans le groupe de travail, ses travaux auront une incidence sur la manière dont les futures affaires seront traitées dans toute l'Europe.

Mise à jour : l'interdiction est levée depuis le 29 avril. Le GPDP a déclaré dans un communiqué de presse qu'OpenAI avait réussi à satisfaire à certaines de ses exigences, notamment la mise en place de systèmes permettant de répondre aux demandes d'exclusion du traitement des données pour la formation du modèle d'IA, ainsi qu'aux demandes d'effacement des données inexactes. D'autres exigences doivent encore être satisfaites, notamment la mise en œuvre d'un système de vérification de l'âge plus robuste.

Le GDPD note également que son enquête sur ChatGPT est toujours en cours.

Quels sont les problèmes juridiques liés à ChatGPT ?

Les décisions du GDPD sont assez succinctes, ce qui est la norme pour les procédures d'urgence. Nous allons donc examiner les questions soulevées par le GPDP d'un point de vue général et voir ce qu'elles signifient pour les IA génériques en général.

Avant d'entrer dans le vif du sujet, il convient de noter que ChatGPT traite les données de deux catégories de personnes (ou personnes concernées dans le jargon juridique). ChatGPT a été entraîné (et est constamment réentraîné) à partir de ses conversations avec les utilisateurs et d'une base de données plus large collectée précédemment sur l'internet. C'est la base de données qui pose les plus gros problèmes, car les données appartiennent à des millions de personnes qui n'ont rien à voir avec ChatGPT.

Base juridique

Le principal problème est l'absence de base juridique. Comme l'explique notre blog, si vous traitez des données personnelles, vous avez besoin d'une base juridique en vertu du GDPR - essentiellement une justification légale.

Les données des utilisateurs ne posent pas de problème car il suffit de recueillir leur consentement (OpenAI n'a pas réussi à le faire, mais cela peut être facilement corrigé). Le vrai problème, c'est tout le monde - et par "tout le monde", nous entendons le monde dans son ensemble.

Selon laFAQ d'OpenAI, ChatGPT a été entraîné sur "de vastes quantités de données provenant d'Internet et écrites par des humains, y compris des conversations". La FAQ suggère que ChatGPT ne scrape pas l'Internet aujourd'hui, mais qu'il le faisait jusqu'en 2021 (ou, à tout le moins, qu'il était alimenté par des données scrappées jusqu'à cette année-là). En résumé, ChatGPT pourrait traiter les données à caractère personnel de toute personne ayant écrit du contenu sur une page web accessible au public jusqu'en 2021.

Il s'agit d'un grand nombre de données personnelles et d'une grande responsabilité pour Open AI. Il n'est pas facile pour une entreprise de trouver une base juridique pour traiter des tonnes de données provenant de personnes qui n'ont rien à voir avec ses services. C'est pourquoi les bases juridiques constituent un problème majeur pour l'IA générative en général.

Quelle pourrait être la solution ? Le consentement est évidemment hors de question étant donné le nombre de personnes concernées. Il en va de même pour la base juridique du contrat, puisque la plupart des personnes concernées n'utilisent pas elles-mêmes le Chat GPT.

Sur la base de la deuxième décision¹, nous pensons que le GPDP examine l'intérêt légitime. L'intérêt légitime est une base juridique délicate car elle exige du responsable du traitement qu'il s'assure que le traitement est fondamentalement loyal - si nécessaire, en mettant en œuvre des garanties pour les droits des personnes concernées. Ces exigences ne sont pas triviales lorsqu'il s'agit d'une boîte noire d'IA, et il sera donc intéressant de voir quelles solutions l'OpenAI proposera.

Transparence

Le GPDP a souligné que ChatGPD n'avait pas fourni d'avis de confidentialité aux personnes concernées. Encore une fois, ce problème est facile à résoudre pour les utilisateurs, mais pas si facile à résoudre pour tous les autres, car l'OpenAI doit atteindre une audience massive. Comme l'a souligné le GPDP, l'OpenAI devra probablement faire appel aux médias pour une campagne d'information à grande échelle.

Mais qu'en est-il de toutes les autres IA génératives ? Devraient-elles toutes faire la même chose ? Aussi stupide que cela puisse paraître, devons-nous nous attendre à ce qu'une annonce de journal sur deux soit un avis de confidentialité pour une IA ?

Exercer ses droits en matière de données

Les avis de confidentialité sont importants car ils vous indiquent quels sont vos droits en matière de données (par exemple, l'accès à vos données ou leur effacement) et comment les exercer. Dans sa deuxième décision, le GPDP a ordonné à OpenAI de fournir aux personnes concernées un moyen d'exercer ces droits. Ce ne sera pas une mince affaire, surtout si l'on considère les millions de non-utilisateurs dont les données sont traitées.

Un problème similaire s'est posé avant l'entrée en vigueur du RGPD, lorsque les internautes ont commencé à demander à Google de déréférencer leurs données personnelles dans Google Search. C'est ainsi qu'est né Google Spain, un arrêt historique de la Cour de justice de l'Union européenne qui a renforcé le droit à l'effacement dans la législation européenne relative à la protection de la vie privée.

L'application stricte du droit à l'effacement et d'autres droits des personnes concernées pourrait contribuer à atténuer certains des problèmes de protection de la vie privée soulevés par les IA. Mais avec Google Search, il suffit de taper son nom et de voir ce qui apparaît. Les choses sont loin d'être aussi simples avec une IA.

Supposons que vous demandiez à OpenAI d'accéder à vos données personnelles. ChaptGPT devra d'abord extraire toutes vos données personnelles de l'ensemble de données. La définition des données à caractère personnel dans le GDPR est assez large, de sorte que l'extraction de vos données nécessitera plus qu'un simple filtrage de l'ensemble de données par votre nom ou d'autres identifiants (par exemple, le nom d'utilisateur d'un forum). Des approches techniques plus sophistiquées seront nécessaires et, selon toute vraisemblance, il n'y aura aucune garantie que ChatGPT récupère avec précision toutes vos données personnelles.

Devrions-nous simplement supposer que si une IA aussi avancée que ChatGPT ne peut pas reconnaître certaines données comme des données personnelles, alors ne pas les traiter comme telles est suffisamment sûr dans la pratique ? Cette approche pragmatique ne semble pas trop mauvaise et pourrait même avoir du sens d'un point de vue juridique².

Mais ChatGPT devient de plus en plus intelligent et élargit constamment son ensemble de données en discutant avec ses utilisateurs. Ce n'est pas parce qu'il ne peut pas reconnaître certaines données comme des données à caractère personnel aujourd'hui qu'il ne pourra pas le faire demain. Les personnes concernées doivent-elles transmettre des demandes d'accès tous les jours, par sécurité ? L'OpenAI devrait-elle analyser périodiquement l'ensemble des données et mettre à jour chaque personne concernée qui a déposé une demande d'accès dans le passé ?

Le droit à la correction et à la mise à jour des données semble également problématique. Toutes les données de l'ensemble de données d'entraînement original sont dépassées de deux ans ou plus, ce qui n'est pas un bon début.

En outre, les données d'entrée et de sortie peuvent être des données à caractère personnel. Cela signifie que vous avez le droit d'obtenir des résultats exacts en ce qui concerne vos données personnelles. Mais comment pourriez-vous découvrir que quelqu'un, quelque part, a appris des informations inexactes à votre sujet par le biais de ChatGPT ? Et comment OpenAI peut-elle garantir que les résultats de ChatGPT sont exacts lorsqu'ils changent tout le temps, même en réponse à des requêtes identiques ?

L'authentification des requêtes sera également un casse-tête. Si quelqu'un vous envoie une demande d'accès à ses données, vous devez vous y conformer. Mais vous devez également vous assurer que la demande émane bien de la personne concernée afin d'éviter de divulguer ses données personnelles à quelqu'un d'autre. L'authentification d'une demande peut s'avérer délicate, d'autant plus lorsque la personne concernée n'a rien à voir avec le service que vous fournissez (et qu'il ne peut lui être demandé de prouver son identité en fournissant des informations connues, telles que des identifiants de connexion). L'OpenAI pourrait bientôt avoir à traiter de nombreuses demandes de ce type, et ce ne sera pas une promenade de santé.

Authentification mineure

Le GPDP a souligné qu'OpenAI n'avait pas mis en œuvre l'authentification de l'âge des utilisateurs, ce qui a permis à des mineurs de 13 ans d'utiliser le service et d'être potentiellement exposés à des contenus inappropriés pour leur âge. Ce point n'est probablement pas très pertinent pour les IA en général, mais il vaut la peine d'être mentionné dans un souci d'exhaustivité.

La loi sur l'IA permettra-t-elle de résoudre ces problèmes ?

Le ChatGPT soulève plusieurs questions juridiques et il sera intéressant de voir comment le groupe de travail de l'EDPB les traitera. Mais, bien entendu, la charge de la réglementation de l'IA dans l'UE ne repose pas uniquement sur l'EDPB.

L'UE travaille sur une proposition de règlement connue sous le nom de " loi sur l'IA". Ce projet prévoit un vaste ensemble de règles en matière d'IA, notamment des normes de qualité des données et des obligations de gestion des risques. Le règlement à venir permettra-t-il de résoudre certaines des questions de protection de la vie privée soulevées par l'IA ?

Probablement, dans une certaine mesure. Mais ce ne sera pas la solution miracle.

La loi sur l'IA n'est pas un GDPR pour l'IA, pour ainsi dire. Il ne s'agit pas vraiment d'une loi sur la protection de la vie privée : son objectif principal est de réglementer le marché de l'UE au moyen de normes de sécurité communes pour les produits d'IA. Certaines de ses dispositions pourraient renforcer la protection de la vie privée, mais ce n'est pas son objectif principal.

En outre, les obligations les plus strictes prévues par la loi sont réservées à des types spécifiques de systèmes d'IA à haut risque, qui n'incluent pas l'IA générative dans le projet actuel.

Toutefois, dans un avenir proche, le Parlement européen pourrait faire pression pour une révision du projet de loi sur l'IA afin d'inclure l'IA générative dans la catégorie à haut risque, comme l'a rapporté Euractiv. Le système de classification des risques est l'un des points les plus controversés du projet de règlement, et l'affaire ChatGPT a certainement eu un impact sur le changement d'avis du Parlement.

Mise à jour : le Parlement européen est parvenu à un accord provisoire sur une nouvelle version de la proposition de loi sur l'IA. La nouvelle proposition classe les IA génératives telles que ChatGPT dans la catégorie des systèmes à haut risque.

Quoi qu'il en soit, il ne faut pas s'attendre à ce que la loi sur l'IA résolve toutes les questions de protection de la vie privée soulevées par les IA. Le GDPR restera crucial à cet égard, ce qui rend le travail du groupe de travail de l'EDPB d'autant plus important.

Conclusion

Chez Simple Analytics, nous pensons que la protection de la vie privée est importante. C'est pourquoi nous nous efforçons d'expliquer l'actualité de la protection de la vie privée de manière précise et accessible. Nous pensons qu'il n'y aura pas d'avenir respectueux de la vie privée sans un public sensibilisé à la protection de la vie privée.

Nous pensons également que nous pouvons tous contribuer à la cause de la protection de la vie privée. C'est pourquoi nous construisons un outil d'analyse web qui vous fournit toutes les informations dont vous avez besoin, sans collecter de données personnelles ni tracer les visiteurs. La protection de la vie privée est notre priorité absolue, c'est pourquoi Simple Analytics est conçu pour en faire plus, avec moins. Si cela vous convient, n'hésitez pas à nous essayer !

¹ : Le RGPD mentionne que les personnes concernées, y compris les non-utilisateurs, doivent pouvoir s'opposer au traitement. Il s'agit d'une bonne indication, car les personnes concernées n'ont un droit d'opposition que lorsque le traitement est fondé sur l'intérêt légitime, et dans d'autres situations spécifiques (voir l'article 21 du RGPD) ² : On pourrait plaider que, dans ce scénario, les données ne sont pas vraiment des données à caractère personnel au sens du GDPR. La notion de données à caractère personnel dans le cadre du GDPR est basée sur le contexte, ce qui permet des raisonnements bizarres. Si vous êtes curieux, consultez le considérant 26 du GDPR et le commentaire de gdprhub.