RGPD et Anonymisation, jusqu’où doit-on aller ?

Sébastien Gaspard

J’ai régulièrement des discussions avec des experts RGPD ou des prospects sur le contenu du RGPD (Règlement Général sur la Protection des Données) et notamment sur la définition de l’anonymat. Le sujet récurrent est : « selon la définition du RGPD, il est quasiment impossible d’anonymiser la donnée ».

1. Ce que dit la loi

Une solution d’anonymisation doit être construite au cas par cas et adaptée aux usages prévus. Pour aider à évaluer une bonne solution d’anonymisation, le G29 propose trois critères :

  • L’individualisation : est-il toujours possible d’isoler un individu ?

  • La corrélation : est-il possible de relier entre eux des ensembles de données distincts concernant un même individu ?

  • L’inférence : peut-on déduire de l’information sur un individu ?

Ainsi :

  • un ensemble de données pour lequel il n’est possible ni d’individualiser ni de corréler ni d’inférer est a priori anonyme ;

  • un ensemble de données pour lequel au moins un des trois critères n’est pas respecté ne pourra être considéré comme anonyme qu’à la suite d’une analyse détaillée des risques de ré-identification.

Avis du G29 Avis05/2014 sur les Techniques d’anonymisation

2. Ce que ce texte implique

Donc, si une donnée assez précise permet de retrouver ne serait-ce qu’une seule personne dans l’ensemble anonymisé, alors on peut considérer que l’anonymisation n’est pas probante et donc qu’on enfreint le RGPD en utilisant ce jeu de données. Il devient donc assez évident que pour le responsable du traitement (ou toute autre personne ayant accès aux données sources qui ont généré cet ensemble anonymisé), il est possible de retrouver des individus si ne serait-ce qu’une seule valeur numérique est conservée lors de l’anonymisation.

Le sujet en question « selon la définition du RGPD, il est quasiment impossible d’anonymiser la donnée » semble vrai quand on cherche à réaliser l’action sur la totalité d’un système d’information. Le corollaire de ceci « étant donné qu’il est impossible d’anonymiser, il est inutile de lancer un projet d’anonymisation » vient donc dans un deuxième temps, coupant court à toute discussion sur le sujet.

3. Ce qu’il faut donc mettre en place

On peut en conclure que l’anonymisation, pour être complète, doit altérer la totalité des données sources par les techniques de randomisation et de généralisation, et qu’il est pertinent de s’assurer du résultat par la mesure du risque de ré-identification. Pour plus d’information sur ces sujets, vous pouvez aller chercher dans la littérature les notions de « k-anonymity », « l-diversity », « t-closeness », « δ-disclosure privacy », » « β-likeness », « δ-presence », « k-map », « thresholds on average risk, methods based on super-population models », « (ε, δ)-differential privacy » ou encore « game-theoretic de-identification approach ».

Autant de termes barbares pour les personnes non initiées aux théories mathématiques permettant de vérifier à des niveaux divers et variés si la complétude de l’anonymisation peut être affirmée.

4. Il est donc inefficace de mettre en place un projet d’anonymisation

Ainsi, pour mettre en place un système d’anonymisation globale à toute l’entreprise respectant à coup sûr le RGPD, il faudra investir dans une solution complète d’anonymisation et de vérification mathématique, mais aussi s’équiper de serveurs très puissants pour faire tourner les algorithmes de vérification, et engager un expert statisticien ou data analyste pour définir les critères de vérification et en comprendre les résultats.

Très vite, le coût apparaît disproportionné par rapport aux bénéfices, surtout que ceux-ci sont très souvent sous-estimés. Nombre d’entreprises découvrent souvent bien trop tard ce bénéfice, généralement après avoir mesuré ce qu’une intrusion dans leur système leur a coûté.

RGPD : Data Masking et Anonymisation. Pourquoi gérer vos données personnelles avec le Data Masking et l’Anonymisation ?

5. Et dans la vraie vie ?

Nous voici donc dans l’incapacité de répondre aux exigences du RGPD par de l’anonymisation du SI à un prix raisonnable. Faut-il pour autant conclure qu’il est pertinent de ne rien faire ? Oui, les données anonymes sont très complexes à mettre en place pour respecter à 100% le RGPD… Mais revenons à des débats plus pragmatiques. Est-il vraiment problématique que les personnes ayant accès à la donnée de production puissent remonter à l’individu dans un ensemble anonymisé ? De mon point de vue, le risque de défaillance de l’entreprise à protéger les données personnelles est faible. Il existe certains cas comme le rapprochement de données entre concurrents ou le cas d’un sous-traitant indélicat qui pourraient poser soucis, mais ces soucis sont plus de l’ordre de l’espionnage industriel ou du démarchage en concurrence déloyale que de celui du RGPD. Dans le cas du sous-traitant indélicat, un conseil, changez-en pour un sous-traitant un peu plus cher et de confiance, vous y gagnerez au final..

Revenons aux fondamentaux du RGPD. À aucun moment il n’est dit dans ce texte que l’anonymisation est nécessaire pour protéger les données. L’anonymisation est un moyen de sortir des données du champ d’action du RGPD, mais en aucun cas l’unique solution.

6. Surface d’exposition des données

Le RGPD demande d’apporter des mesures de sécurité devant être adaptées en fonction des risques qui pèsent sur les personnes concernées, en cas d’exploitation non-consentie de leurs données personnelles.

Ainsi, il convient de réduire l’exposition de ces données aux seules personnes en ayant le besoin dans le cadre du traitement de l’information. La plupart des environnements de production des entreprises proposent des mesures suffisantes pour se protéger des vols de données, mais les usages actuels dans le monde de l’informatique engendrent des surfaces d’exposition de la donnée bien plus grandes et bien moins sécurisées que les environnements de production.

Parmi ces surfaces d’exposition, certaines sont traitées par la cryptographie, comme le chiffrement des communications avec les explorateurs internet ou des communications inter–site (le fameux HTTPS). D’autres sources d’exposition résident dans les applications des téléphones mobiles, connectées aux réseaux d’entreprise et gérées par une politique de sécurité informatique interne stricte. D’autres encore proviennent des environnements de tests qui, bien souvent, sont des copies de la production sans la sécurité adéquate. Dans ce cas, l’anonymisation, même incomplète (donc de la pseudonymisation), réduit drastiquement la surface d’exposition des données, ce qui améliore l’état global de la sécurité et de la conformité au RGPD. Dans la pratique, le recours à la pseudonymisation, bien que ne permettant pas de sortir les données du champ d’action du RGPD, est encouragé et relaxe les entreprises qui l’utilisent sur plusieurs exigences de la régulation.

7. Il est donc quand même pertinent d’entamer un processus d’anonymisation

L’anonymisation, même incomplète, apporte donc des solutions améliorant le niveau de mise en conformité avec le RGPD et pose les premières pierres d’une solution idéale.

Le coût et la technicité de la mise en place d’une solution parfaite d’anonymisation globale rendent son implémentation à l’heure actuelle quasi-impossible. Cependant, la réduction des risques et la mise en place de projets appelés à évoluer dans le temps, rendent ces projets tout à fait pertinents et conformes aux besoins actuels.

La plupart des solutions d’anonymisation sont en constante évolution et permettent d’améliorer la situation par optimisations successives de l’état de l’anonymat. L’évolution des technologies apportera son lot de solutions mais aussi son lot de problèmes, C’est pourquoi il n’est pas judicieux de procrastiner à mettre en place les mesures de protection. Au contraire, il est recommandé d’anticiper le risque  .

Moins les données seront exposées et moins les technologies émergentes comme le « machine learning », les « ordinateurs quantiques » ou l’« IA » (terme que je déteste tellement il est galvaudé de nos jours) pourront avoir d’impact sur la vie des personnes qui nous ont confié leurs données. Car, je le rappelle, le RGPD n’est pas là pour nous enquiquiner avec des règles strictes et infondées à suivre mais pour protéger les individus.

Nul besoin d’anonymiser de manière stricte pour être conforme au RGPD. Il faut mettre en place un ensemble d’éléments de protection de la donnée qui, au final, protège les gens.

8. Mon conseil

Se lancer dans un projet d’anonymisation complet de la base de production est un travail coûteux en argent et en temps. De plus, il comporte un risque non négligeable d’échec. L’anonymisation étant probablement incomplète, elle devient alors une pseudonymisation, et ne sort pas du champ d’application du RGPD.

On peut cependant bien faire. Pour cela, il convient alors de distinguer les usages, et de compartimenter les besoins afin d’avoir une maîtrise totale de ce que vous utilisez :

  • Open-data ou statistiques : Identifiez le périmètre de données pertinent et réalisez un export de celui-ci dans une base de données plus simple à anonymiser, où chaque donnée utile pourra être traitée correctement. Evaluez les besoins avec précision pour chaque élément, et bruitez, tronquez ou généralisez vos données. Sur des ensembles maîtrisés, l’analyse d’anonymat est pertinente et possible à un coût raisonnable. Il est important de garder à l’esprit que cet usage est très risqué en termes de fuites, car il est généralement destiné à une communication vaste en dehors de votre entreprise. Il faut donc être très prudent sur la génération de tels ensembles de données.

  • Génération d’échantillons de tests pour les besoins de développement : La donnée restant dans l’entreprise, elle génère un risque moins élevé. Là encore, il convient de réduire la taille de l’échantillon à anonymiser pour minimiser le risque de ré-identification. En mettant un processus d’anonymisation en place, vous réduirez grandement la surface d’exposition de vos données et donc protégerez efficacement vos données d’éventuelles fuites. À moins d’altérer la totalité des données générées lors de votre anonymisation, il est fortement recommandé de mettre en place des moyens de sécurité importants sur vos bases anonymisées. Dans le cas où ces données seraient volées, même si aux yeux de la loi elles ne sont pas anonymes car ré-identifiables par vos employés habilités, elles seront inutilisables par le voleur.

Et je terminerai sur une note optimiste : N’oubliez pas qu’un projet d’anonymisation vit dans le temps, non seulement parce qu’il ne sera pas parfait du premier coup, mais aussi parce que les algorithmes efficaces aujourd’hui ne le seront peut-être pas demain. Vous avez donc le temps et la possibilité de mettre en place un processus d’amélioration continue pour, à terme, arriver à une anonymisation parfaite de tous les éléments de votre système d’information. Vous pouvez donc commencer petit et prendre le temps de bien faire.