
Masquage et anonymisation des données :
comprendre les différents algorithmes
Le masquage et l’anonymisation des données représentent des piliers essentiels de la protection des données sensibles, notamment dans le cadre du RGPD. Ces techniques permettent de modifier un jeu de données afin de le rendre non identifiable, tout en préservant sa valeur pour les analyses ou les tests.
Selon la CNIL, l’anonymisation vise à rendre impossible l’identification d’une personne à partir de ses données.
Dans cet article, nous détaillons les principaux algorithmes de Data Masking utilisés pour protéger les informations tout en maintenant la cohérence et l’utilité des données.
Les types d’algorithmes de masquage de données
1. Les algorithmes de substitution : conserver une apparence authentique
Lors de l’usage d’un algorithme de substitution, certaines informations du jeu de données principal se voient substituées par d’autres. Les informations sont alors, d’apparence, toujours réelles, mais elles permettent d’anonymiser et de protéger l’identité des personnes du jeu de données originales.
Exemple :
Jeu de données initial
Nom : Brown – Salaire : 95000
Nom : Smith – Salaire : 125000
Données anonymisées
Nom : Green – Salaire : 95000
Nom : Jones – Salaire : 125000
2. Les algorithmes aléatoires : mélanger les données
Avec cet algorithme, les caractères de chaque colonne sont mélangés de manière aléatoire. De la sorte, il est très difficile de retrouver les informations originales.
Exemple :
Jeu de données initial
Nom : Brown – Salaire : 95000
Nom : Smith – Salaire : 125000
Données anonymisées
Nom : Worbn – Salaire : 95000
Nom : Miths – Salaire : 125000
3. Les algorithmes de variation numérique : reproduire des données réalistes
À l’aide d’un algorithme de variation de nombres et des dates, il est possible de créer un jeu de données fictif se basant sur des informations chiffrées du jeu de données initiales. À l’aide de la mise en place d’une fourchette numérique significative (+/- 10% par exemple), il est possible d’afficher des résultats proches de la réalité, qui permettraient dans le même temps de rendre le jeu de données initial totalement impossible à retrouver.
Exemple :
Jeu de données initial
Nom : Brown – Salaire : 95000
Nom : Smith – Salaire : 125000
Données anonymisées
Nom : Brown – Salaire : 102600
Nom : Smith – Salaire : 112500
4. Les algorithmes de rédaction : remplacer artificiellement des données
Pour rendre totalement anonyme un jeu de données, il est possible d’utiliser un algorithme de rédaction. Ce dernier vient remplacer toutes les données réelles par une chaîne de caractères constante ou aléatoire non reliée. Autrement dit, il s’agit d’un algorithme de substitution où les informations ne semblent pas authentiques.
Exemple :
Jeu de données initial
Nom : Brown – Salaire : 95000
Nom : Smith – Salaire : 125000
Données anonymisées
Nom : xxxxx – Salaire : 95000
Nom : xxxxx – Salaire : 125000
5. Les algorithmes de masquage : conserver une base de données utilisable
Peu différent de l’algorithme précédent, l’algorithme de masquage permet de mettre en place une rédaction partielle, où certaines informations sont conservées lors de l’anonymisation.
Exemple :
Jeu de données initial
Nom : Brown – Salaire : 95000
Nom : Smith – Salaire : 125000
Données anonymisées
Nom : Bxxxx – Salaire : 95000
Nom : Sxxxx – Salaire : 125000
6. Les algorithmes personnalisés : répondre à des besoins spécifiques
Parfois, les algorithmes précédents ne sont pas suffisants ou ne permettent pas de répondre à une demande spécifique. Il est alors possible de mettre en place des algorithmes personnalisés. Ces derniers se font généralement sur demande des entreprises. Il est alors possible de demander, par exemple, d’intervertir certaines informations des différentes lignes pour rendre les données anonymes.
Exemple :
Jeu de données initial
Nom : Brown – Salaire : 95000
Nom : Smith – Salaire : 125000
Données anonymisées
Nom : Brown – Salaire : 125000
Nom : Smith – Salaire : 95000
Conclusion : protégez vos données sans perdre leur valeur
Les algorithmes d’anonymisation et de masquage permettent de sécuriser efficacement les données sensibles tout en préservant leur utilité. Chaque méthode possède ses avantages et s’adapte à différents contextes métiers. L’essentiel est de choisir la bonne approche selon vos besoins de confidentialité, conformité et performance.