Anonymisation de textes non structurés par l'IA - DOT Anonymizer

Par Florian Pusello · 2 juin 2026

Et si l'IA vous permettait d'anonymiser vos textes non structurés aussi simplement que vos bases de données ? Pendant longtemps, l'anonymisation se limitait aux bases structurées : tables, colonnes, noms de champs clairs… un terrain balisé où repérer un nom ou un numéro de sécurité sociale relevait d'une mécanique simple. Aujourd'hui, les données sensibles circulent dans vos e-mails, vos logs, vos PDF, vos comptes rendus, vos échanges clients. Et contrairement à une base SQL, un texte libre n'offre aucun repère. Tout est à reconstruire. Avec l'IA, DOT Anonymizer rebat les cartes : règles d'anonymisation en langage naturel, détection sémantique, anonymisation de fichiers PDF. Tour d'horizon.

Ce qu'il faut retenir

  • 1

    Générez vos règles d'anonymisation avec l'IA, en langage naturel et sans expertise technique.

  • 2

    Détectez les données sensibles dans vos textes libres grâce à des LLM entraînés par métier.

  • 3

    Gardez vos données critiques sous contrôle avec un traitement on-premise, sans cloud public.

  • 4

    PDF, métadonnées et OCR pris en charge avec préservation de la mise en page d'origine.

1. L'IA, générateur de règles d'anonymisation

Nous avons commencé par intégrer l'IA dans la génération de règles. Une règle d'anonymisation, c'est un patrimoine de l'entreprise. Elle vous appartient. Elle reflète vos applications, vos contrôles, vos besoins métiers. Autrement dit, ce n'est pas un standard universel, c'est votre ADN.

Avec l'IA, nous avons rendu possible la création de règles automatiquement, à partir d'un langage naturel. Imaginez un utilisateur métier demandant : « Pour ce champ IBAN, applique la formule de calcul avec la clé de contrôle spécifique à la zone géographique. » Avant, cela demandait du code Groovy, une bonne connaissance technique et pas mal de temps. Aujourd'hui, le LLM se charge de générer la règle complète, exploitable immédiatement dans DOT Anonymizer.

Cela permet de décharger les utilisateurs fonctionnels de la lourdeur technique et de les concentrer sur leur vraie valeur : leur expertise métier. Les consultants n'ont plus besoin de réécrire dix fois le même script complexe. Les utilisateurs métiers, eux, ne sont plus freinés par le manque de compétences techniques. Bref, l'IA devient un accélérateur naturel de productivité.

2. L'enjeu des textes non structurés

Anonymiser du texte libre dans des formats et contextes variés exigeait un outil puissant. Pas magique, mais puissant. Et cet outil, c'est l'intelligence artificielle.

Un mail, un compte rendu médical, une lettre d'échange patient-médecin, une conversation interne… Tous ces contenus sont remplis de données critiques. Et contrairement à une colonne « first_name » dans une base SQL, rien ne vous indique directement qu'il s'agit d'un prénom ou d'un diagnostic.

Pour relever ce défi, nous nous appuyons sur des modèles de langage (LLM). Leur rôle est double :

  • Détecter les données critiques dans le texte, qu'il s'agisse d'un nom, d'un numéro de sécurité sociale ou d'un traitement médical.

  • Identifier le domaine sémantique de chaque donnée : s'agit-il d'un prénom, d'un IBAN, d'un code interne ?

Concrètement, la détection s'appuie sur des modèles entraînés par domaine métier : informations personnelles, données financières, données médicales, et d'autres encore en cours de développement. Chaque domaine dispose de son propre algorithme, affiné pour reconnaître les données sensibles dans son contexte spécifique. Et la liste des domaines couverts continue de s'étendre.

Une fois les données détectées, l'utilisateur n'est pas laissé face à un résultat figé. Il peut affiner la détection et l'anonymisation directement en langage naturel : demander d'anonymiser un champ omis, ou au contraire de lever l'anonymisation sur un élément non sensible dans son contexte. Cette interaction intuitive permet d'atteindre un résultat précis sans expertise technique.

Une fois le processus validé et stabilisé, il est sauvegardé sous forme de template réutilisable. Ce template peut ensuite être appliqué en batch sur d'autres documents du même type, via l'API ou l'interface de ligne de commande. Le processus est ainsi entièrement industrialisé et automatisé à grande échelle.

Une fois ces informations extraites, nous les relions à vos propres règles d'anonymisation. Car c'est là que tout se joue : ce n'est pas à ChatGPT ou à un service externe de décider comment vos données doivent être transformées. Ce sont vos règles, votre cohérence, vos contraintes métiers.

Et la cohérence est essentielle. Si « Jean Dupont » est anonymisé dans une base de données, il doit l'être de la même manière dans une lettre médicale ou un log applicatif. Avec cette approche, nous garantissons que l'anonymisation est homogène à travers toutes vos sources, éliminant ainsi une faille de sécurité jusque-là béante.

Un autre point essentiel : la sécurité des traitements. Pas question d'envoyer vos données sensibles vers des clouds publics. Nos intégrations IA fonctionnent on-premise, garantissant que vos données critiques restent sous votre contrôle.

Anonymisez vos textes non structurés avec l'IA

3. Le cas particulier du PDF et ses enjeux

Parlons maintenant d'un format que nous connaissons tous : le PDF. Ce format est devenu un standard dans les entreprises, utilisé pour transmettre, archiver et exploiter des documents. Mais il pose un défi redoutable :

  • Extraire et anonymiser le texte est faisable.

  • Mais préserver la mise en page et la structure du document final est une tout autre histoire.

Pourquoi ? Parce qu'un PDF n'est pas qu'un fichier de lecture. Il est souvent exploité dans des applications métiers, en dev ou en test, avec une mise en page précise attendue par les systèmes. Modifier le contenu sans respecter la forme, c'est risquer de casser des processus entiers.

Notre objectif a donc été clair : anonymiser le contenu tout en conservant le document tel qu'il était, au caractère près dans sa présentation. Pour un document d'une page, le traitement s'exécute en une dizaine de secondes : un niveau de performance qui rend le traitement en volume tout à fait envisageable.

Cela inclut aussi les métadonnées. Trop souvent négligées, elles peuvent révéler l'auteur du document, l'entreprise émettrice, ou d'autres informations critiques. Prenons un exemple concret : un appel d'offres où l'anonymat est une condition impérative. Un document parfaitement expurgé de ses données visibles peut quand même trahir son origine si, dans ses propriétés, apparaît « Rédigé par : Société X ». Avec DOT Anonymizer, nous veillons à ce que ce type de détail ne vous échappe pas.

Enfin, nous traitons aussi les cas d'OCR sur PDF scannés. Là, les défis sont encore plus grands : textes manuscrits, divergences possibles entre la source et le résultat… Mais l'important reste que le document final reste exploitable dans vos processus, tout en étant sécurisé.

4. Et pour les grandes volumétries ?

L'anonymisation de textes non structurés ne s'oppose pas aux traitements massifs, elle s'y adapte. Pour les organisations qui gèrent d'importants volumes de documents ou de données, DOT Anonymizer s'intègre naturellement dans les architectures existantes.

Une fois un moteur d'anonymisation validé, il est possible de le faire tourner en batch via l'API ou l'interface de ligne de commande, en s'appuyant sur un ordonnanceur interne pour planifier les traitements aux heures creuses. Les temps de traitement varient selon la nature des documents et le volume à traiter, mais cette approche permet d'absorber de grands flux sans perturber les environnements de production.

5. Quelle suite pour l'anonymisation pilotée par l'IA ?

La prochaine étape majeure sera le Magic Button : une fonctionnalité en cours de développement qui permettra de charger un document dans la plateforme et, d'un simple clic, d'obtenir une anonymisation entièrement automatique. Sans configuration préalable, sans expertise requise. La solution ira elle-même identifier les champs à anonymiser en fonction des normes réglementaires en vigueur (RGPD, CNIL et autres référentiels évolutifs), avant de restituer le document anonymisé directement dans le dossier de dépôt. Une fonctionnalité qui incarne pleinement la vision d'une anonymisation zéro friction.

Au-delà de cette feature phare, nous poursuivons sur plusieurs fronts :

  • Finaliser la prise en charge des PDF et documents Office, avec tout ce que cela implique en termes de métadonnées et d'OCR.

  • Étendre à d'autres formats et cas d'usage : car les données critiques ne cessent de se multiplier dans des environnements toujours plus divers.

  • Fournir des prompts spécialisés pour que chaque organisation définisse ce qu'est une donnée sensible dans son propre contexte : un tarif confidentiel dans l'industrie, une spécification technique unique, un champ métier spécifique…

  • Intégrer ces capacités via MCP et APIs, afin que l'anonymisation pilotée par l'IA puisse s'inscrire dans vos pipelines existants, sans rupture.

Et comme toujours chez ARCAD, nos horizons sont rapides : ce que nous appelons « long terme », c'est quelques mois. Car nous savons que sur ces sujets, chaque jour compte.

Passez à l'anonymisation pilotée par l'IA

Florian Pusello - Spécialiste en anonymisation

À propos de l’auteur

Florian Pusello

Spécialiste en solution d’anonymisation

Fort d'une expérience dans le monde de la data côté métier au sein de grands groupes, Florian a rejoint ARCAD Software en tant que Solution Architect pour accompagner les clients sur la mise en place et le scaling de projets d'anonymisation dans des contextes de Business Intelligence, de Data Science ou d'intelligence artificielle.

Pour toute question sur l’anonymisation, contactez nos spécialistes.

TRIAL / DEMO

Book a trial version or a session in our sandbox!

Trial version

Test Data Management Expert

Try it now!

Book a trial version

or

Demo

Test Data Management Expert

Personalized demo

Reach out to our experts