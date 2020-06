Etalab propose un outil open source de pseudonymisation : la réaction de Dalibo

juin 2020 par Damien Clochard, Administrateur de base de données chez Dalibo

La DINUM (direction interministérielle du numérique), chargée de « la conception et la mise en œuvre de la stratégie de l’État dans le domaine de la donnée, a publié la semaine dernière un outil open source (sous licence MIT) utilisant une intelligence artificielle pour pseudonymiser des documents.

Selon le guide mis en ligne par l’équipe Etalab, « de nombreuses administrations publiques sont confrontées à des problèmes de pseudonymisation dès lors qu’elles ont à publier des documents textuels contenant des données à caractère personnel. Ces documents recouvrent par exemple des décisions de justice, des actes administratifs, des procès-verbaux, des notes, etc. »

Il est bien souvent possible de retrouver l’identité d’individus grâce à des données tierces, les données pseudonymisées demeurent donc des données personnelles.

La réaction de Damien Clochard, Administrateur de base de données chez Dalibo, un expert français de PostgreSQL, et développeur de la solution PostgreSQL Anonymizer.

« Le projet tel que présenté par Etalab démontre une prise en compte des difficultés liées à la réidentification. Il cherche à concilier deux aspects importants : l’utilisation des données à des fins de gain d’intelligence collective et le respect des données personnelles. Si l’utilisation de l’IA pose des questions concernant le maintien d’une compréhension humaine de la manière dont les données sont gérées par les machines, la démarche ouverte et open-source de Etalab est un gage de confiance et de sérieux. Dans ce contexte, les obligations de déclaration d’incident concernant les données personnelles imposées par le RGPD prennent tout leur sens : chaque perte de données d’une institution et particulièrement chez les grands acteurs mondiaux traitant de la donnée personnelle est susceptible de remettre en cause les capacités de réidentification par recoupement. Ainsi la pseudonymisation d’un set de données doit être envisagée comme un travail permanent et non comme une tâche ponctuelle. »