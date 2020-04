Dans quelles mesures l’application StopCovid pourrait-elle être privacy by design ?

avril 2020 par Alessandro FIORENTINO Responsable de l’offre Informatique et Libertés d’Infhotep et Vice-Président de l’association Privacy Tech

Baptisée StopCovid, elle pourrait voir le jour dans quelques semaines. Cette application sera basée sur le volontariat et le respect des données personnelles, comme l’expliquaient à la presse la semaine dernière, le ministre de la Santé, Olivier Véran, et le secrétaire d’État au numérique, Cédric O. L’objectif est que chaque utilisateur du service puisse être notifié en cas de contact avec un individu malade testé positif, afin qu’il se fasse tester et si besoin qu’il soit pris en charge très tôt, ou bien qu’il se confine. Pour être très transparent avec mes lecteurs, mon premier réflexe était de considérer ce projet d’application comme une forme de solutionnisme technologique qui aurait ses limites à bien des égards et banaliserait la traçabilité des citoyens, un concept bien éloigné de la culture française. Qu’une fois de plus la situation “d’état d’exception” dans laquelle nous nous trouvions, allait ouvrir la porte à un dispositif en conformité avec le cadre juridique Informatique et Libertés actuel mais pourrait potentiellement être détourné à d’autres fins dans un futur proche. Cette position m’a d’ailleurs valu d’être qualifié de jusqu’au-boutiste par l’un de mes proches qui considérait que « le contexte et la finalité pouvaient justifier quelques mesures exceptionnelles de limitation de nos libertés individuelles ». J’avais pourtant l’impression d’en avoir déjà cédé quelques-unes durant ces dernières semaines. N’étant ni expert en déconfinement ni virologue, mon analyse était donc purement juridico-technique.

Le jour suivant Marie-Laure DENIS, Présidente de la CNIL, confirma mon ressenti avec beaucoup plus de diplomatie et de finesse lors de son audition devant la commission des lois en mettant en garde face à la tentation du « solutionnisme technologique ».

L’après-midi même je découvrais sur le web la présentation d’un projet européen baptisé PEPP-PT (Pan European Privacy Preserving Proximity Tracing) dont l’ambition est de proposer des technologies et des standards pour une approche de suivi numérique des contacts de proximité reposant sur le protocole D3PT (Decentralized Privacy-Preserving Proximity Tracing) fondé sur le respect des cadres juridiques liés à la protection de la vie privée. Ce protocole, au coeur de l’initiative, était présenté comme étant « privacy by design ».

En tant qu’ambassadeur du Privacy by Design pour la France depuis 2013, j’ai donc fait abstraction de toutes mes réticences en analysant le protocole D3PT afin de challenger la faisabilité d’une implémentation privacy by design à la hauteur de mes attentes.

Afin de bien comprendre la suite de mon article, je vais essayer de vous présenter ce protocole de manière simple.

Ce protocole repose sur une technologie Bluetooth, aucune donnée de géolocalisation ne sera collectée. L’application ne saura donc pas où vous vous trouvez. L’objectif est uniquement de tracer les utilisateurs avec qui vous aurez été en contact.

L’application fonctionnerait comme un émetteur radio. Elle diffusera grâce au bluetooth un marqueur anonymisé que seuls les autres utilisateurs de l’application qui seront à proximité pourront capter. Il est prévu que ce marqueur anonymisé change plusieurs fois par jour afin de protéger l’identité de l’émetteur dans le cas où deux utilisateurs seraient amenés à se croiser plusieurs fois par jour. Lorsque deux utilisateurs se croiseront chacun des deux enverra son marqueur anonymisé du moment, à l’autre.

Chaque utilisateur possèdera donc trois listes :

• La liste des marqueurs anonymisés qu’il a émis durant les 14 derniers jours.

• La liste des marqueurs anonymisés qu’il a réceptionnés durant les 14 derniers jours.

• Et la liste des marqueurs anonymisés des utilisateurs malades testés positifs au cours des 14 derniers jours.

Les deux premières listes seront stockées uniquement sur les smartphones de chaque utilisateur. La troisième sera téléchargée plusieurs fois par jour pour être comparée localement avec la liste des marqueurs anonymisés réceptionnés, présente sur le smartphone. Dans le cas où un utilisateur est testé positif, la liste des marqueurs anonymisés qu’il aura émis pendant les 14 derniers jours sera transférée dans la liste des marqueurs anonymisés des utilisateurs malades hébergés en central sans que son identité ne soit révélée.

Ce système permettra d’avertir les utilisateurs dans le cas où ils ont été en contact avec un utilisateur testé positif pour qu’ils puissent à leur tour se faire tester, se faire prendre en charge ou se confiner durant 14 jours. À la suite de cette analyse, ma principale interrogation était de savoir pourquoi avoir auditionné la Présidente de la CNIL si ces fameux marqueurs étaient réellement anonymisés. Pour rappel, le RGPD s’applique lorsque les données ne sont pas traitées de manière anonymisée.

Et pour être considérée comme anonymisée une donnée ne doit pas permettre trois notions :

• L’individualisation : est-il toujours possible d’isoler un individu ?

• La corrélation : est-il possible de relier entre eux des ensembles de données distincts concernant un même individu ?

• L’inférence : peut-on déduire de l’information sur un individu ?

L’exécutif avançait d’ailleurs depuis quelques jours que l’application utilisera des données anonymisées et sera « la plus respectueuse possible du RGPD ». Utiliser des données anonymisées et être le plus respectueux possible du RGPD ? Juridiquement, cela pourrait ressembler à un paradoxe.

Le terme « anonymisé » était-il utilisé uniquement pour rassurer la population ou cette anonymisation était-elle possible ? Dans quelle mesure ces marqueurs pourraient-ils être réellement anonymes ? Je vous propose donc à présent de nous concentrer sur la génération de ces marqueurs.

Le premier objectif est de générer des marqueurs sans aucun lien avec l’utilisateur.

Le second sera d’éviter les phénomènes de collision, l’objectif est d’empêcher que des marqueurs identiques soient générés, ces derniers pourraient avoir comme effet indésirable de notifier des personnes qui auraient croisé des utilisateurs en bonne santé qui auraient émis le même marqueur qu’un autre utilisateur testé positif au Covid-19.

Techniquement cela pourrait consister à générer un couple de variables aléatoires « hashées » indépendamment en SHA512. Le SHA512 est une fonction qui permet de générer jusqu’à 2 milliards de chaînes de caractères différentes. Associer deux chaînes de caractères de ce type permettrait de diminuer la vraisemblance d’être confronté à un phénomène de collision. Nous aurions approximativement 209 milliards moins de chance de générer des doublons que de gagner au loto.

A ces deux chaînes pourraient être ensuite associé l’horodatage du moment où elles auraient été générées. En termes d’espace de stockage chaque transaction représenterait 266 caractères équivalents à 1 octet seulement à 10 caractères près. Cela représenterait seulement 2,8Mo à stocker sur le smartphone de chaque utilisateur à condition que ce dernier croise 100 000 autres utilisateurs par jour pendant 14 jours. Ces marqueurs comme nous l’évoquions précédemment ne permettraient ni d’individualisation, ni de corrélation, ni d’inférence.

C’est donc possible. L’application StopCovid pourrait être privacy by design et respectueuse des droits fondamentaux et des libertés individuelles. En effet la partie assurant l’échange des marqueurs pourrait être réellement anonyme. Dans le cas où il est testé positif, soit l’utilisateur lui-même transférera la liste au serveur central, ce cas d’usage pourrait même relever de l’exception domestique n’entrant pas dans le champ d’application du RGPD, soit l’utilisateur la communiquera aux professionnels de santé, ce qui entrainera automatiquement la création d’un traitement de données à caractère personnel relevant du RGPD et du code de la santé publique, les garanties de confidentialité et de conservation devraient alors être précisées. Néanmoins la seule étude disponible sur le sujet estime que ce type d’application devrait être utilisé par au moins 60% de la population pour être efficace et être associé à une politique de dépistage qui reste pour le moins encore floue en France.

A terme, cette technologie pose plusieurs questions, notamment sur les dérives qui pourraient en être faites. Nous envisageons aujourd’hui que ce dispositif soit basé sur le volontariat et demain qu’en serat- il ?

Cette technologie ne pourrait-elle pas être pleinement intégrée à l’arsenal judiciaire ? Dans quelles mesures le fait de croiser une personne déjà condamnée ne pourrait pas demain alimenter un faisceau d’indices ou pire des charges retenues contre un justiciable ? Au final, la vraie question qui se pose est la place de ce type dispositif dans une démocratie comme la nôtre.