Rechercher
Contactez-nous Suivez-nous sur Twitter En francais English Language
 

De la Théorie à la pratique





















Abonnez-vous gratuitement à notre NEWSLETTER

Newsletter FR

Newsletter EN

Vulnérabilités

Se désabonner

Afaf FAFI, CONIX : Vie privée, la face « V » cachée du Big data

janvier 2017 par Afaf FAFI, Consultante cybersécurité, CONIX

La « data » est devenue un enjeu sociétal. La journée mondiale de la protection de la donnée ou « Data Privacy Day » , célébrée le 28 janvier rappelle depuis bientôt 10 ans l’importance qu’elle revêt pour nos sociétés numériques et ultra-connectées particulièrement consommatrices de données. D’origine anglo-saxonne, cette « journée mondiale » a été créée en 2007 par le Conseil de l’Europe, suivie en 2009 par les Etats-Unis lui conférant désormais une portée internationale.

Le règne de l’analytics à l’ère de la Data

Que vous utilisiez les réseaux sociaux, que vous achetiez un article dans une boutique en ligne, ou que vous surfiez tout simplement sur le web en acceptant des cookies, vos données sont collectées, enregistrées, analysées. Avec ces nouveaux usages numériques, les projets dits « Big Data » ont ainsi explosé. Leur but : manipuler d’importants volumes de données pour créer de la valeur. A l’horizon 2020, les analystes prévoient déjà une augmentation vertigineuse du volume de données créées notamment par le biais des plateformes de services en ligne, les réseaux sociaux et les objets connectés. Ainsi, les estimations sont de l’ordre du zettabyte. Une étude IDC prévoit un volume de données multiplié par 10 en 7 ans. A titre d’exemple, Facebook génère chaque jour 4000 TB de données.

L’évolution passée et future du volume de données collectées dans le monde (source Wikipedia)

Parmi ces quantités astronomiques de données, la détention massive de données personnelles est source de puissance et de domination du marché, notamment pour les entreprises privées, telles que les GAFAM (Google, Amazon, Facebook, Apple, Microsoft), toutes leaders du domaine Big Data.

Les caractéristiques ADN du Big Data

Pour définir le Big Data, le paradigme évolue du modèle « 3V » (Volume, Vélocité, Variété) introduit par Gartner en 2011 à celui du « multi-V » évoqué par l’ENISA en 2016 . L’association aux concepts additionnels de « Véracité » (authenticité des données), de « Variabilité » (signification évolutive des données) ou encore de « Valeur » (en termes de confidentialité ou encore de retour sur investissement) démontre que ce modèle est encore en pleine mutation. Ainsi, les termes de « Visualisation » (présentation des données consolidées et enrichies) et « Versatilité (prise en compte du cross-device) » portent aussi des défis en soi (pour la restitution décisionnelle mais aussi l’environnement utilisateur en mobilité). Les définitions évoluent, les concepts orientés marketing aussi mais les besoins et les risques restent identiques. La CNIL a repris en 2014 le modèle « 3V » en ajoutant des mots clés liées à la sécurité des données. Ainsi, un « V », pourtant capital, se trouve curieusement absent des modèles plus ou moins nébuleux réalisés autour du Big Data : le concept de « Vie Privée » (ou « Data Privacy »). Les affaires retentissantes, ainsi que l’évolution de la réglementation nous rappellent que ce concept est à prendre en compte et reste un élément central de tout projet Big Data.

Par extension du modèle 3V originel, le Big Data nous apparait aujourd’hui sous forme de spirale nébuleuse, en constante croissance, avec une ligne orbitale à ne pas franchir, celle de la vie Privée.

Le positionnement de la Vie privée au sein de la spirale nébuleuse du Big Data

Les DCP : le nouvel or noir du digital et le cadre juridique associé

En effet, le profit suscitant aussi la convoitise, l’ISACA remontait déjà en 2013 que les entreprises avaient besoin de solutions robustes afin de prévenir les vols de données et d’assurer la sécurité de ces dernières. L’accent était notamment mis sur l’identification et la protection des données sensibles, la réaction rapide face à une fuite de données ou à une atteinte à la vie privée.

L’exemple de Yahoo touché par un vol massif de données depuis 2014, et publiant l’information presque 2 ans après les faits montre à quel point les données à caractère personnel (DCP) sont prisées par les pirates, mais surtout la faible sécurisation de ces données par les géants du web. Les vols de données sont légions et en constante croissance. Le journal Le Monde dans son article de septembre 2016 faisait un excellent état des lieux des principaux vols de DCP depuis 3 ans, Yahoo, par le volume de données dérobées, occupant la 1ère marche du podium. Par extrapolation, qui sait combien d’autres vols ont été perpétrés et ne sont pas encore signalés ou médiatisés ?

Aussi, l’encadrement de la collecte et du traitement des DCP apparaissait urgente pour le législateur. C’est pourquoi le corpus législatif et réglementaire continue à se durcir afin d’apporter aux individus une protection de leur vie privée. Ainsi, outre le RGPD qui entrera en vigueur le 25 mai 2018, la « Privacy Shield », crée un nouveau cadre pour les échanges de données entre l’Union Européenne et les Etats-Unis, tandis que la Directive e-Privacy en préparation visera à protéger davantage les internautes en encadrant notamment l’exploitation des métadonnées. Au final, dès l’entrée en vigueur du nouveau règlement européen, c’est jusqu’à 20 millions d’euros ou 4% du chiffre d’affaire mondial d’une entreprise qui pourra lui être réclamé si elle n’a pas pris en œuvre les moyens suffisants pour protéger de façon acceptable les données de ses clients ou usagers. Concernant Yahoo, pour un chiffre d’affaire d’1 milliard d’euros, la facture aurait été conséquente …

La réglementation est là pour rappeler les obligations des entreprises, des hébergeurs, des individus dans leur utilisation de la donnée stockée, exploitée ou transmise. Ainsi, malgré son dimensionnement et les technologies cloud/datacenter utilisées, seul espace de stockage approprié pour de tels volumes de données, un projet Big Data est soumis aux mêmes règles sur les DCP qu’un autre projet informatique. Dès qu’il y a agrégation de DCP, celui-ci doit être consigné dans un registre susceptible d’être mis à disposition de la CNIL et les DCP doivent être protégées par les dispositions adéquates (contrôle d’accès, chiffrement, anonymisation ou pseudonymisation, etc.).

Les nouveaux enjeux du Big Data

Si avec l’entrée en vigueur du RGPD, les déclarations à la CNIL n’auront plus lieu d’être, sont en revanche attendues des obligations de moyens avec notamment la notion de « Data Protection by Design and by Default » (DPbDbD). Face aux nouvelles obligations légales, en quoi les projets Big Data ont-ils plus de difficulté que les autres à intégrer la Data Protection ?

En premier lieu, la classification de l’information constitue aujourd’hui un enjeu stratégique dans la mesure où une gestion peu rigoureuse de ces dernières pourrait mettre des entreprises en risque. Outre le coût induit par le stockage des données superflues, les données non classifiées peuvent se trouver être des DCP sensibles et être néanmoins conservées par l’entreprise sans bénéficier de la protection adéquate. Un des dilemmes à résoudre consistera à minimiser les données aux seules informations utiles parmi la masse de données d’entrée potentiellement disponibles. Pour la plupart des projets Big Data, les données sont stockées dans un Cloud public ou privé. Pour autant, la responsabilité de protéger les données pouvant être à caractère personnel n’incombe pas à l’hébergeur, mais bien au responsable du traitement (data controller) et le cas échéant au co-responsable en cas de sous-traitance (data processor), tant d’un point de vue légal que contractuel.

Au niveau du cycle projet mais également du cycle de vie des systèmes Big Data, les données massives nécessitent une approche spécifique. En effet, les projets Big Data, caractérisés par des implémentations et des finalités évolutives dans le temps auront ainsi à piloter leurs risques et leur sécurité en dynamique. A ce titre, la démarche d’homologation (ou assimilé) se doit d’être systématisée, industrialisée mais également outillée de façon permettre les itérations en cas de changement notable.

Enfin, sur le plan opérationnel, les techniques de sécurisation telles que le chiffrement représentent dans certain cas un véritable défi technologique à relever au regard des volumes de données à protéger. Là aussi, un ciblage des données DCP sensibles est souhaitable en amont de façon à optimiser le champ d’application.

Pour conclure

Avec le renforcement de la réglementation, les organisations devront désormais composer avec cette nouvelle dimension incontournable touchant au juridique et à l’éthique, que constitue la vie privée au travers des traitements DCP, et ce, de sortes que le Big Data ne finisse pas par se voir associer les notions peu flatteuses de Voracité, Vice ou encore Violation des droits individuels …


1) « Data Privacy Day » : son origine tient au traité européen n°108, signé le 28 janvier 1981. Depuis plus de 30 ans, il est la pierre angulaire de la protection des données en Europe et au-delà. En savoir plus. https://france.emc.com/infographics...
2) 1 zettabyte (ZB) = 1 milliard de terabyte (TB) = 1021 bytes
3) http://www.gartner.com/newsroom/id/...
4) https://www.enisa.europa.eu/publica...
5) http://publications-sfds.fr/index.p...
6) http://www.isaca.org/Knowledge-Cent...
7) https://fr.finance.yahoo.com/actual...
8) http://www.lemonde.fr/pixels/articl...
9) RGPD / GDPR : Règlement Général sur la Protection des Données 2016/679/UE. https://www.cnil.fr/le-reglement-eu...
10) Privacy Shield : adopté en juillet 2016 par la Commission européenne, le Privacy Shield, succède au Safe Harbor invalidé fin 2015. https://www.cnil.fr/fr/le-privacy-shield




Voir les articles précédents

    

Voir les articles suivants