Rechercher
Contactez-nous Suivez-nous sur Twitter En francais English Language
 

De la Théorie à la pratique





















Abonnez-vous gratuitement à notre NEWSLETTER

Newsletter FR

Newsletter EN

Vulnérabilités

Se désabonner

Romain Lopez : Big Data, Data Mining, Internet of Things

juin 2015 par Romain Lopez

Microéconomie, informatique et mathématiques. C’est aux interfaces de ces disciplines que s’est initialement ressenti un besoin de rationalisation du partage de l’information. De tels procédés sont essentiellement basés sur deux objectifs - l’un statistique et l’autre analytique – donner un étalon numérique d’une part et optimiser sa valeur d’autre part. Ainsi se posent d’importants problèmes d’arbitrage sur la collecte des données et leur utilisation. En effet, un hôpital serait plus à même de traiter un patient en connaissant la totalité de ces antécédents médicaux mais une compagnie d’assurance vie pourrait refuser un contrat à cette personne par simple spéculation à partir de ces mêmes données.

La démocratisation et l’utilisation massive de ces trois concepts conduit aujourd’hui à soulever un ensemble de questions essentiellement basées sur la protection de la vie privée. Existe-t-il une hiérarchie des données qui conduirait à un arbitrage entre celles que nous souhaitons faire fructifier à travers des moyens tel le Big Data et celles plus sensibles sur lesquelles nous souhaitons avoir un contrôle ? Cependant, il reste légitime de se demander en quoi le contrôle est-il nécessaire : de qui faudrait-il se protéger. Dans ce cas, quel est le paysage institutionnel du Big Data ? Et enfin, en quoi ces technologies subversives vont devoir changer notre regard sur la protection de la vie privée et nous faire agir ? Le Data Mining, un difficile arbitrage ?

Rationaliser, informer, faciliter

Depuis le XVIIIe siècle, alors qu’Adam Smith expose sa théorie de la division du travail, le transit de l’information devient un point crucial de la rationalisation des organisations institutionnelles. L’exemple de l’implémentation d’une base de données dynamique au Washington Hospital Center [6] fin des années 90 qui permettait à toute l’hétérogénéité du personnel de consulter la fiche d’un patient et de tous ces antécédents a permis de doubler le volume de patient admis chaque jour.

En outre, si l’on considère un business extrêmement flexible, alors l’information est un moteur clé de sa réussite. Un peu à rapprocher du « principe de la limonade » décrit par Silberzahn, le vendeur de glace aura intérêt à préparer son approvisionnement en fonction de la météo. Poussée bien en avant, cette quête de l’information mène à des applications bien plus surprenantes comme l’utilisation anonyme des données de géolocalisations des smartphones pour en déduire une estimation du trafic routier et conseiller des itinéraires de manière à éviter les bouchons.

Une hiérarchie de données ?

Une fois l’information quantifiée et structurée, les opérations classiques d’interpolation ou de classification sont totalement indépendantes de la nature de cette dernière. Pour autant, si les cartes de fidélités de la grande distribution sont destinées à collecter des informations sur nos habitudes d’achat et que cela ne nous pose pas de difficultés, le fait que notre assureur connaisse nos habitudes de conduite et en particulier nos écarts aux limitations de vitesse semble plus délicat. Il y a donc une hiérarchie de sensibilité des données qui dépend de la portée à laquelle nous permettons leur diffusion. Un cas concret du e-commerce serait celui de la société Target [5] qui pratique la suggestion ciblée d’achat. Alors qu’un homme se plaint de recevoir des réductions pour couches culottes, il s’avère que sa fille adolescente était tombée enceinte et que la corrélation des achats l’indiquait sans erreur. La plainte est donc enlevée mais ce cas presque comique est symptomatique d’une nécessaire hiérarchie. Elle est subjective et a pour unique but de réaliser un arbitrage entre performance et respect de la vie privée. Un possible usage abusif

Une réaction commune à cette collecte des données – tant bien extensive qu’intensive – est celle du « je n’ai rien à cacher ». Pour autant, il est probable que l’utilisateur néophyte d’un service ne soit pas conscient de l’étendue de la collecte et de comment la corrélation aussi anodine de tickets de carte bleue peut être signifiante statistiquement. Premier exemple, une banque peut savoir quand un client achète conjointement une télévision, un canapé et des affaires de bain. Ce profil permet grâce à un algorithme simpliste d’identifier un client en situation de divorce et donc en difficulté financière. La banque devrait être réticente à lui financer un projet ou bien lui décerner un crédit par exemple [5]. Second exemple, prenons le cas certes dystopique d’un Etat imposant un monopole sur l’assurance. Au nom d’une assurance plus juste, proposer des produits basés sur un indice de prudence parait raisonnable. Remarquons qu’aux Etats-Unis déjà, une compagnie d’assurance maladie propose d’envoyer une notification quand il est probable que les clients ne suivent pas le traitement prescrit par le médecin – évidemment, l’algorithme demeure très secret [4]. Un tel monopole serait en fait instigateur d’un despotise dont le contrôle comportemental serait induit par des incitations économiques. Les produits estimés « malsains » par le monopole seraient alors « interdits » car impliquant une surfacturation de la part de l’assurance. Ce despotisme est plus radical que celui décrit par de Tocqueville au sujet de la politique providentialiste de la France du XIXe siècle.

Le paysage institutionnel du Big Data - ampleur et motivations

Producteurs

Ce sont les organismes qui voient directement l’utilité de leurs données et qui conçoivent souvent leurs propres capteurs. Par exemple, la startup Turnstyle Solutions basée à Toronto propose aux commerçants de comprendre les efficacités des publicités, le flux journalier de clients et le profil social de ces individus. Ils délivrent pour cela un routeur Wi-Fi passif qui reçoit tous les paquets des smartphones des clients qui essaient automatiquement de se connecter (50% de la population environ laisse son Wi-Fi activé). Le paquet contient l’adresse MAC : un identifiant matériel du téléphone et permet le traçage de nombreuses informations comme la facture et donc le nom du client. L’anonymisation est garantie par une opération de hachage [11]. La compagnie Nest spécialisée dans la domotique propose une nouvelle gamme de thermostats connectés qui en fonction de la présence ou non de la personne dans l’appartement pourra activer ou non le chauffage et ainsi dresser des statistiques sur la consommation.

Acheteurs

Les acheteurs agrègent et monnaient sur des marchés conséquents et dans des mesures importantes. Turnstyle Solutions propose maintenant un service de Free Wi-Fi en complément du routeur espion. Seulement, une des clauses du contrat d’utilisation stipule bien que toutes les données de navigation y compris les profils de réseaux sociaux seront enregistrées. Cela a permis à un gérant de bar d’augmenter drastiquement son chiffre d’affaire en programmant les évènements en fonction du profil d’âge de sa clientèle au cours de la semaine [13]. En outre, Nest a été récemment achetée par Google [10] et cet achat a suscité beaucoup d’interrogations des journalistes « Q : Seront les données des clients de Nest partagées avec Google ? R : Notre politique de vie privée est stricte et limite l’utilisation des informations de nos clients à la seule amélioration de notre service. » Reconnaissons que la réponse est vague.

Omniscients

Les acteurs omniscients sont les hackeurs ou bien ceux qui les emploient comme les services secrets. La NSA affirme bien n’utiliser ces outils qu’à des fins de sécurité nationale [3] mais ce pouvoir est tel qu’il pourrait être jugé inquiétant. Ce sont les fuites d’Edward Snowden qui ont permis de dévoiler les deux principaux projets opérationnels de la NSA dont PRISM qui est la collaboration de Google, Microsoft, Facebook, Twitter et d’autres pour donner tout type d’information sur demande à la NSA depuis quelques années déjà [9]. Figure également UpStream parmi ces projets qui consiste en l’écoute de la fibre optique passant par le territoire américain.

Qu’attendre pour le futur ?

Une intensification de la collecte

Un nouveau protocole d’interfaçage pour le Web (à la version 3.0 donc) est en cours de développement [7]. Ce protocole appelé communément Internet of Things permettrait de passer de dix milliards d’objets connectés à dix milles milliards d’ici les vingt prochaines années. La démocratisation de ces capteurs va graduellement amener à la collecte de données de plus en plus intimes. De nos jours déjà il est possible de connaître la liste des voitures suffisamment récentes qui sont en excès de vitesse, et cela en temps réel [1].

Un nouveau cadre légal

Une avancée du droit dans ce domaine permettrait deux choses. Primo, il serait rendu possible d’énoncer clairement les conditions d’utilisation d’un service sans passer par des voies détournées et/ou devoir lire un CLUF de plusieurs centaines de pages pour avoir ce renseignement. En cela, les révélations de Snowden ont permis de rehausser ce niveau de conscience. D’où la revendication de nouveaux moyens de stockage de type Cloud jugés à l’épreuve de la NSA [8]. Secundo, il faudrait pouvoir limiter la collecte et le partage des informations au nom du libéralisme pour ne pas totalement compromettre la vie privée des individus.

La désertion de « la matrice »

Cette extensivité des données ainsi que l’interconnexion de tous ces capteurs pourrait d’une certaine manière nous rappeler l’univers décrit par les Wachowski dans The Matrix. Un document trouvé sur le Deep Web [9] explique — à la manière de Kafka dans Le Procès — que l’homme est contrôlé et assujetti par l’institution bureaucratique. Cette institution joue le rôle de matrice. La thèse d’Hannah Arendt sur le sujet est très fructueuse : la technique n’est ni bonne ni mauvaise en soi. Cependant, elle promettait de faire réduire le temps de travail des individus mais n’a fait que développer de nouveaux désirs dans la société. C’est à partir de ce moment où les entreprises ont cessé de servir l’humanité pour promouvoir leur propre survie qu’elles deviennent des « programmes ». La partie sur l’économie anonyme indique par exemple que le FBI envoi trente mille requêtes d’informations personnelles chaque année et peut donc facilement trouver une liste nominative de personnes intéressées par une idéologie, philosophie ou un ouvrage particulier. Pour des besoins personnels, il est donc nécessaire de pouvoir conduire des transactions sécurisées en dehors de la Matrice. L’auteur recommande en particulier l’utilisation d’un VPN, du réseau TOR ainsi que d’un service de proxy postal (physique).

Ainsi, il est donc possible de se soustraire de la plupart des aspects gênants impliqués par la grande collecte. Cependant, cela demande un effort considérable puisque le Deep Web n’est pas indexé et reste dangereux car le siège de transactions essentiellement illégales. En outre, il faut aussi penser que la plupart des utilisateurs d’internet ont placé la valeur de leurs indices de fiabilités assez haute par faute de manque de renseignement. Remarquons toutefois que le Deep Web n’est pas uniquement le repère des hors-la-loi voulant vendre des produits sous embargo. Dans les pays où internet est contrôlé, il est aussi utilisé pour communiquer avec des journalistes par exemple. C’est une idée finalement courante où l’on va utiliser un réseau parallèle pour se cacher du réseau principal.

En conclusion, le problème essentiel lié au Big Data est le manque d’information associé aux modalités de la collecte de données. Supposons en effet que ce problème soit réglé, il est alors simple de réaliser un arbitrage entre les données non sensibles que nous pouvons partager et celles plus sensibles que nous devons protéger en utilisant un réseau parallèle. Si cela demande certes un effort important, la contrepartie en termes de rendement des missions ne sont pas à négliger. Pour que cette information soit accessible à tous, l’idéal est d’imaginer un cadre légal strict et complet. En effet, si les lois Informatique et Libertés sont claires sur la définition du caractère privé de certaines données, les opérations d’anonymisation et de ré-identification rendent assez obscur le cadre juridique de ces technologies.


Bibliographie
[1] Bloomberg. (n.d.). Ford CEO Says Privacy Laws Needed Amid In-Car Tech Boom.
[2] Bloomberg. (n.d.). Is Your Thermostat Spying On You ?
[3] BuisinessInsider. (n.d.). Public Support For The Government’s Surveillance Depends on How You Word The Question.
[4] CreditCards.com. (n.d.). New medical FICO score sparks controversy, questions.
[5] CreditCards.com. (n.d.). The latest privacy invasion : retailer tracking.
[6] Dubner, S. L. (2009). Super Freakonomics - Why should suicide bombers buy life insurance ?
[7] MotherBoard. (n.d.). With a Trillion Sensors, the Internet of Things Would Be the "Biggest Business in the History of Electronics".
[8] MotherJones. (n.d.). The "NSA-Proof" Cloud Drive : Spy-Thwarting Gadgets Are The Latest Tech Boom.
[9] NSA. (n.d.). PRISM/US-984XN Overview. Retrieved from https://edwardsnowden.com/fr/2013/0...
[10] TechCrunch. (n.d.). Google Is Buying Connected Device Company Nest For $3.2B In Cash.
[11] TheGlobeandMail. (n.d.). Startup helps merchants track customer behaviour through WiFi.
[12] Unknown. (n.d.). What is the Matrix - Hidden Wiki. Deep Web. Retrieved from http://zqktlwi4fecvo6ri.onion/
[13] WSJ. (n.d.). What Secrets Your Phone Is Sharing About You.
[14] ZdNet. (n.d.). Internet of things : $8.9 trillion market in 2020, 212 billion connected things.




Voir les articles précédents

    

Voir les articles suivants