Rechercher
Contactez-nous Suivez-nous sur Twitter En francais English Language
 

De la Théorie à la pratique











Abonnez-vous gratuitement à notre NEWSLETTER

Newsletter FR

Newsletter EN

Vulnérabilités

Se désabonner

Big Data & Data Mining : petit détour dans les méandres de l’extraction de connaissances

février 2016 par Emmanuelle Lamandé

A l’occasion de la 8ème édition du FIC, Eric Filiol, Directeur de Recherche, ESIEA - Laboratoire CVO, est revenu sur les principales techniques d’extraction de connaissances, à savoir le Data Mining et le Big Data. Ces techniques, qui se peaufinent au fil des années, soulèvent de nombreux enjeux, en matière d’analyses de données, descriptives comme prédictives, mais aussi de risques pour la vie privée et de subjectivité. Petit détour dans les méandres de l’extraction de connaissances...

Les techniques d’extraction de connaissances se sont largement développées ces dernières années, notamment depuis le 11 septembre 2001, explique Eric Filiol. Les données se multiplient, au travers de sources variées (textes, images, vidéos…), et les méthodes d’analyse et d’exploitation de ces informations se répandent massivement. Parmi elles, on retrouve le Data Mining et le Big Data, qui permettent l’analyse de données descriptives, mais aussi prédictives. Le Data Mining est une technique de gestion, d’exploration, d’analyse et de traitement d’une masse importante de données pour en extraire de la connaissance. Il représente l’aptitude à mettre en œuvre des capacités de traitement de données distribuées.

Le Big Data n’est pas une boule de cristal

On parle généralement de Big Data quand le volume d’informations dépasse les quelques To. L’objectif du Big Data est d’analyser les données selon différents critères, afin de mieux comprendre ces informations. Il permet, par exemple, d’expliquer le passé à partir des informations passées recueillies, et de prédire le futur via une modélisation des données. Toutefois, le Big Data n’est pas une boule de cristal. Il est important qu’il soit accompagné d’une expertise en amont et en aval. Quoi qu’il en soit, il faut toujours subordonner la technique à la dimension opérationnelle. Avec le Big Data, nous sommes passés d’une connaissance avec un référentiel absolu à une connaissance basée sur les statistiques, explique-t-il.

Le Big Data et le Data Mining sont des outils puissants, qu’il ne faut néanmoins pas mettre entre toutes les mains. En effet, ces techniques visent en partie à extraire des données potentiellement sensibles vous concernant ; et en accumulant ces informations dans le temps, on pourra alors en déduire vos habitudes de vie.

Ces techniques nécessiteront toujours une intervention humaine

Concrètement, comment cela fonctionne ? Tout d’abord, il convient de rappeler que, pour tout problème décidable, il faut un algorithme de décision. Dans beaucoup de cas, cet algorithme n’est pas détectable (ex : détection d’un terroriste). Il existe, de plus, deux types d’apprentissage différents : le premier supervisé (les données sont déjà caractérisées par un superviseur) et le second non-supervisé (les objets ne sont pas labellisés et les groupes de données ne sont pas encore connus).

Dans la majorité des cas, le Data Mining et le Big Data s’articulent autour des étapes suivantes :
- Dans un premier temps, il va s’agir de traiter, d’extraire et d’explorer l’ensemble des données. Toutefois, l’outil part généralement de données brutes, qui peuvent s’avérer mal formées (ex : dans l’attribution des crédits) ;
- Puis, l’analyse de ces données va permettre la construction d’un modèle, qui sera ensuite validé ;
- Enfin, ce modèle sera appliqué à de nouvelles données dans le cadre d’une approche prédictive.

De très nombreuses techniques différentes existent selon la nature des données, de l’apprentissage et du traitement. A titre d’exemple, on retrouve les techniques de partitionnement. Toutefois, il faut toujours rester vigilant quant aux résultats obtenus, quelle que soit la technique utilisée. En effet, les groupes de données ne sont pas forcément bien compartimentés, créant parfois des groupes de données complètement aberrants. Afin de trouver le meilleur partitionnement, on peut imaginer explorer toutes les partitions possibles et opter pour celles qui optimisent le critère considéré, mais cela est tout bonnement impossible. De plus, certains processus vont venir identifier des règles de dépendances entre des groupes complètement différents, improbables, et absolument sans aucun rapport…

Pour lui, l’open data représente d’ailleurs un cocktail explosif car de nombreuses données vont être en libre diffusion. Ainsi, on retrouve désormais en libre-service des informations concernant nos réseaux électriques, ce qui peut s’avérer très dangereux… entre de mauvaises mains.

Et même si les techniques d’extraction de connaissances s’avèrent plutôt efficaces à l’heure actuelle, il faut toujours garder à l’esprit que ce ne sont que des techniques, qui nécessiteront toujours une intervention humaine. Cela requiert avant tout une expertise métier et/ou opérationnelle. Pour que ces techniques soient efficientes, il faut correctement définir le problème et correctement interpréter les réponses.

En outre, elles posent des problèmes certains en regard du respect de la vie privée, sans compter que les réponses apportées sont subjectives par nature. Les risques pour les libertés et la vie privée sont à la hauteur du potentiel, et donc bien réels !


Articles connexes:


Voir les articles précédents

    

Voir les articles suivants