Rechercher
Contactez-nous Suivez-nous sur Twitter En francais English Language
 











Abonnez-vous gratuitement à notre NEWSLETTER

Newsletter FR

Newsletter EN

Vulnérabilités

Se désabonner

Big Data : vers une logique Data Centric

février 2016 par David Fala, directeur practices Big Data et Data Intelligence, Micropole

S’il est acquis que la création de valeur passe par l’exploitation de la « Data »,
il est important pour l’entreprise, à l’ère du Big Data, de se poser les bonnes
questions quant à sa capacité à identifier, capter, analyser la donnée, mais surtout
quant à sa capacité à en percevoir sa valeur pour elle-même, ses clients, ses
fournisseurs ou ses partenaires.
En adoptant une vision Data Centric, l’entreprise se met en capacité de tirer de la
valeur de toutes les données, qu’elles soient blanches (internes), grises (externes)
ou noires (Dark Data : données présentes en masse au sein des entreprises mais non exploitées). Or, pour y arriver, l’entreprise doit modifier son approche actuelle de
la donnée, héritée de 20 ans de culture de la Business Intelligence.

Une vision est issue de la Business Intelligence

Les architectures d’analyse de la donnée présentes au sein des entreprises sont le
plus souvent construites suivant un même modèle. Des outils de collecte des données
les déversent dans un espace de stockage où elles seront nettoyées et mises en
conformité, pour finalement être stockées dans un DataWarehouse, afin qu’elles
puissent être analysées par des utilisateurs grâce à des solutions de Business
Intelligence.

Les frontières de la donnée et de l’analytique sont donc cantonnées à un périmètre
contenu et maîtrisé par l’entreprise. L’ensemble du processus ayant pour objectif de
répondre à des questions posées sur des données connues.

Si l’entreprise sait anticiper la valeur liée à l’exploitation des données blanches,
qu’en est-il de l’exploitation des données grises et des Dark Data puisque par
définition, elle n’est pas préparée pour accueillir ces données, et encore moins
pour en déterminer leur valeur ?

Premier étage de la fusée Data Centric : repenser l’approche de la donnée

Pour que l’entreprise se mette en capacité de tirer de la valeur de toutes les
données, c’est-à-dire tout collecter, tout stocker et tout analyser, elle doit
modifier son approche de la donnée. La logique actuelle consiste alors à mettre en
œuvre une plateforme Big Data afin d’y déployer un « Data Lake ». Ce lac de données
apporte une nouvelle agilité au système d’information, en fournissant un espace de
stockage et d’analyse global de toutes les données, qu’elles soient brutes ou
raffinées, issues des sources internes ou en provenance de sources externes.

L’erreur souvent constatée est que l’entreprise conserve sa vision classique de
l’intégration des données : la donnée est alors extraite d’une source et recopiée au
sein du Data Lake afin de la rendre disponible pour l’analyse. Or, avec l’avènement
des très gros volumes de données, cette stratégie consistant à ramener l’ensemble
des données dans un point unique peut s’avérer contre-productive. Potentiellement
coûteuse en temps, en traitement, en stockage, la valeur générée peut s’avérer
faible. Il est donc important de cadrer les sources de données à intégrer et de
repenser sa stratégie d’intégration inter-applicative.

Pour réussir sa stratégie Data Centric, il faut l’associer à une autre notion :
l’entreprise étendue.

L’entreprise étendue : redéfinir les frontières du S.I.

Aujourd’hui, les directions informatiques ont « abandonné » certaines données, étant
dans l’impossibilité de les le capter et/ou de les intégrer facilement au système
d’information. Ces données grises et Dark Data, sont par exemple les données
digitales générées dans le cloud et manipulées directement par les directions
Marketing, ou encore certaines données de production industrielle restant sur site
car compliquées à rapatrier au sein du système d’information.

La notion de silos de données est alors ici poussée à son paroxysme ; le silo n’est
plus dans le DataWarehouse mais déporté « quelque part » à l’intérieur ou à
l’extérieur de l’entreprise, tout en restant visible par le métier.

La notion d’entreprise étendue est née de la constatation que les DSI ne considèrent
ou ne valorisent une donnée que si elles savent l’identifier, la gérer et au besoin
la stocker. Dans la logique Data Centric, il doit être possible de voir et
d’analyser toutes les données de l’entreprise, y compris celles qui ne sont pas à
l’intérieur des frontières classiques du système d’information. Or, comme recopier
toutes les données en provenance de toutes les sources n’a pas de sens, même dans un
contexte Big Data, il est nécessaire de privilégier une approche dans laquelle le
système d’information sera virtuellement étendu à l’ensemble des sources de
l’entreprise.

Mais si toutes les données ne sont pas recopiées localement au sein du Data Lake,
alors comment les croiser et les analyser pour en tirer de la valeur ?

Dernier étage de la fusée Data Centric : l’Edge Computing

S’il n’existe pas de traduction littérale à l’Edge Computing, l’idée générale est
simple : valoriser la donnée, là où elle se trouve. En fonction de la stratégie Data
de l’entreprise, et dans le but d’éviter des déplacements massifs et coûteux de
données vers le Data Lake, l’Edge Computing favorise le traitement de l’information
au plus proche de la donnée, ramenant uniquement la donnée utile dans le Data Lake,
et ce à moindre coût.

Les nouveaux compteurs intelligents Linky en sont un très bon exemple : ils ont la
capacité de renvoyer au réseau, soit la consommation électrique du client au fil de
l’eau, soit le cumul de sa consommation journalière. Et cette information sera
stockée (en incluant les pics de consommation) au sein du Data Lake de l’opérateur
électrique.

Pour Micropole, la logique Data Centric (associée aux notions d’entreprise étendue
et d’Edge Computing) apporte une souplesse inégalée pour l’entreprise dans la mise
en place d’un projet Big Data. De plus, son objectif de valorisation de la donnée
évite les écueils liés à des réflexes venant de 20 ans de BI, aide à définir les
frontières de la donnée et au final, facilite l’adoption du Big Data en pérennisant
et en rationnalisant l’usage du Data Lake. Et ce, sans oublier les aspects de bonne
gouvernance et de sécurité qui ont évidemment un impact fort dans la mise en place
de tels projets.


Voir les articles précédents

    

Voir les articles suivants