30 avril Toulouse : Thales Roadshow 2024 : « Unlock your Cyber ! »

Abonnez-vous gratuitement à notre NEWSLETTER

Points de Vue

Le manque d’informations tient la plupart du temps à des données biaisées

novembre 2021 par Lori MacVittie, évangéliste technologique - direction technique F5

Selon un dernier rapport sur l’état de la stratégie en matière d’applications, seules cinq personnes sur cent obtiennent les informations dont elles ont besoin à l’aide de la kyrielle d’outils de surveillance qu’elles utilisent pour contrôler les performances, la disponibilité et la sécurité de leurs actifs numériques.

Quid des 95 personnes restantes ? Le manque d’informations n’est pas dû à la pénurie d’outils ou de données.

Le problème réside dans le biais constant des données.

Ce biais s’explique par une curation partiale de données à partir d’un système. Cette partialité résulte de diverses décisions, depuis les données à collecter et les systèmes à partir desquels les collecter jusqu’aux modes de visualisation dans des tableaux de bord.

L’une des principales raisons de biais de données provient des systèmes avec agent qui nécessitent le déploiement d’un logiciel supplémentaire dont l’entreprise collecte les données. Les agents s’accompagnent généralement d’une plate-forme d’analyse. Les coûts de déploiement et de gestion des agents introduisent un biais des données en limitant le nombre de systèmes à partir desquels collecter des données. Par conséquent, les décisions de déploiement sont souvent motivées par des opinions, avisées ou non, quant à l’intérêt de surveiller une application ou un système donné.

Autre source constante de biais : le volume de données généré, qui conduit à des décisions fondées sur une appréciation subjective de la valeur de points de données spécifiques. Toutes ces métriques sont-elles vraiment indispensables ou peut-on se limiter à trois ou quatre ? Du fait de la curation subjective des métriques, il est impossible d’évaluer les changements ou l’évolution des données dans leur ensemble. Alors que ces changements ou évolutions pourraient indiquer un problème ou un risque potentiel, ils passent à la trappe parce que les données n’ont pas été jugées pertinentes.

Enfin, les décisions concernant la visualisation dans le tableau de bord biaisent encore l’interprétation, car elles supposent bien souvent des compétences et une expérience que ne possèdent pas nécessairement les autres utilisateurs du tableau de bord. Même le choix du graphique peut introduire un biais. Cela est particulièrement vrai pour les métriques opérationnelles basées sur des séries chronologiques, comme les performances et le temps de fonctionnement.

Des histogrammes sont fréquemment utilisés pour représenter des données chronologiques, mais ils ne sont pas aussi parlants que des graphiques linéaires. Un histogramme nous oblige à comparer la hauteur des barres afin de comprendre les variations au niveau des temps de réponse, contrairement à une courbe, dont la forme montre clairement l’évolution des données. Ces décisions simples peuvent avoir un impact profond sur les opérateurs qui s’appuient sur la visualisation pour avoir un aperçu de l’état de fonctionnement d’un système.

Toutes ces décisions introduisent continuellement des biais dans les données. Elles influent sur notre capacité à les interpréter et, donc, à comprendre leur signification réelle.

Éliminer les biais

Si nous voulons prendre de meilleures décisions dans un monde numérique par défaut, nous aurons besoin de données plus pertinentes et il faudra pour cela les débarrasser de tous les biais possibles.

La génération et l’ingestion normalisées des données de télémétrie à l’aide d’agents Open Source, type OpenTelemetry suppriment l’une des principales causes de biais des données : les budgets informatiques. La collecte des données télémétriques de chaque système, et non de quelques systèmes jugés « pertinents », supprime une source importante de biais. C’est pourquoi l’Edge computing doit intégrer la génération de données télémétriques afin de les rendre disponibles partout et à tout moment.

Le Data lake en tant que service est également un moyen efficace de remédier au biais de curation dû aux volumes et aux coûts de stockage des données au fil du temps. En externalisant ces aspects, les entreprises peuvent ingérer davantage de données télémétriques, ce qui facilite la découverte d’anomalies et de schémas ayant un impact sur les performances, entre autres choses. Au cours des cinq dernières années, nous avons assisté à une multiplication de ces services, souvent déployés dans le cadre de stratégies XaaS (Anything-as-a-Service) qui absorbent de plus en plus les budgets informatiques. Dans un rapport sur le XaaS publié cette année, Deloitte indique que près de 50 % des entreprises consacreront au moins la moitié de leurs dépenses informatiques au XaaS.

Enfin, le passage de visualisations à de véritables renseignements permet de remédier à la représentation biaisée des données opérationnelles dans des tableaux de bord. Contrairement à un simple instantané des points de données dans le temps, ces renseignements sont basés sur les schémas et relations identifiés dans les données. Ils éliminent en outre les « exercices d’alerte incendie » inutiles imposés par la dépendance à des métriques binaires. Les systèmes modernes sont conçus pour une reprise automatique après une panne. L’envoi systématique de notifications chaque fois qu’un tel événement se produit peut engendrer un phénomène d’insensibilité aux alertes et entraver la productivité. La capacité à analyser les données télémétriques dans le cadre d’un flux utilisateur complet permet de savoir quand un composant défaillant requiert ou non une intervention. Passer d’un mode reposant sur l’interprétation de plusieurs visualisations à une approche basée sur des renseignements complets élimine certains biais inhérents à la visualisation.
Plus les entreprises se rapprocheront d’un modèle numérique par défaut, plus elles auront recours aux données.

La suppression des biais constituera une étape essentielle pour garantir aux clients et à l’entreprise les meilleurs résultats possibles grâce à des décisions fondées sur les données.

Voir les articles précédents

Voir les articles suivants

Les événements

23 avril Paris 9h à 13h : Conférence Appian, Cap Gemini sur le thème Financial Services et Assurances

30 avril Toulouse : Thales Roadshow 2024 : « Unlock your Cyber ! »

Abonnez-vous gratuitement à notre NEWSLETTER

Voir les articles précédents

Voir les articles suivants

23 avril Paris 9h à 13h : Conférence Appian, Cap Gemini sur le thème Financial Services et Assurances

Voir tous les évènements

Vulnérabilités

All our news in english

Alle unsere News auf deutsch

Global Security Mag Copyright 2011