La réponse intelligente face à la nouvelle normalité du commerce numérique

janvier 2021 par Steve Barrett, Vice Président EMEA Sales chez PagerDuty

Des violations de données, défaillances d’applications, interruptions de sites web, de centres de données ou de réseaux ainsi que des ralentissements de service se produisent avec une régularité alarmante, sans même devoir énoncer les gigantesque attaque sur les réseaux Américains liées au software de Solarwinds. Comme on le sait, la France n’a pas été épargnée au cours de 2020, avec de très importantes attaques envers les entreprises nationales, comme par exemple la vague de ransomware éprouvée par Sopra Steria, Snake ou le Groupe Enel, pour ne citer que quelques exemples.

Mais quelle régularité ? Dans un rapport de PagerDuty publié au début de l’année, 65 % des professionnels et cadres de l’IT ont déclaré que leur organisation rencontrait ce qu’ils considèrent comme un « problème technologique majeur » chaque mois - et 44 % chaque semaine.

Ces incidents ont des conséquences financières graves : selon l’Uptime Institute, 10 % des organisations ayant subi un incident ont déclaré avoir perdu 1 million de dollars ou plus. Les pertes ou violations de données, quant à elles, sont encore plus coûteuses.

Avec la numérisation, les entreprises se reposent de plus en plus sur la technologie car les infrastructures sont fondées sur du code et les services sont fournis sous forme de logiciels. Si cette évolution a entraîné une plus grande souplesse commerciale, elle a également suscité la répercussion des problèmes dans la pile technologique sur les activités et les clients.

La pandémie de Covid-19 a poussé les entreprises à s’appuyer davantage sur la technologie. Pour beaucoup, la première réaction a été de déployer des systèmes de collaboration et de virtualiser les centres d’appel afin que le personnel puisse travailler à distance, tandis que d’autres se lançaient dans la formation en ligne. Les détaillants ont dû renforcer les services de commerce électronique pour faire face à la demande devant une augmentation du trafic sans précédent.

Selon nos données, le nombre global de problèmes par semaine liés à la performance technologique a doublé, en conséquence de cette évolution. Pour les secteurs verticaux soumis à de fortes contraintes comme les services d’apprentissage, de collaboration et de voyages, le chiffre était encore plus élevé.

La Covid-19 a donc renforcé l’importance de la technologie au sein des entreprises tout en nous rappelant les risques liés aux urgences technologiques.

Malheureusement, la Covid-19 signifie également que les personnes responsables de maintenir la fiabilité et la disponibilité attendues doivent désormais le faire avec moins de ressources qu’avant la pandémie. Gartner et IDC s’attendent à de fortes réductions des budgets IT globaux, ce qui signifie que les responsables IT n’engagent des ressources que pour des projets qui contribuent à améliorer l’efficacité opérationnelle et à réduire les coûts. Le travail à distance semble également se maintenir à 74 %, tandis que d’autres prévoient de réduire les effectifs de près de 20 % au cours du prochain semestre.

Cela signifie moins d’experts pour surveiller, entretenir et réparer les systèmes, tandis que les acteurs du DevOps, de la sécurité, de la conformité, de la réglementation et des opérations dépendant des solutions numériques et ayant fonctionné efficacement à partir de sites centralisés, doivent surmonter les défis de communication, de collaboration, de disponibilité et de réponse engendrés par le travail à distance.

Toutes les conditions sont réunies pour un désastre : une pile technologique complexe combinée à la nécessité d’une réponse urgente, où chaque minute, voire seconde, compte. Au fur et à mesure que la pile évolue, la maîtrise de la réponse aux problèmes augmente en parallèle : la responsabilité est partagée entre des individus, responsables technologiques ou gestionnaires d’entreprise. Cela exige un mode de travail plus souple pour résoudre les problèmes - une approche agile qui sort des structures et processus cloisonnés.

Une automatisation pour et par les gens

Heureusement, ce phénomène s’inscrit dans une mutation à long terme vers les technologies et pratiques DevOps et l’application de l’intelligence artificielle avec l’AIOps. Ensemble, elles permettent de surmonter la crise grâce à une combinaison de réponse intelligente aux événements et d’automatisation.

La base de la réponse intelligente est un plan d’action bien défini pour répondre aux événements, ce plan étant défini et exécuté au moyen d’un ensemble cohérent de flux de travail et de politiques. PagerDuty a constaté ici que ceux qui avaient développé un plan de réponse documenté pour faire face aux urgences technologiques majeures ont vu chuter de 16 % le volume de travail imprévu résultant d’événements tels que les violations, les interruptions ou les ralentissements. Dans le rapport de l’Uptime Institute, les victimes de temps d’arrêt ont indiqué qu’une meilleure gestion et des processus de configuration plus efficaces auraient pu permettre d’éviter les problèmes.

Il est important que ces flux de travail et processus se mettent en route sans déclencheurs manuels. Cela suppose une automatisation. Selon nos données, 81 % des organisations utilisent peu ou pas d’automatisation pour résoudre les problèmes technologiques ; pourtant, on a constaté qu’une forte corrélation entre l’existence de plans établis, automatisés, documentés et reproductibles et une réduction du volume de travail inattendu. L’automatisation des processus peut réduire les écarts qui se creusent lorsque les équipes se dispersent et se réduisent, accélérant ainsi les temps de réponse et réduisant les possibilités de pannes dommageables.

Toute réponse intelligente repose sur les données : recueillir et analyser les données des machines pour repérer les incidents en temps réel, déclencher des alertes et permettre une analyse à long terme.

Les opérations numériques utilisent d’énormes volumes de données ; dès lors, si celles-ci ne sont pas gérées correctement, il peut y avoir paralysie de l’analyse ou frénésie d’alertes, de notifications et résultats faussement positifs. Il est donc important de créer un petit ensemble d’indicateurs de données pertinentes. Ces données permettront d’alerter les « bonnes » personnes - de manière à éviter la multiplication des alertes qui provoquent de la fatigue ; elles permettent également de structurer les outils et les équipes dans des environnements complexes, et servent de base à la planification.

La numérisation a placé la technologie au cœur des entreprises, mais la Covid-19 a posé de nouveaux défis exigeant un fonctionnement efficace et sans interruption des technologies. Une combinaison de réponse intelligente et d’automatisation peut réduire la charge des équipes devant accomplir davantage avec moins de moyens, tout en améliorant la résilience des entreprises et en protégeant les clients.