Rechercher
Contactez-nous Suivez-nous sur Twitter En francais English Language
 

De la Théorie à la pratique











Abonnez-vous gratuitement à notre NEWSLETTER

Newsletter FR

Newsletter EN

Vulnérabilités

Se désabonner

Votre prochaine préoccupation en matière de sécurité ? Empêcher que votre nouveau modèle de Machine Learning ne soit dégradé par des tiers

juillet 2021 par Vincent Bonnot, Directeur Commercial SEMEA, H2O.ai

Il existe un nouveau sujet dont il faut se préoccuper : la sécurité du modèle IA sur lequel vous avez tant travaillé.

Nous connaissons tous les problématiques de cybersécurité et d’informatique traditionnelle des entreprises. Mais en voici une nouvelle : quel serait le risque pour votre entreprise si l’intégrité de votre nouveau modèle de Machine Learning était compromise ?

Le problème est que personne ne le sait.

Vous avez déjà probablement fait certaines vérifications : si des décisions apparaissent comme discriminatoires ou biaisées, ou bien si vous rencontrez des défaillances parce que vous n’arrivez pas à appréhender l’évolution de vos données dans le temps. Mais les algorithmes de Machine Learning sont tout aussi sujets aux attaques de cybersécurité externes que votre évaluation de crédit ou votre demande de prêt.

Une fois votre modèle altéré, il pourrait finir par vous être inutile. Tout votre investissement et le travail acharné de votre Data Scientist pourraient être en vain. Prenons l’exemple de Microsoft qui a publié en 2016 un chatbot Twitter basé sur l’IA dénommé Tay, un modèle de Machine Learning qui tweete automatiquement. Moins de 24 heures après, ce chatbot très innocent avait été corrompu par des pirates informatiques le transformant en un robot très raciste et sexiste. Cet excellent modèle avait été manipulé et déformé dans le but de causer du tort, contrairement à la volonté de Microsoft qui l’avait construit avec de bonnes intentions.

La probabilité de nuire à l’intégrité du modèle d’IA

Tay est définitivement un avertissement pour l’avenir en ce qui concerne la vulnérabilité d’un modèle si celui-ci n’est pas correctement protégé. Et comme l’IA/ML sont des technologies de plus en plus présentes dans l’entreprise, les DSI doivent réfléchir à les protéger contre, comme dans ce cas, une destruction délibérée ou une défaillance accidentelle. Si vous pensez que Tay est unique, détrompez-vous : la compromission de l’intégrité des modèles commence à être plus fréquente que vous ne le pensez, mais les entreprises s’efforcent de les cacher au public.

Cette intégrité peut être compromise de deux manières : à travers les échecs internes au sein de l’entreprise pour mettre en place une bonne gouvernance, ou au niveau des processus de création, de production et de surveillance des modèles. Cependant, il existe également la possibilité d’altérer l’intégrité du modèle IA, en attaquant le modèle lui-même.

De nombreuses entreprises avec lesquelles nous travaillons, en particulier dans le secteur financier et les services de santé, prennent conscience que, malheureusement, ces modèles ne sont pas d’une fiabilité à toute épreuve. L’espionnage industriel du 21ème siècle doit être sérieusement pris en compte : des concurrents pourraient pirater votre nouveau modèle et inverser vos procédures décisionnelles dans le but de détourner un avantage concurrentiel. Par exemple, si vous savez comment fonctionne l’algorithme d’Amazon, il y aura des éléments dans le moteur de tarification d’Amazon que vous pourriez exploiter pour diminuer sa tarification.

En conséquence, nous devons être conscients de la manière dont les modèles pourraient être attaqués et manipulés. En l’occurrence, si vous n’avez pas mis en place de processus permettant de vérifier s’ils fonctionnent toujours comme prévu, vous courez un grand risque en laissant une porte ouverte à cet endroit.

Les techniques de falsification de modèle

La plus grande menace pourrait être ce que l’on appelle l’empoisonnement des données. Si vous souhaitez manipuler un modèle, la première chose à faire est de commencer par les données qui y sont introduites. Les modèles sont générés, dans l’ensemble, à partir de données opérationnelles ; les gens vaquent à leurs occupations, font des achats, effectuent des transactions par carte de crédit, et l’IA vise à identifier des modèles dans ces données. Une personne mal intentionnée commencerait simplement par créer artificiellement des données et des modèles au sein de ces données afin que le modèle en question prenne les décisions qu’elle souhaite, et non les vôtres.

Un autre moyen d’attaque est le suivi du modèle. Il peut s’agir de personnes à la fois internes et externes à l’entreprise qui cherchent à mettre en place certains éléments affectant le modèle lui-même pour ensuite permettre des décisions favorables à toutes leurs actions. Il est possible, surtout si vous transformez votre modèle en un ensemble de règles commerciales, de manipuler celles-ci en vue d’obtenir une décision favorable ou celle qui avantage à titre personnel. Et il peut être très difficile de repérer les personnes qui modifient ce code. Enfin, une personne malveillante peut fournir des données au moteur de notation du modèle afin d’obtenir des prédictions, puis créer un modèle de substitution pour essayer de déterminer la façon dont le modèle de l’entreprise ciblée réalise ses prédictions réelles.

Il apparaît donc clairement que nous avons besoin de moyens pour faire face à ces tentatives de déjouer nos modèles. Cela doit commencer par le processus, et non par la technologie. La première chose à faire est de déterminer comment vous pourrez identifier si un incident s’est produit : vous aurez besoin d’une méthode pour surveiller ces systèmes afin de détecter les comportements considérés comme inhabituels, sur la base des données entrant dans ce processus, mais aussi toutes les données issues de celui-ci.

Ensuite, une fois qu’un incident a été identifié, vous aurez besoin d’une méthodologie pour gérer cet incident : quels sont les premiers intervenants ? Comment le communiquent-t-ils aux représentants de l’entreprise, et que font-ils une fois cet incident établi ? Pour les aider à agir avec efficacité, ils devront s’assurer que l’équipe dispose d’un inventaire entièrement à jour de toutes les IA actuellement déployées. Et en définitive, vous aurez besoin d’une documentation rigoureuse de tous les actifs d’IA et de Machine Learning de l’entreprise.

Un tandem idéal avec l’IT

Un potentiel problème : si vous implémentez toute cette structure autour de l’ensemble de ces processus, la vitesse de mise en production des modèles pourrait éventuellement ralentir, vous devez donc maintenir une approche très agile et une flexibilité autour de la protection de l’intégrité du modèle de Machine Learning.

Les bonnes pratiques émergentes suggèrent un lieu central pour créer toute la documentation et l’inventaire du système, auxquels les parties prenantes peuvent accéder (en toute sécurité et avec une piste d’audit). Considérez cela comme une approche holistique où vous bénéficiez de la contribution de vos Data Scientists qui peuvent mettre en place les contrôles et les arbitrages concernant la façon dont le modèle a été élaboré et configuré, pour s’assurer qu’il a été construit correctement. Cette approche est idéalement associée à l’informatique pour garantir que tous les modèles passent correctement de l’environnement de développement à celui de la production, avec tous les contrôles et arbitrages adéquats.

L’implication de l’entreprise est fortement souhaitée car celle-ci doit également comprendre comment le modèle parvient aux décisions, afin d’instaurer la confiance. Enfin, vous devez ensuite prendre en compte la conformité pour vous assurer que tous les points de vérification nécessaires d’un point de vue réglementaire ont été mis en place.

En résumé, ne permettez pas que votre dur labeur soit corrompu, comme l’a été l’initiative de Microsoft. En prenant des mesures équivalentes à ce que vous faites déjà pour protéger vos applications d’entreprise, vous tirerez le meilleur parti de votre investissement dans l’IA. En assurant une bonne gouvernance, vous réduisez également votre profil de risque et dissuadez les mauvaises intentions à l’égard des nouvelles technologies qui entravent souvent les performances.




Voir les articles précédents

    

Voir les articles suivants