Intelligence artificielle : son impact sur nos centres de données
novembre 2019 par Tony Robinson, Global Market Development Manager, Data Centres, Corning Incorporated
Il a toujours été surprenant de voir à quel point les réalisateurs sont capables d’introduire des concepts qui, pour leur époque, semblent éloignés de la réalité, mais qui, avec le temps, s’inscrivent dans notre vie quotidienne. Par exemple, en 1968 nous avons découvert l’intelligence artificielle (IA), avec le HAL 9000, un ordinateur conscient à bord du vaisseau spatial Discovery One dans le film 2001, l’Odyssée de l’espace. HAL était capable de reconnaître les mots et les visages, de traiter le langage naturel, de lire sur les lèvres, de juger l’art, d’interpréter les comportements émotionnels, d’automatiser le raisonnement et, bien sûr, de jouer aux échecs.
De nos jours, l’Intelligence Artificielle (IA) est au cœur des débats, car malgré les nombreux bénéfices qu’elle apporte elle rencontre certaines réticences. L’encadrement de l’IA par les autorités publiques, notamment au niveau de la collecte et la manipulation des données, est donc primordial afin de préserver leur sécurité. Lors du dernier G7, Emmanuel Macron a d’ailleurs annoncé avoir la volonté de mettre en place un partenariat mondial sur l’IA, lancé avec l’Organisation de Coopération et de Développement Economiques (OCDE), sous l’impulsion du Canada et de la France. Ce partenariat s’inscrit dans la lignée du développement du numérique en France et a pour vocation de réunir les meilleurs experts internationaux et les gouvernements afin de discuter des opportunités et risques de l’IA.
L’IA s’installe dans de nombreux domaines, elle nous accompagne dans notre vie quotidienne. Traductions, fils d’actualité, reconnaissance faciale, diagnostics médicaux plus précis, découverte de médicaments : ce ne sont que quelques exemples des usages pour lesquels les entreprises développent l’IA. Selon Gartner Inc., la valeur des affaires liées à l’IA devrait atteindre 3,9 milliards de dollars d’ici 2022. Ce développement bouscule nos habitudes et modes de fonctionnement que ce soit au niveau des services publics, des entreprises ou même dans le monde de la santé. Ces nouveautés appellent également à de nouvelles compétences..
On peut néanmoins se poser la question : quel est l’impact de l’IA sur les données, et plus précisément sur les centres de données ? En 2014, grâce au machine learning, Google a déployé Deepmind AI dans une de ses installations. Le résultat : ils ont pu réduire de 40 % l’énergie utilisée pour le refroidissement de leurs dispositifs, soit une réduction de 15 % des frais généraux de l’Indicateur d’Efficacité Energétique, et ont même atteint le plus bas niveau que le site ait jamais connu, grâce à la baisse des pertes électriques et autres pannes non liées au refroidissement. Depuis, Google a cherché à déployer la technologie sur ses autres sites et a conseillé cette démarche à d’autres entreprises.
La mission de Facebook est de « donner aux gens le pouvoir de construire une communauté et de rapprocher le monde » comme précisé dans leur livre blanc Applied Machine Learning on Facebook : A Datacenter Infrastructure Perspective, qui décrit l’infrastructure matérielle et logicielle qui soutient le machine learning à l’échelle mondiale.
Pour se faire une idée de la puissance de calcul dont l’IA et le machine learning ont besoin, Andrew Ng, scientifique au Silicon Valley Lab de Baidu, explique que la formation de l’un des modèles chinois de reconnaissance vocale de Baidu nécessite non seulement quatre téraoctets de données de formation, mais aussi 20 exaflops de calcul, soit 20 millards de milliards d’opérations mathématiques pour l’ensemble du cycle de formation.
Cependant, qu’en est-il de nos infrastructures de centres de données ? Quel est l’impact de l’IA sur la conception et le déploiement de toutes les installations que nous cherchons à construire, à louer ou moderniser pour accueillir cette technologie innovante et économique ?
Le machine learning peut être exécuté sur une seule machine, mais grâce à l’incroyable débit de données, il est généralement exécuté sur plusieurs machines interconnectées pour assurer une communication continue pendant les phases de formation et de traitement des données, avec une faible latence et sans aucune interruption de service. En tant qu’humains, notre désir d’obtenir toujours plus de données entraîne une croissance exponentielle de la quantité de bande passante nécessaire pour satisfaire nos souhaits. Cette bande passante doit être répartie à l’intérieur de plusieurs installations, mais aussi entre elles, avec des architectures complexes où les réseaux spine-and-leaf ne suffisent plus : nous parlons de réseaux super-spine et super-leaf pour permettre à tous les calculs algorithmiques complexes de circuler entre différents dispositifs et, finalement, retourner vers nos récepteurs.
Les options de déploiement en centre de données
Lorsqu’il s’agit de s’assurer que la photo ou vidéo d’un moment spécial soit diffusée dans le monde entier, la fibre optique joue un rôle crucial. La fibre optique est devenue le support de transmission numéro un de nos centres de données, grâce à ses capacités de haute vitesse et de très haute densité par rapport aux câbles cuivrés.
Les réseaux traditionnels à trois niveaux utilisaient la commutation par noyau, agrégat et périphérie, pour connecter les différents serveurs au sein du centre de données, où le trafic inter-serveur circulait dans une direction nord-sud à travers les dispositifs actifs pour communiquer entre eux. Cependant, aujourd’hui, grâce aux exigences de calcul et à l’interdépendance que l’IA et le machine learning proposent, un plus grand nombre de ces réseaux sont installés via un réseau à deux niveaux, où les serveurs communiquent entre eux dans une direction est-ouest en raison de la très faible latence requise par les réseaux de production et de formation.
Depuis l’approbation 40G et 100G de l’Institute of Electrical and Electronics Engineers (IEEE) en 2010, un certain nombre de solutions propriétaires concurrentes ont quelque peu altéré le jugement des utilisateurs, qui ne sont plus certains de la marche à suivre. Avant la 40G et les autres, nous avions le short reach pour le multimode et le long reach pour le monomode. Les deux utilisaient une seule paire de fibres pour transmettre un signal entre deux appareils. Peu importe l’équipement utilisé ou l’émetteur-récepteur installé, il s’agissait d’une simple transmission de données sur deux fibres. Désormais, les solutions 40G et approuvées par l’IEEE, ainsi que ses concurrents, ont changé la donne. Aujourd’hui, nous utilisons soit deux fibres avec des techniques de multiplexage en longueur d’onde (Wavelength Division Multiplexing - WDM) non interopérables approuvées ou brevetées, soit des accords multi-sources et des techniques d’optique parallèle utilisant 8 (4 pour émettre et 4 pour recevoir) ou 20 fibres (10 pour émettre et 10 pour recevoir).
Si on veut continuer à utiliser des solutions approuvées par les normes et maintenir ses coûts optiques bas sans besoin de capacités de distance de fibre optique monomode, il est préférable d’utiliser l’optique parallèle multimode qui permet également de décomposer des ports de commutation 40G ou 100G les plus rapides en ports de serveur 10G ou 25G plus petits. Si vous souhaitez en revanche prolonger la durée de vie de votre fibre multimode déjà installée et que vous ne voyez pas d’inconvénient à rester avec votre fournisseur de matériel habituel sans l’option d’interopérabilité et sans besoin de plus longues distances, choisissez une des solutions de technologie de multiplexage par répartition en longueur d’onde (WDM) multimode.
Nous allons à présent nous intéresser à ce que la majorité des entreprises de technologie déployant l’IA à grande échelle conçoivent dans leurs réseaux pour aujourd’hui et demain : l’optique parallèle monomode. Et voici trois simples raisons pour ce développement.
• Coût et distance
La tendance actuelle du marché mène à des solutions optiques parallèles qui sont d’abord développées et commercialisées, puis suivies de solutions WDM quelques années plus tard, de sorte à ce que les volumes en parallèle soient beaucoup plus élevés, ce qui réduit les coûts de fabrication. Ils supportent également des distances plus petites que les solutions WDM de 2 km et 10 km, il n’y a donc pas de nécessité d’avoir autant de composants pour refroidir les lasers, ni de multiplier et démultiplier le signal à chaque extrémité. Et bien que nous ayons vu la taille et l’échelle de ces installations « grande échelle » exploser, avec des bâtiments d’une taille équivalente à trois ou quatre terrains de football étendus sur d’immenses campus, la longueur moyenne déployée sur fibre monomode dans ces installations ne dépasse pas encore 165 m, il n’est donc pas utile de payer pour un émetteur-récepteur WDM plus cher afin de parcourir une distance n’ayant pas vocation à être couverte.
Le mode parallèle unique consomme également moins d’énergie qu’un WDM. Comme nous l’avons vu dans l’exemple de Google, tout ce qui peut être fait pour réduire le coût d’exploitation d’un centre de données est bon à prendre.
• Flexibilité
L’un des principaux avantages du déploiement de l’optique parallèle est la possibilité de prendre un port de commutation à grande vitesse (40G par exemple) et de le diviser en ports serveur (4x10G). La division des ports permet d’obtenir des économies d’échelle, car cette division à plus faible vitesse peut considérablement réduire le nombre de châssis ou d’unités de rack pour l’électronique de 3:1 (et l’immobilier des centres de données coûte cher) et utilise moins de puissance, ce qui nécessite moins de refroidissement et réduit encore la facture. Cela équivaut à une économie de 30 % sur une solution monomode. Les fournisseurs d’émetteurs-récepteurs confirment également qu’une grande partie de tous les émetteurs-récepteurs optiques parallèles sont déployés pour tirer parti de cette capacité d’ouverture de ports.
• Migration simple et claire
La carte technologique des principaux fournisseurs de commutateurs et d’émetteurs-récepteurs montre une voie de migration très claire pour les clients qui déploient des optiques parallèles. La majorité des entreprises de technologie ont suivi cette voie, de sorte que lorsque les optiques sont disponibles et qu’elles passent de 100G à 200G ou 400G, leur infrastructure de fibre optique reste en place et ne nécessite aucune mise à niveau. Les entreprises qui décident de rester avec une infrastructure duplex à 2 fibres optiques peuvent souhaiter se mettre à niveau au-delà de 100G, mais l’optique WDM peut ne pas être disponible dans les délais de leurs plans de migration.
Impacts sur la conception des centres de données
Du point de vue de la connectivité, ces réseaux sont des infrastructures à fibre optique maillées, pour s’assurer qu’aucun serveur ne soit à plus de deux sauts de réseau des autres. Mais la demande en bande passante est telle que même le rapport de sursouscription traditionnel de 3:1 entre le commutateur spine et le commutateur leaf n’est pas suffisant, et est plus généralement utilisé pour le calcul distribué des super-spines entre les différents data halls.
Grâce à l’augmentation significative de la vitesse des entrées/sorties des commutateurs, les opérateurs de réseaux tentent d’optimiser leur utilisation, leur efficacité ainsi que leur très faible latence. Ils conçoivent leurs systèmes sur la base d’un ratio de souscription 1:1 du spine au leaf, un prérequis coûteux mais nécessaire dans l’environnement IA actuel.
Cette croissance de l’IA se confirme avec l’annonce de Google de leur dernier matériel d’IA : un application-specific integrated circuit (ASIC) personnalisé appelé Tensor Processing Unit (TPU 3.0) qui, comme un pod géant, sera huit fois plus puissant que les TPU de l’an dernier, avec plus de 100 pétaflops. L’ajout d’encore plus de puissance de calcul augmentera également la quantité d’énergie nécessaire pour le piloter, et donc la quantité de chaleur. C’est pourquoi cette annonce indique aussi qu’ils passent au refroidissement liquide de la puce, car la chaleur générée par le TPU 3.0 a dépassé les limites des précédentes solutions de refroidissement pour les centres de données.
En conclusion
L’IA est la prochaine vague d’innovation commerciale. Les avantages qu’elle apporte en termes de réduction des coûts d’exploitation, de sources de revenus supplémentaires, d’interaction simplifiée avec les clients et de méthodes de travail beaucoup plus efficaces et axées sur les données sont tout simplement incontournables, non seulement pour votre directeur financier et vos actionnaires, mais également pour vos clients.
Nous devons donc adopter cette technologie et l’utiliser à notre avantage, ce qui signifie aussi adopter une façon différente de penser la conception et l’installation des centres de données. Grâce à l’augmentation significative des performances des ASIC, nous connaîtrons une augmentation des vitesses d’entrées/sorties, ce qui rendra la connectivité encore plus profonde. Les centres de données devront être super-efficaces, maillés de fibres optiques, à latence ultra-faible : ce seront des réseaux spine-and-leaf est-ouest qui s’adapteront à votre trafic de production quotidien, tout en prenant en charge la formation machine learning.
Nous avons vu comment les grandes entreprises de technologie ont adopté l’IA et comment le déploiement d’un mode unique parallèle les a aidées à atteindre des coûts d’investissement et d’exploitation plus élevés que les méthodes duplex traditionnelles, qui promettent des coûts inférieurs dès le premier jour. Cependant, l’exploitation d’un centre de données commence dès le deuxième jour et continue d’évoluer à mesure que nos habitudes et nos façons d’interagir continuent de changer, d’accélérer et de se complexifier. Installer la bonne solution d’infrastructure permettra à votre entreprise d’enregistrer de meilleurs bénéfices dès le départ, de fidéliser et d’attirer plus de clients, et vous donnera la flexibilité nécessaire pour prospérer, quels que soient les défis, tout en respectant les politiques de sécurité actuelles et futures.