Rechercher
Contactez-nous Suivez-nous sur Twitter En francais English Language
 

De la Théorie à la pratique











Abonnez-vous gratuitement à notre NEWSLETTER

Newsletter FR

Newsletter EN

Vulnérabilités

Se désabonner

Les technologies IT de nouvelle génération : un nouvel élan pour la recherche

novembre 2018 par Laurent Martini, Country Manager chez Pure Storage France

Posez la question à n’importe quel chercheur, et la réponse sera unanime : il n’y a jamais assez de ressources pour alimenter correctement « la machine à innover ». C’est encore plus vrai pour la recherche en génomique et la médecine de précision, deux disciplines qui ont progressé rapidement ces dernières années et qui peuvent considérablement contribuer à transformer la façon de comprendre, traiter et, dans le futur, guérir certaines des maladies les plus complexes.

Ce manque de ressources affecte notamment le domaine des infrastructures – y compris le stockage – qui ont des difficultés à suivre le rythme des exigences liées à la croissance exponentielle des données ainsi que celle des nouvelles générations d’algorithmes et de pipelines. De nombreuses organisations sont encore mal positionnées pour adopter rapidement les technologies émergentes, telles que l’apprentissage automatique et l’intelligence artificielle (IA), qui sont nécessaires au développement notamment de la médecine de précision.

Les données étant devenues le moteur incontesté de la médecine du 21ème siècle, il devient évident que la conception de nouvelles infrastructures de données fiables et évolutives ne peut plus reposer sur des technologies du siècle dernier, des technologies qui n’ont pas été conçues pour gérer des volumes de données et des charges de travail extrêmes.

Beaucoup de données... et de potentiel

D’ici 2020, compte tenu du rythme actuel d’accélération des données, le séquençage et l’analyse génomique produiront un exaoctet de données stockées par an, et d’ici 2025, les besoins en données passeront à 1 zettaoctet - soit un trillion de milliards d’octets - par séquence et par an.

Grâce aux efforts de recherche collectifs de différentes universités, partenaires de l’industrie privée et autres experts de la santé, 500 000 séquences du génome humain ont pu être rendues disponibles en 2017, et ce nombre devrait dès maintenant doubler chaque année, sous l’impulsion d’instituts de recherche dont l’objectif est d’atteindre jusqu’à 2 millions de séquences génomiques uniques. Lorsqu’on réalise que le séquençage d’un unique génome nécessite 5 téraoctets de stockage de données brutes, on comprend alors l’importance de plateformes capables de prendre en charge l’évolutivité, la réduction des données et le coût total de possession d’un exaoctet.

Passer à la vitesse supérieure

Cependant, bien que le nombre de plateformes de stockage de données ait considérablement augmenté, peu d’entre elles offrent aujourd’hui l’agilité, la performance et la rentabilité nécessaires à l’exploitation des nouvelles technologies.

En effet, les technologies de stockage traditionnelles basées sur des disques mécaniques mis au point dans les années 1950 n’ont bien évidemment pas été conçues pour ces nouvelles charges de travail et constituent un goulet d’étranglement croissant pour les chercheurs. Elles sont encore moins adaptées au développement de l’IA, de l’apprentissage profond (DL) ou aux unités de traitement graphique (GPU), puisqu’incapables de stocker et de traiter de très grands ensembles de données à grande vitesse. Les technologies de stockage existantes ont été conçues à une époque où les attentes en matière de vitesse, de capacité et de densité étaient totalement différentes. Réimaginer les plateformes de données afin qu’elles soient adaptées aux nouvelles technologies et aux applications d’analytique, est désormais primordial.

Cette nouvelle architecture centrée sur les données doit notamment respecter plusieurs critères fondamentaux. A commencer par un stockage à base de mémoire Flash plutôt que sur disque, capable d’assurer une bande passante qui se compte en gigaoctets/seconde, avec des performances dépassant largement celles du stockage sur disque. L’architecture doit également être hautement parallèle, pour pouvoir supporter des milliers voire des dizaines de milliers d’applications et de partager des pétaoctets de données. Le modèle de financement est aussi un élément clé et doit s’adapter à la consommation de pétaoctets des organisations, au fur et à mesure qu’elles grandissent, avec un modèle de consommation sur abonnement, véritable soutien à l’innovation. L’infrastructure doit également pouvoir prendre en charge plusieurs types d’environnements cloud, ainsi que les fournisseurs d’infrastructures multi-cloud (IaaS) et de logiciels en tant que services (SaaS), et ne pas être un écosystème fermé sur des solutions logicielles complexes de stockage.

Recueillir, gérer, analyser et obtenir rapidement et efficacement des informations à partir d’importants volumes de données est un paramètre fondamental de l’avancée des pratiques de génomique et de médecine de précision. Les équipes informatiques ont un rôle clé à jouer afin de mettre à disposition cette infrastructure centrée sur les données qui permettra d’accompagner en toute sécurité les progrès de ces disciplines.




Voir les articles précédents

    

Voir les articles suivants