Crépuscule des data lakes, et intégration des données IA dans les data stacks

janvier 2021 par Fivetran

Il y a quelques années, les data lakes ont été adoptés pour des raisons techniques, et pour leur rapport coût/performance. Beaucoup d’entreprises les utilisent encore aujourd’hui pour ces raisons. Et leur utilisation reste tout à fait justifiée.

Toutefois, les raisons techniques justifiant l’adoption des data lakes ont disparu avec l’émergence des data warehouses séparant les traitements du stockage. En effet, celles-ci offrent tous les avantages des data lakes mais en ajoutent d’autres. Fondamentalement, les data warehouses sont plus simples à utiliser que les data lakes. Dans le monde des data stacks actuels, les data lakes ne sont plus la solution optimale, ils deviennent une technologie d’ancienne génération.

Si vous construisez un nouveau système en 2021, je recommande vivement l’adoption des data warehouses basées dans le cloud. Elles sont le socle idéal d’un data stack de nouvelle génération.”

Apache Arrow est une avancée majeure qui intégrera les données d’intelligence artificielle et de machine learning dans les data stacks de nouvelle génération “Apache Arrow est une autre technologie à très fort potentiel pour 2021 et au delà. Il s’agit d’un format commun de sérialisation qui permet à différents systèmes d’échanger des données à très grande vitesse. C’est une solution idéale pour des flux non SQL et de ‘data science’ qui complètent les données traditionnellement stockées dans une data warehouse. Plusieurs data warehouses ont commencé l’implémentation de ce format, mais beaucoup reste à faire. Je pense que l’adoption d’Apache Arrow va s’accélérer en 2021. Il s’agit d’un outil crucial, essentiel pour permettre d’intégrer les flux d’intelligence artificielle et de machine learning dans les data stacks de nouvelle génération.”

George Fraser, CEO de Fivetran

“Maintenant plus que jamais, l’intégration de données automatisée est la seule solution d’avenir. De plus en plus, nous constatons un bond gigantesque dans le volume et le nombre de sources de données que doivent traiter les entreprises. Nous comptons désormais en zettaoctets, qui correspondent à un million de petaoctets, et il n’y aura pas de retour en arrière. Le volume des données va augmenter en continu dans les organisations. Le seul moyen de gérer cette situation est l’automatisation.”

“En 2021, nous allons continuer à voir l’adoption des nouvelles technologies et d’intégrations qui permettent d’améliorer les ‘workflows’ pour les data analysts. L’accroissement du volume de données entraîne également le besoin d’outils capables de supporter des traitements de données plus sophistiqués. Un bon exemple en la matière est dbt, l’outil populaire d’engineering open source pour les analytics, et je pense qu’il va jouer un rôle encore plus important pour les data stacks de nouvelle génération en 2021 et au delà.”

Fraser Harris, VP of Product, Fivetran