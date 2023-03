Starburst révèle de nouvelles fonctionnalités pour simplifier et accélérer la découverte des données

mars 2023 par Marc Jacob

Starburs annonce trois mises à jour qui accélèrent considérablement les performances en matière de découverte, de migration, d’indexation et de mise en cache des données. Ces fonctionnalités couvrent les workloads d’analytique, d’intelligence artificielle et de machine learning.

Afin de faciliter la découverte des données, Starburst propose une nouvelle solution low-code dédiée à la création, au partage et à la curation de data products. Son offre SaaS Starburst Galaxy s’enrichit également d’un catalogue de données automatisé avec la possibilité de rechercher et de découvrir des données à travers de multiples sources. Cette fonctionnalité comprend des métadonnées automatisées à partir de rôles, de requêtes et d’autres comportements utilisateur tels que l’ajout d’un nouveau jeu de données. Ces nouveaux composants facilitent la recherche et la consommation des data products, augmentant considérablement la productivité des data analysts et des data scientists.

Starburst intègre l’écosystème Python, offrant aux data scientists la possibilité d’utiliser leurs outils favoris dans Starburst Enterprise et Starburst Galaxy pour accéder à la même infrastructure et aux mêmes données que le reste de l’organisation. Les clients peuvent désormais migrer les charges de travail PySpark vers Starburst & Trino pour améliorer les performances, sans réécrire leur code. Ces fonctionnalités, combinées à l’exécution tolérante aux pannes, permettent de construire des modèles plus précis et plus agiles sur davantage de données, avec des taux de réussite plus élevés pour les requêtes de longue durée.

Warp Speed, la nouvelle solution d’indexation et de mise en cache intelligente accélère les requêtes jusqu’à 7 fois. Sa technologie brevetée identifie et met en cache de manière autonome les données les plus utilisées ou les plus pertinentes à partir de l’analyse des modèles, tandis que le reste des données reste proche de la source pour optimiser les performances du data lake. Cette stratégie d’accélération élimine la charge manuelle que représente la sélection des données du data lake à optimiser et à mettre en cache.