Rechercher
Contactez-nous Suivez-nous sur Twitter En francais English Language
 











Abonnez-vous gratuitement à notre NEWSLETTER

Newsletter FR

Newsletter EN

Vulnérabilités

Se désabonner

Snowflake lance une nouvelle version de son connecteur Spark

avril 2020 par Marc Jacob

Snowflake annonce le lancement de la version 2.6.0 du Snowflake Connector for Spark (Spark Connector) permettant d’utiliser le format de restitution en colonne Apache Arrow qui améliore considérablement les performances de lecture des requêtes. Cette évolution permet de rendre ces dernières jusqu’à quatorze fois plus performantes suivant l’utilisation des caches de données de Snowflake, elle aussi rendue possible par ce nouveau connecteur.

Cette nouvelle version du Snowflake Spark Connector exécute les requêtes directement via JDBC (Java Database Connectivity) et désérialise les données en utilisant Apache Arrow, le nouveau format de restitution des requêtes de Snowflake, côté client. Celui-ci permet de gagner du temps dans la lecture des données et d’utiliser les résultats des requêtes en cache. L’usage de ce nouveau connecteur apporte un gain de performance quatre fois supérieur pour les travaux de requêtage sur Spark de bout en bout par rapport à la version précédente. Cette amélioration est due à un gain de performance équivalent à 10 fois moins de temps passé par le connecteur Spark pour aller chercher et traiter les résultats de la requête Snowflake.

De plus, Snowflake dispose d’un cache de résultats de requêtes répétées. En stockant les résultats qui peuvent être réutilisés, la base de données peut éviter le recalcul et ordonner simplement au pilote du client de lire les résultats déjà calculés dans le cache. Dans les versions précédentes du Spark Connector, ce cache de résultats de requêtes n’était pas utilisable. C’est l’usage combiné du format Apache Arrow et du cash de requêtes qui permet au nouveau connecteur de multiplier les performances par 14.


Voir les articles précédents

    

Voir les articles suivants