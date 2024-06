Databricks annonce l’acquisition de Tabular

juin 2024 par Marc Jacob

Databricks a conclu un accord pour acquérir Tabular, une société de gestion de données fondée par Ryan Blue, Daniel Weeks et Jason Reid. En réunissant les créateurs originaux d’Apache Iceberg™ et de Linux Foundation Delta Lake, les deux principaux formats de lakehouse open source, Databricks ouvrira la voie à la compatibilité des données afin que les organisations ne soient plus limitées par le choix de l’un ou l’autre de ces formats pour leurs données. Databricks a l’intention de travailler en étroite collaboration avec les communautés Delta Lake et Iceberg pour apporter la compatibilité de format au Lakehouse ; à court terme, à l’intérieur de Delta Lake UniForm et, à long terme, en évoluant vers un standard d’interopérabilité unique, ouvert et commun. Databricks et Tabular travailleront ensemble à la réalisation d’une vision commune d’open lakehouse.

Databricks a lancé l’architecture Lakehouse en 2020 pour permettre l’intégration des charges de travail de stockage de données traditionnelles avec les workloads en IA à partir d’une seule copie gouvernée de données. Pour que cela fonctionne, toutes les données doivent être dans un format ouvert afin que différents workloads, applications et machines puissent accéder aux mêmes données. L’architecture Lakehouse maximise la productivité de l’entreprise en démocratisant l’accès aux données. En outre, les données doivent souvent être copiées et exportées pour être utilisées par d’autres applications, ce qui crée un degré élevé de dépendance à l’égard du fournisseur. Quatre ans plus tard, 74 % des entreprises ont déployé une architecture de type "lakehouse".

Les formats de données open source qui permettent d’effectuer des transactions conformes ACID sur des données stockées dans un système de stockage d’objets constituent la base de cette architecture. Ces formats améliorent considérablement la fiabilité et les performances des opérations sur les données dans le data lake et ont été spécifiquement conçus pour les moteurs open source tels qu’Apache Spark™, Trino et Presto. Pour relever ces défis, Databricks a collaboré avec la Fondation Linux pour créer le projet Delta Lake. Depuis sa création, Delta Lake compte plus de 500 contributeurs de code issus d’un ensemble diversifié d’organisations, et plus de 10 000 entreprises dans le monde utilisent Delta Lake pour traiter plus de 4 exaoctets de données en moyenne chaque jour.

À peu près au même moment où Delta Lake a été créé, Ryan Blue et Daniel Weeks ont développé le projet Iceberg chez Netflix et en ont fait don à la Apache Software Foundation. Depuis lors, Delta Lake et Iceberg se sont imposés comme les deux principaux standards open source pour les formats lakehouse. Bien que ces deux formats soient basés sur Apache Parquet et partagent des objectifs et des conceptions similaires, ils sont devenus incompatibles en raison de leur développement indépendant.

Au fil du temps, un certain nombre d’autres moteurs open source et propriétaires ont adopté ces formats. Cependant, ils n’ont généralement adopté qu’une seule des normes et, le plus souvent, une partie seulement de cette norme, ce qui a entraîné la fragmentation et le cloisonnement des données de l’entreprise, sabotant ainsi la valeur de l’architecture Lakehouse.

La voie de l’interopérabilité

Les entreprises ont besoin de l’interopérabilité des données pour réaliser les avantages du Lakehouse, et Databricks travaillera en étroite collaboration avec les communautés Delta Lake et Iceberg pour apporter l’interopérabilité aux formats au fil du temps. Il s’agit d’un long chemin, qui prendra probablement plusieurs années à parcourir dans ces communautés. C’est pourquoi, l’année dernière, Databricks a introduit Delta Lake UniForm. Les tables UniForm assurent l’interopérabilité entre Delta Lake, Iceberg et Hudi, et prennent en charge l’interface de catalogue restful d’Iceberg afin que les entreprises puissent utiliser les machines et les outils d’analyse qui leur sont déjà familiers, pour toutes leurs données. Largement disponible aujourd’hui, UniForm permet aux entreprises de devenir compatibles. Avec l’arrivée de l’équipe originale d’Iceberg, Databricks élargira considérablement les ambitions de Delta Lake UniForm.

Un engagement commun en faveur de cette ouverture

Databricks et Tabular ont en commun de défendre les formats open source. Les deux sociétés ont été fondées pour commercialiser les technologies open source créées par les fondateurs et aujourd’hui, Databricks est la société open source indépendante la plus importante et la plus prospère en termes de revenus et a fait don de 12 millions de lignes de code à des projets open source. Cette acquisition souligne l’engagement de Databricks en faveur des formats ouverts et des données open source dans le cloud, ce qui permet aux entreprises de contrôler leurs données et de s’affranchir de l’enfermement créé par les formats propriétaires des vendeurs.

Détails concernant l’acquisition proposée

L’acquisition proposée est soumise aux conditions de clôture habituelles et devrait être finalisée au cours du deuxième trimestre fiscal de Databricks.