Databricks gibt die Übernahme von Tabular bekannt, einem Datenmanagement-Unternehmen, das von Ryan Blue, Daniel Weeks und Jason Reid gegründet wurde. Durch die Zusammenführung der ursprünglichen Erfinder von Apache-Iceberg und Linux-Foundation Delta-Lake, den beiden führenden Open-Source-Lakehouse-Formaten, wird Databricks bei der Datenkompatibilität eine Vorreiterrolle einnehmen. Unternehmen sind nicht mehr durch das jeweilige Datenformat eingeschränkt. Databricks beabsichtigt, eng mit den Delta-Lake und Iceberg-Communities zusammenzuarbeiten, um Formatkompatibilität in das Lakehouse zu bringen. Kurzfristig innerhalb von Delta-Lake-Uniform und langfristig durch die Entwicklung eines einzigen, offenen und gemeinsamen Standards für Interoperabilität. Databricks und Tabular arbeiten zusammen an einer gemeinsamen Vision des Open Lakehouse.
Der Siegeszug der Lakehouse-Architektur und Format-Inkompatibilität
Databricks leistete im Jahr 2020 Pionierarbeit mit der Lakehouse-Architektur, um die Integration traditioneller Data-Warehousing Workloads mit KI-Workloads auf einer einzigen, verwalteten Kopie der Daten zu ermöglichen. Alle Daten müssen in einem offenen Format vorliegen, damit verschiedene Workloads, Anwendungen und Engines auf dieselben Daten zugreifen können. Die Lakehouse-Architektur maximiert die Unternehmensproduktivität, indem sie den Zugang zu den Daten demokratisiert. Dies steht im Gegensatz zu proprietären Data-Warehouses, bei denen nur eine proprietäre SQL-Engine die Daten lesen, schreiben oder gemeinsam nutzen kann. Hier müssen die Daten oft kopiert und exportiert werden, um von anderen Anwendungen genutzt werden zu können. Dies führt zu einem hohen Grad an Anbieterbindung. Vier Jahre später haben 74 Prozent der Unternehmen eine Lakehouse Architektur implementiert.
Die Grundlage des Lakehouse bilden Open-Source-Datenformate, die ACID-Transaktionen für in Objektspeichern gespeicherte Daten ermöglichen. Diese Formate verbessern die Zuverlässigkeit und Leistung von Datenoperationen im Data Lake erheblich und wurden speziell für Open Source-Engines wie Apache-Spark, Trino und Presto entwickelt. Um diese Herausforderungen zu bewältigen, hat Databricks in Zusammenarbeit mit der Linux Foundation das Delta Lake-Projekt ins Leben gerufen. Seit seiner Gründung hat Delta-Lake mehr als 500 Mitwirkende aus einer Vielzahl von Organisationen gewinnen können. Mehr als 10.000 Unternehmen weltweit nutzen Delta Lake, um durchschnittlich 4+ Exabyte Daten pro Tag zu verarbeiten.
Etwa zur gleichen Zeit, als Delta-Lake entstand, entwickelten Ryan Blue und Daniel Weeks das Iceberg-Projekt bei Netflix und übergaben es der Apache Software Foundation. Seitdem haben sich Delta Lake und Iceberg zu den beiden führenden Open Source-Standards für Lakehouse-Formate entwickelt. Obwohl beide Formate auf Apache-Parquet basieren und ähnliche Ziele und Entwürfe verfolgen, wurden sie aufgrund ihrer unabhängigen Entwicklung inkompatibel. Im Laufe der Zeit haben eine Reihe von anderen Open Source- und proprietären Engines diese Formate übernommen. Sie übernahmen jedoch in der Regel nur einen der Standards und meistens nur einen Teil dieses Standards, was zu fragmentierten und siloartigen Unternehmensdaten führte und den Wert der Lakehouse Architektur untergrub.
Der Weg zur Interoperabilität
Unternehmen benötigen Dateninteroperabilität, um die Vorteile des Lakehouse zu nutzen. Databricks wird eng mit den Delta-Lake und Iceberg-Communities zusammenarbeiten, um die Interoperabilität der Formate mit der Zeit zu erreichen. Dies ist ein langer Weg, der in diesen Communities wahrscheinlich mehrere Jahre dauern wird. Aus diesem Grund hat Databricks letztes Jahr Delta-Lake-Uniform eingeführt. Uniform-Tabellen bieten Interoperabilität zwischen Delta-Lake, Iceberg und Hudi und unterstützen die Iceberg-Restful-Catalog-Schnittstelle, so dass Unternehmen die Analyse-Engines und -Tools, mit denen sie bereits vertraut sind, für alle ihre Daten nutzen können. Uniform ist allgemein verfügbar und ermöglicht es Unternehmen, Kompatibilität zu erreichen. Mit der Ergänzung durch das ursprüngliche Iceberg-Team wird Databricks die Ambitionen von Delta Lake Uniform erheblich erweitern.
„Databricks war der Pionier der Lakehouse Architektur, und in den letzten vier Jahren hat die Welt die Lakehouse Architektur angenommen, die das Beste aus Data-Warehouses und Data-Lakes kombiniert, um Unternehmen dabei zu unterstützen, die Gesamtbetriebskosten zu senken, die Offenheit zu fördern und KI-Projekte schneller umzusetzen. Leider hat sich das Lakehouse-Paradigma zwischen den beiden beliebtesten Formaten gespalten: Delta-Lake und Iceberg. Databricks und Tabular werden mit der Open-Source-Community zusammenarbeiten, um die beiden Formate im Laufe der Zeit einander anzunähern, die Offenheit zu erhöhen und Silos und Reibungsverluste für Kunden zu reduzieren”, sagt Ali Ghodsi, Mitbegründer und CEO von Databricks. „Letztes Jahr haben wir Delta Lake Uniform angekündigt, um Interoperabilität zwischen diesen beiden Formaten zu schaffen, und wir freuen uns nun, die führenden Anbieter von offenen Data-Lakehouse-Formaten zusammenzubringen, um UniForm zur Vereinheitlichung von Daten für jeden Workload bereitzustellen.“
Ein gemeinsames Engagement für Open-Source
Databricks und Tabular haben eine gemeinsame Geschichte als Verfechter von Open Source-Formaten. Beide Unternehmen wurden gegründet, um Open Source-Technologien zu vermarkten, die von den Gründern entwickelt wurden. Heute ist Databricks das größte und erfolgreichste unabhängige Open Source-Unternehmen am Umsatz gemessen und hat 12 Millionen Codezeilen für Open-Source-Projekte gespendet. Diese Übernahme unterstreicht das Engagement von Databricks für offene Formate und Open Source-Daten in der Cloud und trägt dazu bei, dass Unternehmen die Kontrolle über ihre Daten behalten und nicht durch proprietäre, herstellereigene Formate eingeschränkt werden.
„Wir haben Apache-Iceberg entwickelt, um kritische Datenprobleme in Bezug auf Korrektheit, Leistung und Skalierbarkeit zu lösen. Mit Erstaunen haben wir gesehen, wie sowohl Iceberg als auch Delta-Lake massiv an Popularität gewonnen haben, was vor allem darauf zurückzuführen ist, dass Open-Lakehouse zum Industriestandard geworden ist. Mit dem Beitritt von Tabular zu Databricks beabsichtigen wir, die beste Datenmanagement-Plattform auf der Basis offener Lakehouse Formate zu entwickeln, so dass sich Unternehmen keine Gedanken über die Wahl des ‚richtigen‘ Formats machen müssen oder in proprietären Datenformaten gefangen sind“, sagt Ryan Blue, Mitbegründer und CEO von Tabular.
Info: Um mehr über den Zusammenschluss von Databricks und Tabular zu erfahren, registrieren Sie sich für den Data + AI Summit vom 10. bis 13. Juni hier: https://www.databricks.com/dataaisummit
#Databricks