Databricks übernimmt Tabular, ein Unternehmen, das von den ursprünglichen Erfindern von Apache-Iceberg gegründet wurde

Databricks gibt die Übernahme von Tabular bekannt, einem Datenmanagement-Unternehmen, das von Ryan Blue, Daniel Weeks und Jason Reid gegründet wurde. Durch die Zusammenführung der ursprünglichen Erfinder von Apache-Iceberg und Linux-Foundation Delta-Lake, den beiden führenden Open-Source-Lakehouse-Formaten, wird Databricks bei der Datenkompatibilität eine Vorreiterrolle einnehmen. Unternehmen sind nicht mehr durch das jeweilige Datenformat eingeschränkt. Databricks beabsichtigt, eng mit den Delta-Lake und Iceberg-Communities zusammenzuarbeiten, um Formatkompatibilität in das Lakehouse zu bringen. Kurzfristig innerhalb von Delta-Lake-Uniform und langfristig durch die Entwicklung eines einzigen, offenen und gemeinsamen Standards für Interoperabilität. Databricks und Tabular arbeiten zusammen an einer gemeinsamen Vision des Open Lakehouse.

Der Siegeszug der Lakehouse-Architektur und Format-Inkompatibilität

Databricks leistete im Jahr 2020 Pionierarbeit mit der Lakehouse-Architektur, um die Integration traditioneller Data-Warehousing Workloads mit KI-Workloads auf einer einzigen, verwalteten Kopie der Daten zu ermöglichen. Alle Daten müssen in einem offenen Format vorliegen, damit verschiedene Workloads, Anwendungen und Engines auf dieselben Daten zugreifen können. Die Lakehouse-Architektur maximiert die Unternehmensproduktivität, indem sie den Zugang zu den Daten demokratisiert. Dies steht im Gegensatz zu proprietären Data-Warehouses, bei denen nur eine proprietäre SQL-Engine die Daten lesen, schreiben oder gemeinsam nutzen kann. Hier müssen die Daten oft kopiert und exportiert werden, um von anderen Anwendungen genutzt werden zu können. Dies führt zu einem hohen Grad an Anbieterbindung. Vier Jahre später haben 74 Prozent der Unternehmen eine Lakehouse Architektur implementiert.

Die Grundlage des Lakehouse bilden Open-Source-Datenformate, die ACID-Transaktionen für in Objektspeichern gespeicherte Daten ermöglichen. Diese Formate verbessern die Zuverlässigkeit und Leistung von Datenoperationen im Data Lake erheblich und wurden speziell für Open Source-Engines wie Apache-Spark, Trino und Presto entwickelt. Um diese Herausforderungen zu bewältigen, hat Databricks in Zusammenarbeit mit der Linux Foundation das Delta Lake-Projekt ins Leben gerufen. Seit seiner Gründung hat Delta-Lake mehr als 500 Mitwirkende aus einer Vielzahl von Organisationen gewinnen können. Mehr als 10.000 Unternehmen weltweit nutzen Delta Lake, um durchschnittlich 4+ Exabyte Daten pro Tag zu verarbeiten.

Etwa zur gleichen Zeit, als Delta-Lake entstand, entwickelten Ryan Blue und Daniel Weeks das Iceberg-Projekt bei Netflix und übergaben es der Apache Software Foundation. Seitdem haben sich Delta Lake und Iceberg zu den beiden führenden Open Source-Standards für Lakehouse-Formate entwickelt. Obwohl beide Formate auf Apache-Parquet basieren und ähnliche Ziele und Entwürfe verfolgen, wurden sie aufgrund ihrer unabhängigen Entwicklung inkompatibel. Im Laufe der Zeit haben eine Reihe von anderen Open Source- und proprietären Engines diese Formate übernommen. Sie übernahmen jedoch in der Regel nur einen der Standards und meistens nur einen Teil dieses Standards, was zu fragmentierten und siloartigen Unternehmensdaten führte und den Wert der Lakehouse Architektur untergrub.

Der Weg zur Interoperabilität

Unternehmen benötigen Dateninteroperabilität, um die Vorteile des Lakehouse zu nutzen. Databricks wird eng mit den Delta-Lake und Iceberg-Communities zusammenarbeiten, um die Interoperabilität der Formate mit der Zeit zu erreichen. Dies ist ein langer Weg, der in diesen Communities wahrscheinlich mehrere Jahre dauern wird. Aus diesem Grund hat Databricks letztes Jahr Delta-Lake-Uniform eingeführt. Uniform-Tabellen bieten Interoperabilität zwischen Delta-Lake, Iceberg und Hudi und unterstützen die Iceberg-Restful-Catalog-Schnittstelle, so dass Unternehmen die Analyse-Engines und -Tools, mit denen sie bereits vertraut sind, für alle ihre Daten nutzen können. Uniform ist allgemein verfügbar und ermöglicht es Unternehmen, Kompatibilität zu erreichen. Mit der Ergänzung durch das ursprüngliche Iceberg-Team wird Databricks die Ambitionen von Delta Lake Uniform erheblich erweitern.

„Databricks war der Pionier der Lakehouse Architektur, und in den letzten vier Jahren hat die Welt die Lakehouse Architektur angenommen, die das Beste aus Data-Warehouses und Data-Lakes kombiniert, um Unternehmen dabei zu unterstützen, die Gesamtbetriebskosten zu senken, die Offenheit zu fördern und KI-Projekte schneller umzusetzen. Leider hat sich das Lakehouse-Paradigma zwischen den beiden beliebtesten Formaten gespalten: Delta-Lake und Iceberg. Databricks und Tabular werden mit der Open-Source-Community zusammenarbeiten, um die beiden Formate im Laufe der Zeit einander anzunähern, die Offenheit zu erhöhen und Silos und Reibungsverluste für Kunden zu reduzieren”, sagt Ali Ghodsi, Mitbegründer und CEO von Databricks. „Letztes Jahr haben wir Delta Lake Uniform angekündigt, um Interoperabilität zwischen diesen beiden Formaten zu schaffen, und wir freuen uns nun, die führenden Anbieter von offenen Data-Lakehouse-Formaten zusammenzubringen, um UniForm zur Vereinheitlichung von Daten für jeden Workload bereitzustellen.“

Ein gemeinsames Engagement für Open-Source

Databricks und Tabular haben eine gemeinsame Geschichte als Verfechter von Open Source-Formaten. Beide Unternehmen wurden gegründet, um Open Source-Technologien zu vermarkten, die von den Gründern entwickelt wurden. Heute ist Databricks das größte und erfolgreichste unabhängige Open Source-Unternehmen am Umsatz gemessen und hat 12 Millionen Codezeilen für Open-Source-Projekte gespendet. Diese Übernahme unterstreicht das Engagement von Databricks für offene Formate und Open Source-Daten in der Cloud und trägt dazu bei, dass Unternehmen die Kontrolle über ihre Daten behalten und nicht durch proprietäre, herstellereigene Formate eingeschränkt werden.

„Wir haben Apache-Iceberg entwickelt, um kritische Datenprobleme in Bezug auf Korrektheit, Leistung und Skalierbarkeit zu lösen. Mit Erstaunen haben wir gesehen, wie sowohl Iceberg als auch Delta-Lake massiv an Popularität gewonnen haben, was vor allem darauf zurückzuführen ist, dass Open-Lakehouse zum Industriestandard geworden ist. Mit dem Beitritt von Tabular zu Databricks beabsichtigen wir, die beste Datenmanagement-Plattform auf der Basis offener Lakehouse Formate zu entwickeln, so dass sich Unternehmen keine Gedanken über die Wahl des ‚richtigen‘ Formats machen müssen oder in proprietären Datenformaten gefangen sind“, sagt Ryan Blue, Mitbegründer und CEO von Tabular.

Info: Um mehr über den Zusammenschluss von Databricks und Tabular zu erfahren, registrieren Sie sich für den Data + AI Summit vom 10. bis 13. Juni hier: https://www.databricks.com/dataaisummit

#Databricks

Tags:Apache-Iceberg Data-Lake Data-warehouse Databricks Datenmanagement Delta-Lake künstliche Intelligenz Linux Foundation Open-Lakehouse Tabular

Name	Borlabs Cookie
Anbieter	Borlabs, Impressum
Zweck	Speichert die Einstellungen der Besucher, die in der Cookie Box von Borlabs Cookie ausgewählt wurden.
Datenschutzerklärung	https://de.borlabs.io/datenschutz/
Host(s)	de.borlabs.io
Cookie Name	borlabs-cookie
Cookie Laufzeit	365

Akzeptieren	Facebook
Name	Facebook
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Wird verwendet, um Facebook-Inhalte zu entsperren.
Datenschutzerklärung	https://www.facebook.com/privacy/explanation
Host(s)	.facebook.com

Akzeptieren	Instagram
Name	Instagram
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Wird verwendet, um Instagram-Inhalte zu entsperren.
Datenschutzerklärung	https://www.instagram.com/legal/privacy/
Host(s)	.instagram.com
Cookie Name	pigeon_state
Cookie Laufzeit	Sitzung

Akzeptieren	Twitter
Name	Twitter
Anbieter	Twitter International Company, One Cumberland Place, Fenian Street, Dublin 2, D02 AX07, Ireland
Zweck	Wird verwendet, um Twitter-Inhalte zu entsperren.
Datenschutzerklärung	https://twitter.com/privacy
Host(s)	.twimg.com, .twitter.com
Cookie Name	__widgetsettings, local_storage_support_test
Cookie Laufzeit	Unbegrenzt

Akzeptieren	Pinterest
Name	Pinterest
Anbieter	Pinterest
Zweck	Bilder und Infografiken von Pinterest ansehen und nutzen.
Datenschutzerklärung	https://policy.pinterest.com/de/privacy-policy
Host(s)	www.pinterest.de
Cookie Name	Pinterest
Cookie Laufzeit	365

Databricks übernimmt Tabular, ein Unternehmen, das von den ursprünglichen Erfindern von Apache-Iceberg gegründet wurde

Der Siegeszug der Lakehouse-Architektur und Format-Inkompatibilität

Der Weg zur Interoperabilität

Ein gemeinsames Engagement für Open-Source

Über 1000 Infografiken

Backgrounder zu Cybercrime

Wissenswertes zu Blockchain

Die interessantesten und größten Videowalls

Wissenswertes zu Social-Media

Just for fun

Partner von Netzpalaver

Netzpalaver-Podcasts

Paessler-Podcast

Internet Safety for Kids

Databricks übernimmt Tabular, ein Unternehmen, das von den ursprünglichen Erfindern von Apache-Iceberg gegründet wurde

Der Siegeszug der Lakehouse-Architektur und Format-Inkompatibilität

Der Weg zur Interoperabilität

Ein gemeinsames Engagement für Open-Source

Weitere interessante Beiträge

Google-Bericht – Bedrohungsakteure nutzen Gemini für ihre Zwecke

Jailbreaking von Deepseek

Cyberkriminelle scheinen gegenüber KI nach wie vor skeptisch

Generative KI und die Geister, die ich rief

Flughäfen weltweit setzen auf Extreme Networks für bessere Reiseerlebnisse, erhöhte Sicherheit

Europa fällt beim weltweiten KI-Wettrüsten zurück

Über 1000 Infografiken

Backgrounder zu Cybercrime

Wissenswertes zu Blockchain

Die interessantesten und größten Videowalls

Wissenswertes zu Social-Media

Just for fun

Partner von Netzpalaver

Netzpalaver-Podcasts

Paessler-Podcast

Internet Safety for Kids

Tag Cloud

Das IT- und Social-Media-Portal