Databricks vereinheitlicht die Speicherformate für Lakehouses

Databricks hat mit der Veröffentlichung von Delta-Lake 3.0 den neuesten Beitrag zum Open-Source-Projekt Delta-Lake der Linux Foundation angekündigt. Mit der kommenden Version wird das Universal-Format (UniForm) eingeführt, das es ermöglicht, in Delta gespeicherte Daten so zu lesen, als wären sie Apache-Iceberg oder Apache-Hudi. Uniform macht die Wahl eines offenen Datenformats überflüssig und beseitigt Kompatibilitätsprobleme, indem es automatische Unterstützung für Iceberg und Hudi in Delta-Lake bietet. Delta-Lake 3.0 ermöglicht es Anwendern zudem, die komplizierte Integrationsarbeit, die durch unterschiedliche Datenformate verursacht wird, zu eliminieren und sich auf den Aufbau hochperformanter, offener Lakehouses zu konzentrieren.

“Databricks hat die Lakehouse-Architektur entwickelt, die auf Delta Lake aufbaut. Wir haben uns dazu verpflichtet, Delta-Lake zu dem offenen Format zu machen, das den Kunden die größtmögliche Auswahl, Flexibilität und Kontrolle über ihre eigenen Daten und zusätzlich alle Vorteile eines offenen Ökosystems bietet”, sagt Ali Ghodsi, Mitbegründer und CEO von Databricks. “Kunden sollten nicht durch die Wahl des Formats eingeschränkt werden. Mit dieser neuesten Version von Delta-Lake ermöglichen wir es Anwendern, problemlos mit allen Dateiformaten zu arbeiten, die sie wollen, einschließlich Iceberg und Hudi, und gleichzeitig die branchenführende Geschwindigkeit und Skalierbarkeit von Delta Lake zu nutzen.”

 

Eliminierung von Datensilos

Unternehmen führen die Data-Lakehouse-Architektur rasch ein, um sich von teuren, proprietären Data-Warehouses zu lösen, die nur begrenzte Funktionalität bieten und fortschrittliche Anwendungsfälle wie generative KI nicht unterstützen. Bislang mussten datengesteuerte Unternehmen, die sich auf ein Lakehouse umstellen, ihre Optionen abwägen und zwischen drei verschiedenen offenen Tabellenformaten wählen. Mit Uniform können sich Kunden in Richtung Interoperabilität bewegen und von einem kombinierten Ökosystem von Tools profitieren, die von Delta, Iceberg und Hudi auslesen.

„Mit mehr als 1 Milliarde Downloads pro Jahr und regelmäßigen Feature-Updates von Hunderten von beitragenden Ingenieuren in führenden Unternehmen wie AWS, Adobe, eBay, Twilio und Uber ist Delta Lake das offene Format der Wahl für Unternehmen, die eine flexible, hochleistungsfähige, offene Datenplattform wünschen, die skalierbar ist und sich an die sich ändernden Anforderungen anpasst.“

Delta-Lake 3.0 wird es Unternehmen überall auf der Welt ermöglichen, auf die gesamte Bandbreite ihrer Unternehmensdaten zuzugreifen: Egal, ob strukturierte oder unstrukturierte, ob Transaktions- oder Streaming-Daten und unabhängig davon, welches Format – und all das auf eine hochleistungsfähige Weise. Die neuen Funktionen umfassen:

  • Delta Universal Format (UniForm): In Delta gespeicherte Daten können jetzt so gelesen werden, als wären sie in Iceberg oder Hudi gespeichert. Mit Uniform generiert Delta automatisch Metadaten, die für Iceberg oder Hudi benötigt werden, und vereinheitlicht so die Tabellenformate, so dass die Benutzer nicht mehr zwischen den Formaten wählen oder sie manuell umwandeln müssen. Unternehmen können getrost auf Delta als universelles Format setzen, das in allen Ökosystemen funktioniert und skalierbar ist, um die sich ändernden Anforderungen ihres Unternehmens zu unterstützen.
  • Delta-Kernel: Um der Fragmentierung der Konnektoren entgegenzuwirken, stellt der Kernel sicher, dass die Konnektoren auf einer Delta-Kernbibliothek aufbauen, die die Delta-Spezifikationen implementiert. So müssen die Benutzer die Delta-Konnektoren nicht mehr bei jeder neuen Version oder Protokolländerung aktualisieren. Mit einer stabilen API als Grundlage für den Code sind Entwickler im Delta-Ökosystem in der Lage, ihre Konnektoren nahtlos mit den zuletzt erschienenen Delta-Innovationen auf dem neuesten Stand zu halten, ohne die Konnektoren überarbeiten zu müssen. Im Gegenzug können die Benutzer schnell die aktuellen Delta-Funktionen und -Updates nutzen.
  • Delta-Liquid-Clustering: Eine der häufigsten Herausforderungen, mit denen Unternehmen bei der Implementierung von Datenanwendungsfällen konfrontiert sind, betrifft die Leistung bei Lese- und Schreibvorgängen. Die Einführung von Liquid Clustering ist ein innovativer Sprung von der jahrzehntealten Tabellenpartitionierung im Hive-Stil, die ein festes Datenlayout verwendet. Delta Lake führt ein flexibles Datenlayoutverfahren ein, das eine kosteneffiziente Datenclusterung bei wachsendem Datenvolumen ermöglicht und Unternehmen dabei hilft, ihre Anforderungen an die Lese- und Schreibleistung zu erfüllen.

„Delta-Lake 3.0, einschließlich Universal Format und Kernel, unterstreicht das Engagement der Open-Source-Community, die Zuverlässigkeit von Daten zu verbessern und fortschrittliche Analysen zu liefern. Diese Version ist ein Schritt nach vorne bei der Schaffung eines Community-gesteuerten Ökosystems für Datenintegrität, nahtlose Zusammenarbeit und Echtzeit-Analyse-Tools”, sagte Mike Dolan, SVP of Projects, The Linux Foundation.

Delta-Lake hilft Unternehmen, Daten aus Hunderten von unterschiedlichen Systemen zu nutzen, um die Daten für Einblicke, Berichte und den Aufbau von KI-Modellen zu analysieren. Mit diesem Update baut Delta Lake weiter auf seine unübertroffene Leistung und benutzerfreundliche Oberfläche. Delta Lake ist das einzige offene Format mit integrierter Unterstützung für Delta Sharing, dem offenen Standard für den sicheren Datenaustausch, der ein offenes Datenökosystem fördert, das von der plattform-, cloud- und regionenübergreifenden Zusammenarbeit profitiert. Heute tauschen über 6.000 aktive Datennutzer täglich mehr als 300 PB an Daten aus.

„Zusammenarbeit und Innovation in der Finanzdienstleistungsbranche werden durch die Open-Source-Gemeinschaft und Projekte wie Legend, die Open-Source-Datenplattform von Goldman Sachs, die wir in Zusammenarbeit mit FINOS betreiben, gefördert”, so Neema Raphael, Chief Data Officer und Head of Data Engineering bei Goldman Sachs. “Wir glauben seit langem an die Bedeutung von Open Source für die Zukunft der Technologie und sind begeistert, dass Databricks weiterhin in Delta Lake investiert. Organisationen sollten nicht durch die Wahl eines offenen Tabellenformats eingeschränkt werden und die Unterstützung des Universal Formats in Delta Lake wird die gesamte Community weiter voranbringen.”

Databricks