Universeller Open-Catalog für Daten und KI

Databricks stellt Unity-Catalog, die branchenweit einzige einheitliche Lösung für die Verwaltung von Daten und künstlicher Intelligenz (KI) über Clouds, Datenformate und Datenplattformen hinweg, als Open-Source bereit. Diese Initiative baut auf Databricks‘ Engagement für offene Ökosysteme auf und stellt sicher, dass Kunden die Flexibilität und Kontrolle haben, die sie brauchen, ohne sich an einen Anbieter zu binden. Databricks läutet mit der Unterstützung von Amazon-Web-Services (AWS), Google-Cloud, Microsoft, NVIDIA, Salesforce, und weitere eine neue Ära offener Katalogstandards für Daten und KI ein.

Unity-Catalog-OSS bietet eine universelle Schnittstelle, die jedes Datenformat und jede Compute-Engine unterstützt, einschließlich der Möglichkeit, Tabellen mit Delta-Lake-, Apache-Iceberg- und Apache-Hudi-Clients über Delta-Lake-Uniform zu lesen. Es unterstützt auch die Schnittstellenstandards Iceberg-REST-Catalog und Hive-Metastore (HMS). Darüber hinaus bietet Unity-Catalog-OSS eine einheitliche Governance für tabellarische und nicht-tabellarische Daten sowie für KI-Assets wie Machine-Learning-Modelle (ML) und generative KI-Tools, wodurch Unternehmen die Verwaltung im großen Maßstab vereinfachen können.

 

Unity-Katalog: Der führende Daten- und KI-Katalog

Databricks führte Unity-Catalog im Jahr 2021 ein, um Kundennachfragen nachzukommen: Unternehmen benötigen einen interoperablen Katalog für ihre Daten und KI-Workloads. In der Vergangenheit verließen sich Unternehmen auf mehrere verschiedene Einzellösungen, wodurch Silos zwischen Plattformen und zwischen Daten- und KI-Assets entstanden. Diese Silos erschwerten die Erstellung moderner Daten- und KI-Anwendungen, die tabellarische Daten in verschiedenen Tabellenformaten, unstrukturierte Daten, ML-Modelle, Vektorindizes und KI-Tools kombinieren. Kunden erstellten komplexe Netze, um Metadatensilos zu verwalten, kopierten Daten an verschiedene Orte oder in verschiedene Formate, um den Zugriff durch verschiedene Engines zu ermöglichen. Außerdem pflegten sie DIY-Lösungen, um Metadaten zwischen Katalogen zu synchronisieren. Letztlich führte dies zu erhöhten Kosten und Komplexität sowie zu schwacher Governance und fragmentierter Zugriffskontrolle. Unity-Catalog überwindet diese Silos für über 10.000 Unternehmen.

„Unsere Kunden lieben Unity-Catalog. Sie können damit all ihre Datenobjekte – tabellarische Daten, unstrukturierte Daten sowie KI- und ML-Assets – in einer „Single Source of Truth“ innerhalb der Databricks Data-Intelligence-Platform verwalten, anstatt mehrere Einzellösungen zusammenzufügen“, erläutert Ali Ghodsi, Mitbegründer und CEO von Databricks. „Unsere Plattform ist die einzige große Datenplattform in der Branche, bei der alle Daten standardmäßig in einem offenen Format vorliegen – jetzt sind auch die Metadaten und die Governance offen, wodurch Unternehmen die Governance-Lösung erhalten, die sie in der heutigen Daten- und KI-Landschaft benötigen. Wir freuen uns, Unity-Catalog als Open-Source zu veröffentlichen und den Code freizugeben. Wir werden den offenen Standard in enger Zusammenarbeit mit unseren Partnern weiterentwickeln.“

Unity Catalog OSS ist der einzige offene Katalog für Daten und KI in der Branche. Die wichtigsten Funktionen umfassen:

  • Interoperabilität: Unity-Catalog-OSS bietet eine universelle Schnittstelle, die jedes Datenformat und jede Compute-Engine unterstützt, einschließlich der Möglichkeit, Tabellen mit Delta-Lake-, Apache-Iceberg- und Apache-Hudi-Clients über Delta-Lake-Uniform zu lesen. Es unterstützt auch die Schnittstellenstandards Iceberg-REST-Catalog und Hive-Metastore (HMS). Unity-Catalog-OSS ist interoperabel mit allen wichtigen Cloud-Plattformen, einschließlich Microsoft-Azure, AWS, GCP und Salesforce; Compute-Engines wie Apache-Spar, Presto, Trino, DuckDB, Daft, Puppygraph und Starrocks; und Daten- und KI-Plattformen wie dbt Labs, Confluent, Eventual, Fivetran, Granica, Immuta, Informatica, LanceDB, LangChain, Tecton und Unstructured.
  • Unified-Governance: Unity-Catalog-OSS ermöglicht eine einheitliche Governance für tabellarische Daten, nicht-tabellarische Daten und KI-Assets wie ML-Modelle und generative KI-Tools, so dass Unternehmen die Verwaltung, Erkennung und Entwicklung in großem Umfang vereinfachen können.
  • Offenheit: Mit seinen offenen APIs und dem Apache 2.0 lizenzierten Open-Source-Server maximiert Unity Catalog OSS die Flexibilität und die Auswahlmöglichkeiten des Kunden, indem es eine breite Interoperabilität zwischen verschiedenen Engines, Tools und Plattformen ermöglicht.

„AT&T setzt sich dafür ein, dass unsere Daten mit unseren Plattformen interoperabel sind. Mit der Ankündigung des Open-Sourcing von Unity-Catalog fühlen wir uns durch Databricks‘ Schritt ermutigt, Lakehouse-Governance und Metadatenmanagement durch offene Standards zu ermöglichen. Die Flexibilität, mit unseren Daten und KI-Assets interoperable Tools mit konsistenter Governance zu nutzen, ist der Kern der AT&T-Datenplattformstrategie“, sagt Matt Dugan, VP Data Platforms, AT&T.

„Nasdaq ist stolz darauf, Unity-Catalog von Databricks als Teil unserer ganzheitlichen Datenmanagement-Strategie zu nutzen“, sagt Lenny Rosenfeld, Vice President, Capital Access Platforms, Nasdaq. „Die Entscheidung von Databricks, Unity-Catalog als Open-Source zur Verfügung zu stellen, bietet eine Lösung, die dabei hilft, Datensilos zu beseitigen, und wir freuen uns darauf, unsere Plattform weiter zu skalieren, unsere Governance zu verbessern und unsere Datenanwendungen zu modernisieren, während wir weiterhin für unsere Kunden arbeiten.“

„Bei Rivian hat uns die Einführung der Databricks Data-Intelligence-Platform die Möglichkeit gegeben, Daten und KI beim Aufbau unserer EAVs der nächsten Generation zu nutzen. Wir sind begeistert, dass Databricks den Unity-Katalog öffnet und offene APIs freigibt, um Interoperabilität in unserer gesamten Datenlandschaft zu schaffen, ohne dass wir uns Gedanken über eine Anbieterbindung machen müssen. In Kombination mit der Unterstützung für alle unsere Datenbestände – strukturierte und unstrukturierte Daten, ML-Modelle und Gen-KI-Tools – war es eine einfache Entscheidung, Unity Catalog zu standardisieren“, sagt Jason Shiverick, Director of AI Platforms bei Rivian.

 

Stimmen von Cloud-Partnern

„AWS begrüßt den Wechsel von Databricks zu Open Source Unity Catalog. AWS ist bestrebt, mit der Branche an Open-Source-Lösungen zu arbeiten, die den Kunden Wahlmöglichkeiten und Interoperabilität bieten“, sagt Chris Grusz, Managing Director of Technology Partnerships, AWS.

„Google setzt sich für offene, flexible Lösungen ein, die es den Kunden ermöglichen, den Wert ihrer Daten zu maximieren. Die Strategie von Databricks, den Unity Catalog-Standard für Daten und KI zu öffnen, passt sehr gut zu unserer Strategie“, sagt Ritika Suri, Director, Data and AI Technology Partnerships, Google Cloud.

„Microsoft engagiert sich für die Open-Source-Gemeinschaft und bietet seinen Kunden eine große Auswahl. Databricks ist seit Jahren ein strategischer Partner und es ist großartig zu sehen, dass sie Unity Catalog öffnen. Wir glauben, dass wirklich offene Standards mit breiter Beteiligung der Industrie im besten Interesse der Kunden sind. Unsere Zusammenarbeit mit Databricks trägt dazu bei, Microsoft Azure als beste Wahl für Daten- und KI-Workloads zu etablieren“, sagt Jessica Hawk, CVP of Data, AI and Digital Applications Product Marketing bei Microsoft.

„Salesforce Data Cloud basiert von Grund auf auf offenen Standards mit Apache Parquet und Apache Iceberg. Unsere Zero-Copy-Innovationen ermöglichen es Kunden, Daten zu erschließen, Erkenntnisse zu gewinnen und Aktionen über die gesamte Customer 360 hinweg zu orchestrieren. Databricks‘ Umarmung von Apache Iceberg über UniForm und Unity Catalog adressiert wichtige Herausforderungen der Interoperabilität zwischen Delta Lake und Iceberg. Wir freuen uns, Databricks als Mitglied in unserem Zero Copy Partner Network zu haben und freuen uns auf gemeinsame Innovationen mit dem neuen offenen Unity Catalog, die einen überzeugenden Kundennutzen für strukturierte Daten, unstrukturierte Daten und KI-Modelle bieten“, sagt Ravi Loganathan, EVP, Salesforce.

 

Unterstützende Daten und AI-Partner-Angebote

„Confluent hat es sich zur Aufgabe gemacht, Daten in Bewegung zu setzen und Unternehmen in die Lage zu versetzen, überall von ihren Daten zu profitieren. Wir freuen uns, dass Databricks mit der Freigabe von Unity Catalog einen wichtigen Beitrag zu einem offenen Daten-Ökosystem leistet. Tableflow auf Confluent Cloud wird die einfache Bereitstellung von Echtzeitdaten an Orten wie einem Data Lake ermöglichen, indem Datenströme mit einem einzigen Klick in Iceberg-Tabellen umgewandelt werden. Durch die Kombination unserer branchenführenden Streaming-Fähigkeiten mit den robusten Datenmanagement-Lösungen von Databricks werden Kunden in der Lage sein, ihre Daten effektiver als je zuvor zu nutzen“, sagt Shaun Clowes, Chief Product Officer bei Confluent.

„Gemeinsam helfen Databricks und dbt Cloud Anwendern dabei, Datensilos aufzubrechen, um effektiv zusammenzuarbeiten, ETL zu vereinfachen und die Total Cost of Ownership (TCO) mit Delta Lake zu senken sowie die Governance mit Unity Catalog zu vereinheitlichen. Wir freuen uns sehr, unsere Unterstützung für Unity Catalog OSS und die offenen APIs bekannt zu geben. Diese Partnerschaft unterstreicht unser Engagement, ein einheitliches Datenerlebnis zu bieten und unsere Community zu befähigen, bessere Einblicke zu erhalten und Innovationen voranzutreiben“, sagt Mark Porter, Chief Technology Officer bei dbt Labs.

„Delta Kernel hat die Entwicklung der DuckDB Delta Extension erheblich vereinfacht und ermöglicht einen einfachen Zugriff auf Delta Lake von DuckDB aus. Wir freuen uns sehr über die Zusammenarbeit mit Databricks bei Delta Kernel und dem offenen Standard Unity Catalog für Daten und KI. Diese Zusammenarbeit ist ein bedeutender Schritt in Richtung Open-Source-Innovation und der Entwicklung offener Data Lakehouses“, sagt Hannes Mühleisen, CEO von DuckDB Labs.

„Bei Eventual haben wir Daft entwickelt, die führende verteilte Open-Source-Abfrage-Engine für multimodale Daten. Wir glauben, dass die Vereinheitlichung von Berechnungen für tabellarische und unstrukturierte Daten nicht ausreicht und dass ein multimodaler Katalog für den Aufbau von GenAI Data Lakehouses entscheidend ist. Wir freuen uns, mit Databricks und anderen KI-Innovatoren zusammenzuarbeiten, um den offenen Standard Unity Catalog für moderne Daten und KI-Workloads zu entwickeln“, sagt Sammy Sidhu, CEO von Eventual.

„Wir sind begeistert, dass Databricks den Unity Catalog als offenen Standard für Daten und KI öffnet. Dieser Schritt bietet unseren Kunden eine größere Auswahl und Flexibilität in ihrem Daten-Ökosystem und gewährleistet eine nahtlose Integration und maximale Interoperabilität mit der Plattform von Fivetran, wenn sie wichtige Daten in Databricks aufnehmen“, sagt Anjan Kundavaram, Chief Product Officer bei FiveTran.

„Bei Granica setzen wir uns für die Demokratisierung von Daten und die Unabhängigkeit von Anbietern ein. Unsere Safe Room-Technologie gewährleistet Datenschutz, Vertrauen und Sicherheit in generativen KI-Workflows und unterstützt gleichzeitig offene Standards wie Unity Catalog und Apache Iceberg. Die herstellerneutrale Architektur und die robusten Governance-Lösungen von Unity Catalog entsprechen unserer Vision, Kunden Flexibilität und Kontrolle über ihre Daten zu bieten. Wir freuen uns, zu diesem offenen Ökosystem beizutragen, Innovationen voranzutreiben und den Kunden die nahtlose Arbeit mit ihren Daten über Best-of-Breed-Plattformen zu ermöglichen“, sagt Rahul Ponnala, Mitbegründer und CEO von Granica.

„Die Offenlegung von nativen Zugriffsmustern innerhalb von Unity Catalog hat die Art und Weise verändert, wie unser Unternehmen den Zugriff auf Daten rationalisieren und Governance-Regeln in großem Umfang anwenden kann – ohne Leistungseinbußen. Die kontinuierliche Investition von Databricks in eine Community zur Beschleunigung von Services, um die Erstellung von Datenkontrollen zu vereinfachen, ermöglicht unseren Kunden eine einfachere Steuerung und Verwaltung der riesigen Menge an neuen Datenkonsumenten, die im Zeitalter der KI an Bord kommen“, erklärt Matthew Carroll, CEO von Immuta.

„Wir freuen uns über die Möglichkeiten, die sich für unsere gemeinsamen Kunden ergeben, wenn Databricks Unity Catalog als offenen Standard für Daten und KI veröffentlicht. Mit Unity Catalog OSS und der intelligenten Datenmanagement-Cloud von Informatica können Kunden eine größere Auswahl, Flexibilität und Interoperabilität in ihren Datenökosystemen erreichen“, sagt Brett Roscoe, GM und SVP Cloud Data Governance und Cloud Operations bei Informatica.

„Die Entscheidung von Databricks, Unity Catalog als Open Source zu veröffentlichen, ist eine spannende Entwicklung für die Daten- und KI-Community. Wir freuen uns, mit Databricks zusammenzuarbeiten, um Unity Catalog in LangChain zu integrieren, was es unseren gemeinsamen Nutzern ermöglicht, fortschrittliche Agenten zu entwickeln, die die Funktionen von Unity Catalog als Werkzeuge nutzen“, sagt Harrison Chase, CEO von Langchain.

“Unternehmensdaten sind für die Entwicklung präziser generativer KI-Anwendungen unerlässlich. NVIDIA arbeitet eng mit unserem Partner-Ökosystem zusammen, um Open-Source-Angebote wie Databricks Unity Catalog zu unterstützen, die Kunden dabei helfen können, effiziente und leistungsstarke Entwicklungspipelines zu erstellen”, sagt Pat Lee, VP of Strategic Enterprise Partnerships bei NVIDIA.

„Das Open-Sourcing von Unity-Catalog ist ein entscheidender Schritt hin zu einem kollaborativen und innovativen Daten-Ökosystem. Indem wir diese Technologie zugänglich machen, fördert Databricks eine Umgebung, in der die gesamte Community zu verbesserten Data-Governance- und Management-Funktionen beitragen und davon profitieren kann. Dieser Schritt steht im Einklang mit unserer Vision bei Onehouse und Apache XTable (Incubating), die Interoperabilität offener Formate zu unterstützen, die den Fortschritt und die Innovation für alle vorantreibt“, erläutert Vinoth Chandar, Gründer und CEO von OneHouse.

„Unstructured ist die führende ETL-Lösung für unstrukturierte Daten für LLMs, die Unternehmen dabei hilft, ihre Daten von Rohdaten in RAG-fähige Daten umzuwandeln. Unsere Partnerschaft mit Unity Catalog OSS macht absolut Sinn, da wir Datensilos aufbrechen und die KI/ML-Entwicklung in Unternehmen beschleunigen. Wir freuen uns, mit Databricks zusammenzuarbeiten, um diesen offenen Standard für KI-Anwendungsfälle zu entwickeln und Metadaten für unstrukturierte Daten zu standardisieren – und damit unseren Kunden zu helfen, an der Spitze der KI zu arbeiten“, sagt Brian Raymond, CEO von Unstructured.

#Databricks