Delta-Live-Tables von Databricks ist das erste ETL-Framework, das einen einfachen deklarativen Ansatz für den Aufbau zuverlässiger Datenpipelines und die automatische Verwaltung der Dateninfrastruktur in großem Maßstab verwendet. Die Umwandlung von SQL-Abfragen in produktive ETL-Pipelines erfordert oft eine Menge langwieriger, komplizierter operativer Arbeit. Durch den Einsatz moderner Software-Engineering-Praktiken zur Automatisierung der zeitaufwendigsten Teile des Data-Engineering können sich Data-Engineers und Data-Analysts auf die Bereitstellung von Daten konzentrieren, anstatt sich mit dem Betrieb und der Wartung von Pipelines zu beschäftigen.
Während Unternehmen Strategien entwickeln, um den größtmöglichen Nutzen aus ihren Daten zu ziehen, stellen viele von ihnen teure, hochqualifizierte Data-Engineers ein – eine Ressource, die ohnehin schwer zu bekommen ist -, um Verzögerungen und das Scheitern von Projekten zu vermeiden. Was oft nicht verstanden wird, ist, dass viele der Verzögerungen oder gescheiterten Projekte auf ein Kernproblem zurückzuführen sind: Es ist schwierig, zuverlässige Datenpipelines zu erstellen, die automatisch funktionieren, ohne dass ein hohes Maß an operativer Strenge erforderlich ist, um sie am Laufen zu halten. Daher verbringen Datenexperten selbst in kleinem Maßstab den Großteil ihrer Zeit mit der Entwicklung von Tools und der Verwaltung der Infrastruktur, um sicherzustellen, dass diese Datenpipelines nicht ausfallen.
Delta-Live-Tables ist das erste und einzige ETL-Framework, das dieses Problem löst, indem es sowohl moderne Engineering-Praktiken als auch die automatische Verwaltung der Infrastruktur kombiniert, während frühere Bemühungen auf dem Markt nur den einen oder den anderen Aspekt in Angriff genommen haben. Es vereinfacht die ETL-Entwicklung, indem es den Ingenieuren ermöglicht, die Ergebnisse von Datentransformationen einfach zu beschreiben. Delta-Live-Tables erfasst dann live die Abhängigkeiten der gesamten Datenpipeline und automatisiert praktisch die gesamte manuelle Komplexität. Darüber hinaus können Data-Engineers ihre Daten wie Code behandeln und moderne Best-Practices des Software-Engineerings wie Testen, Fehlerbehandlung, Überwachung und Dokumentation anwenden, um zuverlässige Pipelines in größerem Umfang bereitzustellen. Delta-Live-Tables unterstützt sowohl Python als auch SQL und ist für die Arbeit mit Streaming- und Batch-Workloads ausgelegt.
Delta-Live-Tables wird bereits von führenden Unternehmen rund um den Globus wie JLL, Shell, Jumbo, Bread Finance und ADP eingesetzt. “Bei ADP migrieren wir unsere Personalverwaltungsdaten in einen integrierten Datenspeicher auf dem Lakehouse. Delta-Live-Tables hat unserem Team geholfen, Qualitätskontrollen einzubauen, und dank der deklarativen APIs, der Unterstützung für Batch und Echtzeit unter ausschließlicher Verwendung von SQL, hat es unserem Team ermöglicht, Zeit und Aufwand bei der Verwaltung unserer Daten zu sparen“, so Jack Berkowitz, Chief Data Officer bei ADP.
„Bei Shell fassen wir alle unsere Sensordaten in einem integrierten Datenspeicher zusammen. Delta-Live-Tables hat unseren Teams geholfen, Zeit und Aufwand bei der Verwaltung von Daten [im Umfang von mehreren Billionen Datensätzen] zu sparen und unsere KI-Engineering-Fähigkeiten kontinuierlich zu verbessern. Mit dieser Fähigkeit, die die bestehende Lakehouse-Architektur ergänzt, sorgt Databricks für Innovationen auf dem ETL- und Data-Warehouse-Markt, was für Unternehmen wie unseres wichtig ist. Wir freuen uns darauf, weiterhin mit Databricks als Innovationspartner zusammenzuarbeiten.“ – Dan Jeavons, General Manager Datenwissenschaft bei Shell
„Die Stärke von DLT liegt in etwas, das sonst niemand kann – moderne Software-Engineering-Praktiken und automatische Verwaltung der Infrastruktur zu kombinieren. Es ist eine bahnbrechende Technologie, die es Data-Engineers und -analysten ermöglicht, produktiver denn je zu sein“, sagt Ali Ghodsi, CEO und Mitbegründer von Databricks. „Sie erweitert auch die Reichweite von Databricks; DLT unterstützt jede Art von Daten-Workload mit einer einzigen API und macht fortgeschrittene Data-Engineering-Kenntnisse überflüssig.“
#Databricks