Databricks kündigt die Einführung von „Databricks LakeFlow“ an, einer neuen Lösung, die alle Aspekte des Data-Engineering vereinheitlicht und vereinfacht, von der Datenaufnahme bis zur Transformation und Orchestrierung. Mit Lakeflow können Datenteams jetzt einfach und effizient Daten in großem Umfang aus Datenbanken wie MySQL, Postgres und Oracle sowie aus Unternehmensanwendungen wie Salesforce, Dynamics, Sharepoint, Workday, Netsuite und Google-Analytics einlesen. Databricks führt außerdem den Real-Time-Mode für Apache-Spark ein, der eine Stream-Verarbeitung mit extrem niedriger Latenz ermöglicht.
Lakeflow automatisiert die Bereitstellung, den Betrieb und die Überwachung von Pipelines im Produktionsmaßstab mit integrierter Unterstützung für CI/CD und fortschrittlichen Workflows, die das Auslösen, Verzweigen und die bedingte Ausführung unterstützen. Datenqualitätsprüfungen und Zustandsüberwachung sind integriert und mit Warnsystemen wie Pagerduty verbunden. Lakeflow macht die Erstellung und den Betrieb von produktionsfähigen Datenpipelines einfach und effizient und deckt gleichzeitig die komplexesten Anwendungsfälle des Data Engineerings ab, so dass selbst vielbeschäftigte Datenteams der wachsenden Nachfrage nach zuverlässigen Daten und KI gerecht werden können.
Bewältigung der Herausforderungen beim Aufbau und Betrieb zuverlässiger Datenpipelines
Data-Engineering ist für die Demokratisierung von Daten und künstlicher Intelligenz in Unternehmen von entscheidender Bedeutung, bleibt jedoch ein anspruchsvolles und komplexes Gebiet. Datenteams müssen Daten aus siloartigen und oft proprietären Systemen, einschließlich Datenbanken und Unternehmensanwendungen, einlesen. Dies erfordert oft die Erstellung komplexer und anfälliger Konnektoren. Darüber hinaus muss bei der Datenaufbereitung eine komplizierte Logik beibehalten werden, und Ausfälle und Latenzspitzen können zu Betriebsunterbrechungen und unzufriedenen Kunden führen. Für die Bereitstellung von Pipelines und die Überwachung der Datenqualität sind in der Regel zusätzliche, unterschiedliche Tools erforderlich, was den Prozess zusätzlich erschwert. Bestehende Lösungen sind fragmentiert und unvollständig, was zu geringer Datenqualität, Zuverlässigkeitsproblemen, hohen Kosten und einem wachsenden Arbeitsrückstand führt.
Lakeflow adressiert diese Herausforderungen durch die Vereinfachung aller Aspekte des Data-Engineerings über eine einzige, einheitliche Erfahrung, die auf der Databricks-Data-Intelligence-Platform aufbaut, mit tiefgreifenden Integrationen mit Unity-Catalog für End-to-End-Governance und Serverless-Compute für hocheffiziente und skalierbare Ausführung.
Hauptmerkmale von Lakeflow
Lakeflow-Connect: Einfache und skalierbare Dateneingabe aus jeder Datenquelle. Lakeflow-Connect bietet eine Vielzahl von nativen, skalierbaren Konnektoren für Datenbanken wie MySQL, Postgres, SQL-Server und Oracle sowie für Unternehmensanwendungen wie Salesforce, Dynamics, Sharepoint, Workday und Netsuite. Diese Konnektoren sind vollständig in den Unity-Catalog integriert und sorgen für eine robuste Datenverwaltung. Lakeflow-Connect enthält die hocheffizienten Fähigkeiten von Arcion, das im November 2023 von Databricks übernommen wurde. Lakeflow-Connect macht alle Daten, unabhängig von Größe, Format oder Speicherort, für Batch- und Echtzeitanalysen verfügbar.
Lakeflow-Pipelines: Vereinfachung und Automatisierung von Echtzeit-Datenpipelines. Lakeflow-Pipelines basiert auf der hoch skalierbaren Delta-Live-Tables-Technologie von Databricks und ermöglicht Datenteams die Implementierung von Datentransformationen und ETL in SQL oder Python. Kunden können jetzt den Real Time Mode für Streaming mit niedriger Latenz ohne Codeänderungen aktivieren. Lakeflow macht die manuelle Orchestrierung überflüssig und vereinheitlicht die Batch- und Stream-Verarbeitung. Es bietet inkrementelle Datenverarbeitung für ein optimales Preis/Leistungsverhältnis. Lakeflow Pipelines macht selbst die komplexesten Streaming- und Batch-Datentransformationen einfach zu erstellen und zu bedienen.
Lakeflow-Jobs: Orchestrierung von Arbeitsabläufen über die Data-Intelligence-Platform. Lakeflow-Jobs bietet automatisierte Orchestrierung, Datenintegrität und -bereitstellung, von der Planung von Notebooks und SQL-Abfragen bis hin zu ML-Training und automatischen Dashboard-Updates. Es bietet erweiterte Control-Flow-Funktionen und vollständige Beobachtbarkeit, um Datenprobleme zu erkennen, zu diagnostizieren und zu entschärfen und so die Zuverlässigkeit der Pipelines zu erhöhen. Lakeflow Jobs automatisiert die Bereitstellung, Orchestrierung und Überwachung von Datenpipelines an einem einzigen Ort und macht es für Datenteams einfacher, ihre Datenlieferversprechen zu erfüllen.
#Databricks