Databricks stellt Data-Intelligence-Platform vor

Databricks hat die Data-Intelligence-Platform auf den Markt gebracht, eine Evolution der Lakehouse-Architektur. Diese Entwicklung ist das Ergebnis der Integration von „MosaicML“, der bislang größten Übernahme in der Unternehmensgeschichte für 1,3 Milliarden US-Dollar im Juni 2023. Der Einfluss von KI auf Datenplattformen ist fundamental. Daher wird die neue Generation von Systemen als Data-Intelligence-Platform (DI-Plattformen) bezeichnet. Sie werden den Zugang zu Daten massiv demokratisieren, die manuelle Verwaltung automatisieren und die schlüsselfertige Erstellung von maßgeschneiderten KI-Anwendungen ermöglichen.

„Vor fünf Jahren hat Databricks mit dem Konzept des Lakehouse Pionierarbeit geleistet, um das Beste aus beiden Welten zu kombinieren und zu vereinen. Lakehouses speichern und verwalten alle Daten in offenen Formaten und unterstützen nativ Workloads von BI bis KI. Zum ersten Mal boten Lakehouses ein einheitliches System, um alle Datenquellen in einem Unternehmen gemeinsam abzufragen und alle Workloads, die Daten verwenden (BI, KI usw.), auf einheitliche Weise zu steuern. Lakehouse wurde zu einer eigenen Kategorie von Datenplattformen und wird seitdem von vielen Unternehmen übernommen und in die Stacks der meisten Anbieter integriert.“

Data-Intelligence-Platforms bauen auf der Grundlage des Lakehouse auf, analysieren aber automatisch sowohl die Daten (Inhalte und Metadaten) als auch die Art und Weise, wie sie verwendet werden (Abfragen, Berichte, Datenverläufe usw.), um neue Funktionen hinzuzufügen. Durch dieses tiefe Verständnis der Daten ermöglichen DI-Plattformen:

  • Zugang in Natural-Language: Durch den Einsatz von KI-Modellen ermöglichen DI-Plattformen die Arbeit mit Daten in natürlicher Sprache, die auf den Jargon und die Akronyme des jeweiligen Unternehmens zugeschnitten ist. Die Plattform beobachtet, wie Daten in bestehenden Workloads verwendet werden, um die Begriffe des Unternehmens zu erlernen, und bietet allen Nutzern – vom Laien bis zum Data-Engineer – ein maßgeschneidertes Natural-Language-Interface.
  • Semantische Katalogisierung und Erkennung: Generative-KI kann das Datenmodell, die Metriken und die KPIs jedes Unternehmens verstehen, um unvergleichliche Discovery-Funktionen anzubieten oder automatisch Diskrepanzen in der Datennutzung zu identifizieren.
  • Automatisierte Verwaltung und Optimierung: KI-Modelle können das Datenlayout, die Partitionierung und die Indizierung auf der Grundlage der Datennutzung optimieren und so den Bedarf an manueller Abstimmung und Knopfkonfiguration verringern.
  • Verbesserte Governance und Datenschutz: DI-Plattformen können den Missbrauch sensibler Daten automatisch erkennen, klassifizieren und somit verhindern sowie gleichzeitig die Verwaltung durch natürliche Sprache vereinfachen.
  • Erstklassige Unterstützung für KI-Workloads: DI-Plattformen können jede KI-Anwendung im Unternehmen verbessern, indem sie eine Verbindung zu den relevanten Geschäftsdaten herstellen und die von der DI-Plattform erlernte Semantik (Metriken, KPIs usw.) nutzen, um genaue Ergebnisse zu liefern. Entwickler von KI-Anwendungen müssen Intelligenz nicht mehr durch sprödes Prompt-Engineering zusammenbasteln.

Databricks integriert „DatabricksIQ“ direkt in seine KI-Plattform Mosaic-AI, um Unternehmen die Erstellung von KI-Anwendungen, die ihre Daten verstehen, zu erleichtern. Mosaic-AI bietet nun mehrere Funktionen zur direkten Integration von Unternehmensdaten in KI-Systeme, darunter:

  • End-to-End RAG (Retrieval Augmented Generation) zum Aufbau von qualitativ hochwertigen Konversationsagenten auf Ihren benutzerdefinierten Daten, die Databricks Vector-Database als Gedächtnis nutzen.
  • Training von benutzerdefinierten Modellen entweder auf den Daten eines Unternehmens aufbauend oder durch fortgesetztes Pre-Training bestehender Modelle wie MPT und Llama 2, um KI-Anwendungen mit einem tiefen Verständnis einer Zieldomäne weiter zu verbessern.
  • Effiziente und sichere serverlose Inferenz auf Unternehmensdaten, die mit den Governance- und Qualitätsüberwachungsfunktionen von Unity-Catalog verbunden ist.
  • End-to-End-MLOps auf der Grundlage des beliebten MLflow-Open-Source-Projekts, wobei alle erzeugten Daten automatisch im Lakehouse umsetzbar, nachverfolgbar und überwachbar sind.

Fazit

„DI-Plattformen werden diese Landschaft verändern, indem sie diese beiden Herausforderungen direkt angehen und die Abfrage, Verwaltung und Steuerung von Daten wesentlich erleichtern. Darüber hinaus wird ihr tiefes Verständnis von Daten und deren Nutzung die Grundlage für KI-Anwendungen in Unternehmen bilden, die auf diesen Daten arbeiten. DI-Plattformen werden ein Eckpfeiler für diese Unternehmen sein, der es ihnen ermöglicht, die nächste Generation von Daten und KI-Anwendungen mit Qualität, Geschwindigkeit und Flexibilität zu entwickeln.“

#Databricks