Auf dem Data + AI Summit kündigte Databricks neue Lakehouse-AI-Innovationen an, mit denen Kunden einfach und effizient generative KI-Anwendungen, einschließlich Large-Language-Models (LLMs), direkt innerhalb der Databricks-Lakehouse-Platform entwickeln können. Lakehouse-AI bietet einen einzigartigen, datenzentrierten Ansatz für KI, mit integrierten Funktionen für den gesamten KI-Lebenszyklus und die zugrunde liegende Überwachung und Steuerung. Zu den neuen Funktionen, die Kunden helfen, generative KI-Anwendungsfälle einfacher zu implementieren, gehören: Vektorsuche, eine kuratierte Sammlung von Open-Source-Modellen, LLM-optimiertes Model-Serving, MLflow 2.5 mit LLM-Funktionen wie AI-Gateway und Prompt-Tools sowie Lakehouse-Monitoring.
Die Nachfrage nach generativer KI treibt die Umwälzungen in allen Branchen voran und macht es für technische Teams dringend erforderlich, generative KI-Modelle und LLMs auf der Grundlage ihrer eigenen Daten zu erstellen, um ihre Angebote zu differenzieren. Der Erfolg von KI hängt jedoch von den Daten ab, und wenn die Datenplattform von der KI-Plattform getrennt ist, ist es schwierig, saubere, qualitativ hochwertige Daten zu erzwingen und zu pflegen. Darüber hinaus ist der Prozess, ein Modell von der Erprobung in die Produktion zu überführen, und die damit verbundene Abstimmung, Operationalisierung und Überwachung der Modelle, komplex und unzuverlässig.
Mit Lakehouse-AI vereint Databricks die Daten- und KI-Plattform, sodass Kunden ihre generativen KI-Lösungen schneller und erfolgreicher entwickeln können – von der Nutzung grundlegender SaaS-Modelle bis hin zum sicheren Training ihrer eigenen benutzerdefinierten Modelle mit ihren Unternehmensdaten. Durch die Zusammenführung von Daten, KI-Modellen, LLM-Operationen (LLMOps), Monitoring und Governance auf der Databricks-Lakehouse-Platform können Unternehmen ihre generative KI-Reise beschleunigen.
„Bei JetBlue inspirieren wir Menschen durch unser Produkt, unsere Kultur und unseren Kundenservice. Wir haben im letzten Jahr eine KI-Transformation eingeleitet, weil wir glauben, dass KI und insbesondere LLMs die Produktivität und das Kundenerlebnis für unsere Reisenden verbessern können“, sagt Sai Ravuru, Senior Manager of Data Science and Analytics bei JetBlue. „Databricks war maßgeblich an unserer KI- und ML-Transformation beteiligt und hat uns dabei geholfen, unser eigenes LLM zu entwickeln, das unser Team in die Lage versetzt, die BlueSky-Plattform effektiver zu nutzen, um Entscheidungen unter Verwendung von Echtzeitdatenströmen von Wetter, Flugzeugsensoren, FAA-Datenfeeds und mehr zu treffen. Durch die Bereitstellung wird die Einführungszeit für neue Benutzer erheblich verkürzt. Wir sind begeistert von den datenzentrierten KI-Innovationen von Databricks, die es Kunden wie uns ermöglichen, LLMs im Lakehouse zu erstellen und sie von dort aus zu steuern.”
Eine führende Datenplattform für die Entwicklung generativer KI-Lösungen
Lakehouse-AI vereinheitlicht den KI-Lebenszyklus, von der Datenerfassung und -aufbereitung über die Modellentwicklung und LLMOps bis hin zur Bereitstellung und Überwachung. Zu den neu angekündigten Funktionen gehören:
- Vektorsuche: Databricks Vector-Search ermöglicht es Entwicklern, die Genauigkeit ihrer generativen KI-Antworten durch die Suche nach Einbettungen zu verbessern. Sie verwaltet und erstellt automatisch Vektoreinbettungen aus Dateien in Unity-Catalog – Databricks‘ Flaggschiff-Lösung für einheitliche Suche und Governance in den Bereichen Daten, Analytik und KI – und hält sie durch nahtlose Integrationen im Databricks-Model-Serving automatisch auf dem neuesten Stand. Zusätzlich haben Entwickler die Möglichkeit, Abfragefilter hinzuzufügen, um ihren Nutzern noch bessere Ergebnisse zu bieten.
- Feinabstimmung in AutoML: Databricks-AutoML bietet jetzt einen Low-Code-Ansatz für die Feinabstimmung von LLMs. Kunden können LLMs unter Verwendung ihrer eigenen Unternehmensdaten sicher abstimmen und sind Eigentümer des von AutoML erstellten Modells, ohne dass sie Daten an einen Dritten senden müssen. Darüber hinaus kann das Modell dank der MLflow-, Unity-Catalog- und Model-Serving-Integrationen leicht innerhalb eines Unternehmens geteilt, für die angemessene Verwendung geregelt, die Inferenz in der Produktion bereitgestellt und überwacht werden.
- Kuratierte Open-Source-Modelle, unterstützt durch optimiertes Model-Serving für hohe Leistung: Databricks hat eine kuratierte Liste von Open-Source-Modellen veröffentlicht, die im Databricks-Marketplace verfügbar sind. Darunter fallen MPT-7B- und Falcon-7B-Befehlsverfolgungs- und Zusammenfassungsmodelle sowie Stable Diffusion für die Bilderzeugung, die den Einstieg in die generative KI für eine Vielzahl von Anwendungsfällen erleichtern. Lakehouse-KI-Funktionen wie Databricks-Model-Serving wurden für diese Modelle optimiert, um Spitzenleistung und Kostenoptimierung zu gewährleisten.
LLMOps effektiv und zuverlässig verwalten
Mit der Ankündigung von MLflow 2.5, der neuesten Version des beliebten Open-Source-Projekts MLflow der Linux Foundation, hat Databricks auch neue Innovationen im Bereich LLMOps vorgestellt. Dies ist der jüngste Beitrag von Databricks zu einem der wichtigsten Open-Source-Projekte des Unternehmens. MLflow ist eine Open-Source-Plattform für den Lebenszyklus des maschinellen Lernens, die monatlich fast 11 Millionen Mal heruntergeladen wird. MLflow 2.5 enthält folgende Aktualisierungen:
- MLflow-AI-Gateway: MLflow AI Gateway ermöglicht es Unternehmen, Anmeldeinformationen für SaaS-Modelle oder Modell-APIs zentral zu verwalten und zugriffskontrollierte Routen für Abfragen bereitzustellen. Organisationen können diese Routen dann verschiedenen Teams zur Verfügung stellen, um sie in ihre Workflows oder Projekte zu integrieren. Entwickler können das Backend-Modell jederzeit problemlos austauschen, um Kosten und Qualität zu verbessern, und zwischen verschiedenen LLM-Anbietern wechseln. MLflow-AI-Gateway ermöglicht auch das Zwischenspeichern von Vorhersagen, um wiederholte Prompts zu verfolgen, und die Begrenzung der Rate, um die Kosten zu kontrollieren.
- MLflow-Prompt-Tools: Neue visuelle Tools ohne Code ermöglichen es Nutzern, die Ergebnisse verschiedener Modelle auf der Grundlage einer Reihe von Aufforderungen zu vergleichen, die automatisch in MLflow verfolgt werden. Durch die Integration in Databricks-Model-Serving können Kunden das entsprechende Modell in der Produktion einsetzen.
Darüber hinaus wurde Databricks-Model-Serving nach seiner Veröffentlichung Anfang des Jahres für die Inferenz von LLMs mit bis zu 10-fach geringerer Latenzzeit und reduzierten Kosten optimiert. Model-Serving wird vollständig von Databricks verwaltet, um ein reibungsloses Infrastrukturmanagement zu ermöglichen, und unterstützt nun GPU-basierte Inferenzen. Es protokolliert und überwacht automatisch alle Anfragen und Antworten auf Delta-Tabellen und gewährleistet eine durchgängige Nachverfolgung der Abstammung durch Unity Catalog. Schließlich lässt sich Model-Serving bei Bedarf schnell auf- und abwärts skalieren, was die Betriebskosten senkt und sicherstellt, dass Kunden nur für die genutzte Rechenleistung zahlen.
Intelligente Überwachung von Daten und KI-Assets
Mit der Einführung von Databricks-Lakehouse-Monitoring hat Databricks auch seine Daten- und KI-Überwachungsfunktionen erweitert, um alle Daten- und KI-Assets innerhalb des Lakehouse besser überwachen und verwalten zu können. Databricks-Lakehouse-Monitoring bietet einen durchgängigen Einblick in die Datenpipelines, um die Leistung kontinuierlich zu überwachen, zu optimieren und zu verbessern – ohne zusätzliche Tools und Komplexität. Durch die Nutzung von Unity-Catalog bietet Lakehouse Monitoring Anwendern einen tiefen Einblick in die Herkunft ihrer Daten und KI-Assets, um eine hohe Qualität, Genauigkeit und Zuverlässigkeit zu gewährleisten. Proaktive Erkennung und Berichterstattung erleichtern die Erkennung und Diagnose von Fehlern in Pipelines, die automatische Durchführung von Ursachenanalysen und das schnelle Auffinden empfohlener Lösungen über den gesamten Lebenszyklus der Daten.
„Wir sind an einem Wendepunkt für Unternehmen angelangt: Die Nutzung von KI ist nicht mehr nur ein Wunschtraum, sondern eine Notwendigkeit für Unternehmen, um wettbewerbsfähig zu bleiben”, sagt Ali Ghodsi, Mitbegründer und CEO von Databricks. „Databricks ist seit mehr als einem Jahrzehnt auf der Mission, Daten und KI zu demokratisieren, und wir setzen unsere Innovationen fort, um das Lakehouse zum besten Ort für die Erstellung, den Besitz und die Sicherung generativer KI-Modelle zu machen.“
Databricks baut die Lakehouse-Plattform weiter aus und kündigte kürzlich Lakehouse-Apps und die allgemeine Verfügbarkeit von Databricks-Marketplace, LakehouseIQ, neue Governance-Funktionen und Delta Lake 3.0 an.
Die Funktionen von MLflow 2.5 werden in der Juli-Version von MLflow verfügbar sein. Neue Databricks-Funktionen wie Vector-Search und Lakehouse-Monitoring befinden sich derzeit in der Preview.
#Databricks