Cloudflare verbessert KI-Inferenzplattform mit leistungsstarkem GPU-Upgrade

Cloudflare stellt leistungsstarke neue Funktionen seiner Serverless-KI-Plattform „Workers AI“ und seiner Bausteine zur Entwicklung von KI-Anwendungen vor, um die Erstellung schnellerer und leistungsfähigerer KI-Anwendungen zu unterstützen. Auf Workers-AI erstellte Applikationen profitieren jetzt unter anderem von einer schnelleren Inferenz, größeren Modellen und einer besseren Performance-Analyse. Workers-AI ist die Plattform, mit der sich globale KI-Anwendungen entwickeln und KI-Inferenzaufgaben in der Nähe der Nutzerinnen und Nutzer ausführen lassen, wo auch immer auf der Welt sich diese befinden.

Large-Language-Models (LLM) werden heute immer kleiner und leistungsstärker, weshalb sich bei der Gewährleistung von Kundenakzeptanz und reibungslosen Interaktionen mit der KI die Netzwerkgeschwindigkeit zu einer Engstelle entwickelt. Das über die ganze Welt verteilte Cloudflare-Netzwerk trägt dazu bei, die Netzwerklatenz zu minimieren. Dadurch hebt es sich von anderen Netzwerken ab, deren Ressourcen normalerweise auf eine begrenzte Zahl von Rechenzentren konzentriert sind. Die Serverless-Inferenzplattform von Cloudflare, Workers-AI, verfügt nun über Grafikprozessoren in über 180 Städten rund um den Globus. So kann Endnutzerinnen und -nutzern überall auf der Welt ein latenzarmer Zugang geboten werden. Workers-AI gehört dank dieses GPU-Netzwerks zu den KI-Plattformen mit der größten Reichweite. Es ist darauf ausgelegt, KI-Inferenz in größtmöglicher Nähe zu den Nutzerinnen und Nutzern lokal auszuführen, damit Kundendaten näher am Standort verbleiben.

„Während der starken Verbreitung von KI im letzten Jahr hat niemand an die Netzwerkgeschwindigkeit als Ursache für KI-Latenz gedacht, weil es sich noch um eine neue und experimentelle Art der Interaktion handelte. Doch je mehr wir uns einer Zeit nähern, in der KI Teil unseres Alltags wird, desto mehr kommt es auf das Netzwerk und damit auf Millisekunden an“, so Matthew Prince, Mitgründer und CEO von Cloudflare. „Mit Verlagerung der KI-Workloads vom Trainieren zum Ausführen von Inferenz tritt die KI in ihre nächste Entwicklungsstufe ein. Für deren Unterstützung werden Performance und lokale Verfügbarkeit eine maßgebliche Rolle spielen. Cloudflare ist die globalste KI-Plattform auf dem Markt. Die Verfügbarkeit von GPU in Städten auf der ganzen Welt wird dafür sorgen, dass KI von einer Spielerei zu einem integralen Bestandteil des Alltags wird – also genau das, was das schnellere Internet für Smartphones bewirkt hat.“

Cloudflare führt außerdem neue Funktionen ein, die Workers-AI zu der Plattform machen, auf der sich KI-Anwendungen am leichtesten entwickeln lassen:

  • Höhere Performance und stärkere Unterstützung für größere Modelle: Bei Cloudflare erweitern wir unser globales Netzwerk mit leistungsstärkeren Grafikkarten für Workers AI, um die Performance bei KI-Inferenz zu steigern und Inferenz auf deutlich größeren Modellen wie Llama 3.1 70B sowie einer Reihe von Llama 3.2-Modellen – 1B, 3B, 11B (und bald 90B) – auszuführen. Durch die Unterstützung größerer Modelle, kürzerer Reaktionszeiten und größerer Kontextfenster meistern KI-Anwendungen, die auf Workers AI entwickelt wurden, komplexere Aufgaben auf effizientere Weise. Das ermöglicht natürliche und reibungslose Endnutzererfahrungen.
  • Bessere Überwachung und Optimierung der KI-Nutzung dank dauerhafter Protokolle: Neue dauerhafte Protokolle bei AI Gateway sind in der Open Beta-Version verfügbar und erlauben es Entwicklerinnen und Entwicklern, die Prompts von Nutzerinnen und Nutzern sowie die Antworten der Modelle für einen längeren Zeitraum zu speichern. So können sie besser analysieren und verstehen, wie gut ihre Applikation funktioniert. Dauerhafte Protokolle bieten Entwicklerinnen und Entwicklern tiefere Einblicke in Nutzererfahrungen, einschließlich der Kosten und der Dauer der Anfragen. Anhand dieser Informationen lässt sich die Anwendung anschließend weiter optimieren und nachjustieren. Mehr als zwei Milliarden Anfragen haben AI-Gateway seit Einführung der Lösung im vergangenen Jahr durchlaufen.
  • Schnellere und erschwinglichere Abfragen Vektordatenbanken helfen den Modellen, sich an frühere Eingaben zu erinnern, sodass maschinelles Lernen für Suchen, Empfehlungen und für Texterstellung eingesetzt werden kann. Die Vektordatenbank von Cloudflare, Vectorize, ist jetzt allgemein verfügbar und unterstützt mit Stand von August 2024 Indizes mit jeweils bis zu fünf Millionen Vektoren (zuvor waren es nur 200.000). Die mittlere Abfragelatenz hat sich von 549 Millisekunden (ms) auf 31 ms verringert. Dank dieser Verbesserungen sind KI-Anwendungen in der Lage, die benötigten Informationen schnell und mit weniger Datenverarbeitungsaufwand zu finden, was sie auch erschwinglicher macht.

#Cloudflare