Cloudera und Nvidia beschleunigen Datenanalyse und KI in der Cloud

Cloudera gibt die Integration der Cloudera-Data-Platform (CDP) in den „RAPIDS Accelerator für Apache Spark 3.0″ bekannt. Die auf den Computing-Plattformen von Nvidia eingesetzte Software ermöglicht es Unternehmen, Datenpipelines zu beschleunigen und die Leistung von Daten- und Machine-Learning-Workflows zu verbessern. Das ermöglicht einen schnelleren Einsatz von KI, wodurch bessere Geschäftsergebnisse erzielt werden – ohne dass Änderungen am Code vorgenommen werden müssen. Mit der Veröffentlichung von Applied-ML-Prototypes (AMPs) in CDP in Verbindung mit der Leistung von Nvidia-Computing können Kunden wie die US-amerikanische Finanzbehörde Internal Revenue Service (IRS) und das Office for National Statistics UK nicht nur komplexe ML-Anwendungsfälle in Angriff nehmen, sondern auch die Datenverarbeitung und das Modelltraining zu geringeren Kosten sowohl über Onpremises als auch über die Public-Cloud oder die Hybrid-Cloud beschleunigen.

 

Trotz großer Datenmengen schnellere Entscheidungen treffen

Data-Engineers nutzen Datensätze in einem nie dagewesenen Umfang, beispielsweise bei der Transformation von Lieferkettenmodellen, der Reaktion auf erhöhte Betrugsraten oder der Entwicklung neuer Produktlinien. Für Data-Scientists haben die Engpässe, die durch riesige Datenmengen entstehen, direkte Auswirkungen auf die Kosten und die Geschwindigkeit, mit der Unternehmen Modelle im gesamten Betrieb trainieren und betreiben können. Die Integration von Cloudera und Nvidia soll Unternehmen in die Lage versetzen, schnell auf neue und laufende geschäftliche Herausforderungen zu reagieren und aufschlussreiche Analysen durchzuführen.

„Wir müssen in der Lage sein, präzise Entscheidungen in kürzester Zeit zu treffen und dabei riesige Datenmengen zu nutzen. Diese Herausforderung wird immer größer, da die Datenmengen und -geschwindigkeiten ständig weiter zunehmen“, sagt Joe Ansaldi, IRS/Research Applied Analytics & Statistics Division (RAAS)/Technical Branch Chief. „Die Integration von Cloudera und Nvidia befähigt uns, datengetriebene Erkenntnisse zu nutzen, um geschäftskritische Anwendungsfälle wie beispielsweise Betrugserkennung zu unterstützen. Im Moment sind wir dabei, diese Integration umzusetzen und sehen bereits jetzt eine mehr als dreimal so hohe Geschwindigkeit hinsichtlich unserer Data-Engineering- und Data-Science-Workflows.“

 

Die Daten besser verstehen

Für jedes Unternehmen, das riesige Datensätze handhaben muss, entscheidet eine durch Open-Source-GPU beschleunigte Data-Science-Pipeline über die Frage, ob es in der Lage ist, Modelle zu trainieren oder nicht. Eine solche Pipeline kann die Fähigkeit eines Unternehmens bestärken, sich unter Einsatz von künstlicher Intelligenz zu transformieren. Dabei läuft das GPU-beschleunigte Framework Apache Spark 3 nahtlos auf CDP. Dadurch werden Unternehmen in die Lage versetzt, HPC-, KI- und Data-Science-Anforderungen von der Forschung bis zur Produktion mit einer sicheren, skalierbaren und offenen Plattform für maschinelles Lernen zu unterstützen.

„In einer Zeit, in der Geschwindigkeit alles ist, verlassen sich Unternehmen immer stärker auf die Macht der Daten. Unsere Zusammenarbeit mit NVIDIA stellt Kunden die benötigte Geschwindigkeit zur Verfügung, um ihre Daten besser zu verstehen und das wahre Transformationspotenzial von KI umzusetzen“, sagt Arun Murthy, Chief Product Officer bei Cloudera. „Die Analysefunktionen von CDP wurden speziell dafür entwickelt, Datenspezialisten zu befähigen, die Herausforderungen von exponentiellem Datenwachstum sowie siloartiger Datenanalyse über mehrere Public- und Private-Clouds hinweg zu meistern. Die Vertiefung unserer bestehenden Integration mit Nvidia ist für uns ein natürlicher nächster Schritt. Unsere Kunden werden in der Lage sein, ihren bisherigen Wettbewerbsvorteil, den sie durch die Nutzung unserer Enterprise-Data-Cloud-Services bereits haben, noch weiter auszubauen.“

„Apache-Spark ist ein Eckpfeiler für Machine-Learning- und Data-Analytics-Pipelines, auf die sich Unternehmen verlassen, um wettbewerbsfähig zu bleiben“, sagt Scott McClellan, Senior Director, Data Science Product Group bei Nvidia. „Die Rechenleistung durch Nvidia-beschleunigtes Computing und Spark-Analysen auf der Cloudera-Data-Platform bieten die Flexibilität, um auch unter Zeitdruck Termine einzuhalten und Kosten zu sparen, wenn das Endergebnis im Vordergrund steht.“

Der Rapids-Accelerator für Apache-Spark wird ab diesem Sommer in der CDP-Private-Cloud verfügbar sein. Nvidia und Cloudera werden zukünftig weitere Angebote in CDP einführen, beginnend im Mai mit Accelerated-Deep-Learning und Machine-Learning in CDP-Public-Cloud.

#Cloudera