Apache Spark 3.0 bietet Nvidia GPU-Unterstützung für maschinelles Lernen

Apache Spark, das speicherinterne Big-Data-Verarbeitungsframework, wird in seiner bald erscheinenden Version 3.0 vollständig GPU-beschleunigt. Das Beste ist, dass die heutigen Spark-Anwendungen die GPU-Beschleunigung ohne Änderungen nutzen können. Bestehende Spark-APIs funktionieren unverändert.

Die von Nvidia bereitgestellten GPU-Beschleunigungskomponenten ergänzen alle Phasen von Spark-Anwendungen, einschließlich ETL-Operationen, maschinelles Lernen und Inferenz-Serving.

Die Spark-Beiträge von Nvidia basieren auf der RAPIDS-Suite von GPU-beschleunigten Data Science-Bibliotheken. Viele der internen Datenstrukturen von RAPIDS, wie z. B. Datenrahmen, ergänzen die von Spark, aber es hat fast vier Jahre gedauert, bis Spark RAPIDS nativ verwendet.

Spark 3.0-Beschleunigungen kommen nicht nur von der GPU-Beschleunigung. Spark 3.0 erzielt auch Leistungssteigerungen, indem die Datenverschiebung zu und von GPUs minimiert wird. Wenn Daten über einen Cluster verschoben werden müssen, werden sie vom Unified Communication X-Framework mit minimalem Overhead direkt von einem Block GPU-Speicher zu einem anderen transportiert.

Laut Nvidia führte eine Vorschauversion von Spark 3.0, die auf der Databricks-Plattform ausgeführt wird, zu einer siebenfachen Leistungsverbesserung bei Verwendung der GPU-Beschleunigung, obwohl keine Details zur Arbeitslast und zum Dataset verfügbar waren. 

Für die allgemeine Verfügbarkeit von Spark 3.0 wurde kein fester Termin angegeben. Sie können Vorschauversionen von der Apache Spark-Projektwebsite herunterladen.