Ergänzung oder Konkurrenz

Apache Spark versus Hadoop

Schwere Zeiten für MapReduce

Vor allem im Vergleich zu MapReduce schneidet Spark wesentlich besser ab. MapReduce ist eine zehn Jahre alte Basissomponente aus der ursprünglichen Hadoop-Plattform. Es ist langsam, Batch-orientiert und sehr komplex. Spark hingegen ist schnell und flexibel; es kann sowohl für Batch-orientierte als auch für iterative oder Streaming-Analysen genutzt werden. Letzteres macht Spark insbesondere für Echtzeitanalysen interessant. "Sparks flexible Nutzungsbreite bedeutet, dass bestehende Big-Data-Anwendungen schneller und differenzierter betrieben werden können", sagt Xin über die besonderen Vorteile von Spark.

Hohes Entwicklungstempo

Inzwischen genießt Sparks auch die Unterstützung vieler bedeutender IT-Unternehmen, wie IBM, Hortonworks, Cloudera, Pivotal und dem R-Spezialisten Revolution Analytics, der unlängst von Microsoft akquiriert wurde. Entsprechend groß ist das Entwicklungstempo. Am 13. März kam Spark 1.3 auf den Markt, das sich gegenüber dem Vorgänger vor allem durch eine schnellere Datenauswertung auszeichnet. Kernstück ist das neue DataFrames API, das vergleichbar ist mit den Data-Frames in R und Python(Pandas). Das neue API erlaubt eine schnellere Analyse von strukturierten Daten und vereinfacht die Spark-Nutzung für alle, die es gewohnt sind, mit einer Single-Maschine zu arbeiten. Für Juni ist dann bereits Spark 1.4 angekündigt, das vor allem ein R-Interface bieten wird. "Damit unterstützt Spark dann Scala, Python, Java und Rm also alle vier dominierenden Big-Data-Sprachen", freut sich Matei Zaharia, CTO bei Databricks.

Komplementäre Eigenschaften

Die meisten auf Hadoop ausgerichteten Anbieter sehen keine nachteilige Konkurrenz in Spark, sondern erwarten eine sich ergänzende Aufgabenverteilung. "Hadoop ist allen anderen Data-Warehouse-Lösungen weit überlegen; es gibt nichts, das bei der Offline-Analyse von Big Data an Hadoop heranreicht", meint beispielsweise Tomer Shiran, Vice President bei MapR. Und Patrick McFadin von DataStax fasst das so zusammen: "Hadoop ist der Standard, wenn es um Data-Warehouse und Offline-Datenanalysen geht, doch Spark mit Cassandra ist eine bessere Alternative für alle Anwendungen, bei denen die Geschwindigkeit eine große Rolle spielt - beispielsweise Echtzeitanalysen."

Hinzu kommt, dass es auch bei Hadoop eine Reihe an bedeutenden Weiterentwicklungen gibt. Die jüngsten Verbesserungen kommen ausgerechnet von der Berkeley University, wo Spark seine Geburtsstunde hatte. Dort wurde das neue File-System Tachyon für Hadoop entwickelt. Es ist 300-mal schneller als HDFS und gleichzeitig vollständig rückwärtskompatibel.