Verwendung, Reife, Trends

Analyse: Was Hadoop Anwendern bringt

Mit Hadoop sollen sich große und unstrukturierte Datenmengen einfacher verwalten lassen. Die Open-Source-Lösung schneidet bei einem Big-Data-Benchmark von Ventana Research auch gut ab. Einsatz und Nutzen sind allerdings noch umstritten.

Wer über Nacht seine BI-Systeme anwirft, um die täglich einströmenden Datenmengen im Tera- und Petabyte-Bereich zu analysieren, hat schon verloren. Das ist - sinngemäß - die Kernaussage im Executive Summary des Benchmarks "Hadoop and Information Management" des US-amerikanischen Marktforschers Ventana Research.

Heute gehe es darum, riesige Datenmengen rasend schnell zu verarbeiten, also zu erfassen, zu speichern, zu analysieren und für unternehmenskritische Entscheidungen heranzuziehen.

Die aus dem Open-Source-Bereich stammende Parallelverarbeitung Hadoop ist prinzipiell in der Lage, mit solch riesigen Datenmengen schnell umzugehen, und erfüllt damit die Bedürfnisse vieler Unternehmen nach genau dieser Technik. Allerdings, konstatiert der Ventana-Report, ist diese Technik noch viel zu unbekannt, um schon flächendeckend produktiv arbeiten zu können. Das Marktforschungsunternehmen aus den USA hat die Benchmark-Studie mit dem Ziel verfasst, einen Überblick über die Verwendung, die Reife sowie über Trends und Best Practices von Hadoop in der richtigen Welt zu vermitteln.

Dabei schneidet Hadoop durchgehend gut ab: In einer Evaluation von 13 Anwendungsgebieten ist es anderen Technologien überlegen, so Ventana Research. Wer Hadoop verwendet, entwickelt leichter neue Produkte und Services, spart eher Kosten, kann schnellere Analysen durchführen, nutzt IT-Ressourcen effizienter und verkürzt die Zeit für das Sammeln und Verarbeiten von Daten dramatisch.

Hadoop-Anwender gehen dabei mit sehr viel mehr Daten um als die Nicht-Nutzer: Ein Drittel der User speichert und analysiert mehr als 100 Terabyte Rohdaten, während das bei der anderen Gruppe weniger als 20 Prozent tun. Fast die Hälfte der Hadoop-Nutzer (48 Prozent) verarbeitet dabei mehr als 100 Gigabyte pro Tag, von den Nicht-Nutzern tun das nur 22 Prozent.

Hadoop macht andere Datenbanken nicht überflüssig

So bestechend die Vorteile von Hadoop auch scheinen: Es gibt Diskussionen darüber, ob die Einführung von Hadoop andere Ansätze der Datenverarbeitung hinfällig machen würde. Die Umfrage ergab aber ein anderes Bild: Nur 37 Prozent ersetzen mit Hadoop tatsächlich andere Systeme, während zwei Drittel mit ihnen weiterarbeiten.

Tatsächlich, heißt es in der Studie, suchen viele nach funktionalen Ergänzungen etwa für die Verarbeitung unstrukturierter Daten zum Beispiel aus sozialen Netzwerken oder maschinengenerierten Logfiles. Hadoop-Anwender analysieren solche Daten signifikant häufiger als ihre Nicht-Hadoop-Kollegen. "In zwei Dritteln der untersuchten Fälle haben wir Leute gefunden, die mit Hadoop fortgeschrittene Analysen machen, zu denen sie vorher nicht in der Lage waren", sagt dazu der Autor des Berichts, David Menninger.