Verwendung, Reife, Trends

Analyse: Was Hadoop Anwendern bringt

15.10.2012 von Thomas Pelkmann
Mit Hadoop sollen sich große und unstrukturierte Datenmengen einfacher verwalten lassen. Die Open-Source-Lösung schneidet bei einem Big-Data-Benchmark von Ventana Research auch gut ab. Einsatz und Nutzen sind allerdings noch umstritten.

Wer über Nacht seine BI-Systeme anwirft, um die täglich einströmenden Datenmengen im Tera- und Petabyte-Bereich zu analysieren, hat schon verloren. Das ist - sinngemäß - die Kernaussage im Executive Summary des Benchmarks "Hadoop and Information Management" des US-amerikanischen Marktforschers Ventana Research.

Heute gehe es darum, riesige Datenmengen rasend schnell zu verarbeiten, also zu erfassen, zu speichern, zu analysieren und für unternehmenskritische Entscheidungen heranzuziehen.

Die aus dem Open-Source-Bereich stammende Parallelverarbeitung Hadoop ist prinzipiell in der Lage, mit solch riesigen Datenmengen schnell umzugehen, und erfüllt damit die Bedürfnisse vieler Unternehmen nach genau dieser Technik. Allerdings, konstatiert der Ventana-Report, ist diese Technik noch viel zu unbekannt, um schon flächendeckend produktiv arbeiten zu können. Das Marktforschungsunternehmen aus den USA hat die Benchmark-Studie mit dem Ziel verfasst, einen Überblick über die Verwendung, die Reife sowie über Trends und Best Practices von Hadoop in der richtigen Welt zu vermitteln.

Dabei schneidet Hadoop durchgehend gut ab: In einer Evaluation von 13 Anwendungsgebieten ist es anderen Technologien überlegen, so Ventana Research. Wer Hadoop verwendet, entwickelt leichter neue Produkte und Services, spart eher Kosten, kann schnellere Analysen durchführen, nutzt IT-Ressourcen effizienter und verkürzt die Zeit für das Sammeln und Verarbeiten von Daten dramatisch.

Hadoop-Anwender gehen dabei mit sehr viel mehr Daten um als die Nicht-Nutzer: Ein Drittel der User speichert und analysiert mehr als 100 Terabyte Rohdaten, während das bei der anderen Gruppe weniger als 20 Prozent tun. Fast die Hälfte der Hadoop-Nutzer (48 Prozent) verarbeitet dabei mehr als 100 Gigabyte pro Tag, von den Nicht-Nutzern tun das nur 22 Prozent.

Hadoop macht andere Datenbanken nicht überflüssig

So bestechend die Vorteile von Hadoop auch scheinen: Es gibt Diskussionen darüber, ob die Einführung von Hadoop andere Ansätze der Datenverarbeitung hinfällig machen würde. Die Umfrage ergab aber ein anderes Bild: Nur 37 Prozent ersetzen mit Hadoop tatsächlich andere Systeme, während zwei Drittel mit ihnen weiterarbeiten.

Tatsächlich, heißt es in der Studie, suchen viele nach funktionalen Ergänzungen etwa für die Verarbeitung unstrukturierter Daten zum Beispiel aus sozialen Netzwerken oder maschinengenerierten Logfiles. Hadoop-Anwender analysieren solche Daten signifikant häufiger als ihre Nicht-Hadoop-Kollegen. "In zwei Dritteln der untersuchten Fälle haben wir Leute gefunden, die mit Hadoop fortgeschrittene Analysen machen, zu denen sie vorher nicht in der Lage waren", sagt dazu der Autor des Berichts, David Menninger.

Hadoop verarbeitet schnell große Datenmengen

Die attraktivste Funktion von Hadoop ist dem Bericht zufolge die Fähigkeit, große Datenmengen schnell zu verarbeiten. Das entspricht den wichtigsten Evaluationskriterien: Skalierbarkeit und Performance. Die Nicht-Anwender haben jedoch andere Prioritäten: Für sie stehen Sicherheit und Verschlüsselung an erster Stelle. Auch die Bewertung der Open-Source-Herkunft fällt zwischen Nutzern und Nicht-Nutzern unterschiedlich aus: 60 Prozent der Hadoop-Anwender halten eine große OSS-Community für wichtig, aber nur 16 Prozent der anderen.

Hadoop ist eine relativ junge Technik, die sich vor allem an Entwickler wendet. Entsprechend, schreibt Ventana Research, ist der Bekanntheitsgrad in Business-Kreisen noch eher gering. Mit Hadoop gearbeitet wird vor allen in den Operations-Abteilungen der Unternehmen sowie - bereits seltener - bei Finance, Administration, Sales und Marketing, Kundendienst sowie Personalwesen. Unterschiede gibt es auch bei der Firmengröße: Kleine Unternehmen arbeiten seltener mit Hadoop.

Auch wenn die Verbreitung in den Lines-of-Business nicht so groß ist: Die Zufriedenheit mit Hadoop ist dort größer (44 Prozent) als in den IT-Abteilungen (30 Prozent). Das ist, bei näherem Hinsehen, kein Wunder, denn die Probleme betreffen einfach die IT, nicht das Business. Integration von Hadoop mit anderen IT-Infrastrukturkomponenten, Datenarchivierung - logisch, dass die, die für die Funktionsfähigkeit von Hadoop zuständig sind, eher mit den Unpässlichkeiten zu tun haben als die reinen Anwender.

Offenbar sind aber insgesamt die Qualifikationen für die produktive Arbeit mit "Big Data" in den Unternehmen eher unterentwickelt. Das gilt sowohl für die Hadoop-User als auch für die Nicht-Anwender. Vier Fünftel der Befragten bezeichnen diesen Missstand als Haupthindernis für Großdatenprojekte. Unternehmen, so der naheliegende Schluss, die solche Projekte initiieren wollen, sollten sich also um die passenden Mitarbeiter und/oder um geeignete Weiterbildungsmaßnahmen kümmern.

Was zu tun ist bei der Hadoop-Einführung

Immerhin: Die Teilnehmer der Ventana-Umfrage äußern "signifikantes Interesse" an Hadoop und anderen Technologien für die Verarbeitung großer Datenmengen. Mehr als die Hälfte favorisiert dabei Hadoop, allerdings eher zur Unterstützung oder Ergänzung bestehender Systeme als zu deren Ersatz.

Wer ein Big-Data-Projekt konkret angehen möchte, prüfe zunächst den Reifegrad seines Unternehmens, rät Ventana. Bei dem Benchmark schnitten viele bereits sehr gut ab: 58 Prozent der Firmen finden sich im Mittelfeld wieder, 24 Prozent auf dem höchsten Reifegrad, aber nur 19 auf dem niedrigsten. Das, so Ventana, deutet darauf hin, dass die Unternehmen diese Projekte sehr ernst angehen.

Zur Vorbereitung des Projekts gehören zudem die richtigen Auswahlkriterien: Skalierbarkeit, Performance, Community - das sind eher wichtige Merkmale für Hadoop-Freunde, die mehr Wert auf das schnelle Laden von Daten legen, während Anwender anderer Systeme eher auf Abfragegeschwindigkeit setzen.

Für das Projekt ist es wichtig zu verstehen, schreibt Ventana, dass Hadoop zusätzlich zuanderen Technologien eingesetzt werden kann. Es gehe meistens darum, neue Kapazitäten zu entdecken, nicht, die bestehenden zu ersetzen. Insofern seien bereits getätigte Investitionen mit Hadoop nicht unbedingt hinfällig.

Geht es aber doch um den Austausch von Systemen, dann oft deshalb, weil Hadoop sich sehr flexibel bei Speichern und Analysieren großer Mengen strukturierter und unstrukturierter Daten zeigt. Am stärksten betroffen von diesen Fähigkeiten sind relationale Datenbanken (71 Prozent), Speicher und Archivierung (75 Prozent) sowie Textanalysen (43 Prozent).

Mehr Ratschläge zum Umgang mit Big Data finden Sie in einer frei erhältlichen Zusammenfassung der Studie.

Dieser Artikel basiert auf einem Beitrag unserer Schwesterpublikation CIO. (cvi)