Distributionen für Unternehmen

Alles, was Sie über Hadoop wissen müssen

Hadoop im Reinformat oder Distribution

Anwender haben drei Optionen, um Hadoop zu nutzen. Erstens können sie auf die Basisversion von Apache Hadoop zurückgreifen. Diese ist als Open Source kostenlos verfügbar, setzt jedoch beträchtliches Know-how beim Nutzer voraus. Das betrifft insbesondere das Aufsetzen und Verwalten eines Hadoop-Server-Clusters. Zwar stehen etliche Tools zur Verfügung, die im Rahmen anderer Apache-Hadoop-Projekte entwickelt werden. Doch müssen diese quasi von Hand implementiert und aufeinander abgestimmt werden.

Nutzer haben die Wahl die zwischen der reinen Apache-Hadoop-Software, von Herstellern zusammengestellten Distributionen und Big-Data-Suites, die auf Hadoop aufsetzen oder die Software zumindest unterstützen.
Nutzer haben die Wahl die zwischen der reinen Apache-Hadoop-Software, von Herstellern zusammengestellten Distributionen und Big-Data-Suites, die auf Hadoop aufsetzen oder die Software zumindest unterstützen.
Foto: Kai Wähner / Tibco

Für Unternehmen einfacher zu handhaben sind Hadoop-Distributionen, also Pakete, die aus der Basissoftware, Tools und teilweise herstellerspezifischen Erweiterungen bestehen. Anbieter solcher Distributionen sind beispielsweise Amazon, Cloudera, EMC, Hortonworks, IBM, MapR und Microsoft. Ein Vorteil für Unternehmenskunden besteht darin, dass sie vom Hersteller ein integriertes Softwarepaket erhalten, das sich einfacher konfigurieren lässt als die Grundversion von Hadoop. Hinzu kommt die technische Unterstützung durch den Hersteller.

Eine Stärke von Hadoop ist, dass viele ergänzende Tools zur Verfügung stehen. Für weniger versierte Anwender ist das allerdings eher verwirrend. Sie sind mit Distributionen besser bedient.
Eine Stärke von Hadoop ist, dass viele ergänzende Tools zur Verfügung stehen. Für weniger versierte Anwender ist das allerdings eher verwirrend. Sie sind mit Distributionen besser bedient.
Foto: MapR

Die dritte Option sind Big-Data-Suites. Sie setzten teilweise auf Hadoop auf, können jedoch auch andere Frameworks nutzen. Im Vergleich zu Hadoop-Distributionen bieten Suiten unter anderem Tools für die Datenmodellierung, Visualisierung, Echtzeitanalyse und ETL-Prozesse (Extract, Transfer, Load). Anbieter solcher Big-Data-Suites sind Teradata, Tableau Software und Talend. Aber auch etablierte Unternehmen aus dem Datenbank- und Business-Intelligence-Umfeld wie IBM, Oracle und SAP haben entsprechende Produkte entwickelt.

Hadoop-Einsatzgebiete

Die klassischen Einsatzgebiete von Hadoop entsprechen denen, die generell im Big-Data-Umfeld anzutreffen sind. Immer wichtiger werden beispielsweise das Auswerten des Nutzerverhaltens auf Social-Media-Plattformen und die Click-Stream-Analyse der Aktivitäten von Usern auf Websites. Aufgrund dieser Daten können Unternehmen frühzeitig Trends erkennen oder feststellen, welche Nutzergruppen sich für bestimmte Angebote, Produkte oder Themen interessieren.

Ebenfalls für Unternehmen aus der Internet- und Online-Branche sind Auswertungen interessant, wie zum Beispiel Inhalte (Content) von Adressaten aufgenommen und genutzt werden. Solche Untersuchungen lassen sich mit Big-Data-Auswertungen bis auf die Ebene der benutzten Endgeräte (Smartphones, Tablets), Content-Formate und Nutzergruppen herunterbrechen. Wenn vorhanden, lassen sich demografische und weitere personenbezogene Informationen in die Analysen einbinden.

Ein weiteres Anwendungsfeld ist die Auswertung von Informationen, die Maschinen und Netzsysteme bereitstellen. Das viel zitierte "Internet der Dinge" wird in kommenden Jahren maßgeblich zum Anstieg der Datenmengen beitragen. Sensoren, Mess- und Steuerungssysteme, RFID-Chips und Near-Field-Communication-Bausteine (NFC) liefern Daten in unterschiedlichen Formaten, die auf vielfältige Weise genutzt werden können, etwa um die Transportwege und Vorratshaltung von Waren zu optimieren oder in der Verkehrsplanung. Service-Provider wiederum können durch Auswertung der Auslastung von Mobilfunk-, DSL- und Kabel-TV-Netzen ihre Infrastruktur besser auf das Nutzerverhalten abstimmen.

Weitere Einsatzfelder sind die Finanzanalyse, die Risikobewertung, der Schutz vor Cyber-Angriffen durch die Auswertung von Datenverkehrsmustern und komplexe Forschungsprojekte, etwa in der Klimaforschung. Dies ist nur ein kleiner Ausschnitt der potenziellen Anwendungsgebiete von Big Data und damit auch Hadoop.