Framework für Big Data

Zehn Dinge, die Sie über Hadoop wissen sollten

06.07.2015 von Thomas Joos

Geht es um Big Data, kommen Unternehmen kaum um die Open-Source-Lösung Hadoop herum. In diesem Beitrag zeigen wir Ihnen zehn Dinge, die Sie über Hadoop wissen sollten, wenn Sie die Lösung bereits einsetzen oder einsetzen wollen.

Hadoop steht über die Apache-Lizenz komplett zur Verfügung. Es sind keine zusätzlichen Lizenzen notwendig. Als Basisbetriebssystem bietet sich Linux an, das in den meisten Distributionen ebenfalls kostenlos zur Verfügung steht.

Wollen Unternehmen zusätzliche Dienste, Support und weitere Funktionen nutzen oder in Anspruch nehmen, müssen sie natürlich die Erweiterungen und den Support bezahlen.

Hadoop - Framework für Big Data

Hadoop ist ein Framework auf Basis von Java und dem MapReduce-Algorithmus von Google. Durch die Apache-Lizenz steht Hadoop grundsätzlich kostenlos zur Verfügung. Aufgabe von Hadoop ist es, sehr große Datenmengen effizient in Clustern zu verarbeiten und zu berechnen. Für die Verarbeitung müssen Administratoren und Entwickler zusammenarbeiten, damit der Cluster optimal funktioniert. Der Dienst kann installiert oder über die Cloud betrieben werden.

Daraus besteht Hadoop

Hadoop besteht aus einem Cluster. Ein Knoten übernimmt die Steuerung (NameNode), die anderen die Berechnungen (DataNodes) im Cluster. Grundlage ist "Hadoop Common". Dieser stellt die Schnittstelle für alle anderen Bestandteile dar. MapReduce ist die wichtigste Funktion zur Verarbeitung der Daten. Die Technik teilt große Datenmengen in kleinere Teile auf, verteilt diese auf die Knoten im Hadoop-Cluster und führt sie nach der Berechnung wieder zusammen. Basis ist HDFS oder GPFS, das die Speicherung übernimmt. MapReduce sorgt für die Berechnung der Daten zwischen den Cluster-Knoten. Entwickelt wurde MapReduce von Google.

Lokaler Betrieb oder Cloud - Hadoop in der Azure-Cloud

Um Hadoop zu betreiben, benötigen Unternehmen einen Cluster, der die verschiedenen Knoten zur Berechnung enthält. Einfacher ist aber der Betrieb in der Cloud. Hier bietet Microsoft zum Beispiel mit HDInsight einen Cloud-Dienst in Azure an, mit dem Sie einen vollwertigen Hadoop-Cluster in der Cloud betreiben können. Im Gegensatz zu vielen anderen Microsoft-Lösungen hat der Softwarekonzern aber keine eigenen Standards integriert, sondern sich komplett an Hortonworks Data Platform (HDP) gehalten.

Ersetzt Hadoop Business Intelligence im Unternehmen?

Big-Data-Lösungen wie Hadoop ergänzen Business Intelligence (BI). Im Gegensatz zu BI-Lösungen benötigen Big-Data-Lösungen keine perfekt zusammengestellten Daten, sondern können aus einer Vielzahl verschiedener Datenquellen mit komplett unterschiedlichen Daten effektive Berichte und Analysen ausstellen. Ein BI-System kann zum Beispiel exakt darstellen, welches Produkt in unterschiedlichen Ländern zu welchem Prozentteil, Umsatz und zu welcher Marge verkauft wurde. Diese Informationen sind auch wichtig. Big-Data-Lösungen können wiederum erfassen, bei welchem Kundenkreis das Produkt besonders gut ankommt, welche Zusammenhänge es mit anderen Produkten gibt und ob der Transport eines Produktes sowie dessen Lieferdauer auf die Verkaufszahlen Auswirkungen hatten. Auch ein Zusammenhang zwischen Defekten und Verkaufszahlen der nächsten Generation lässt sich erfassen.

Bildergalerie:

Hadoop – Framework für Big Data
Haddop ist ein komplexes Framework, welches große Datenmengen auf zahlreiche Clusterknoten verteilen und berechnen kann.

Daraus besteht Hadoop
Hadoop besteht aus einem Cluster. Ein Knoten übernimmt die Steuerung (NameNode), die anderen die Berechnungen (DataNodes) im Cluster.

Lokaler Betrieb oder Cloud
Hadoop können Sie auch in der Cloud bei Microsoft Azure betreiben.

Ersetzt Hadoop Business Intelligence im Unternehmen?
Big Data-Lösungen wie Hadoop ergänzen Business Intelligence. Im Gegensatz zu BI-Lösungen, benötigen Big-Data-Lösungen keine perfekt zusammen gestellten Daten.

IBM General Parallel File System im Big Data-Einsatz
Verschiedene Clusterknoten können auf eine gemeinsame Datenbasis zugreifen, wenn GPFS im Einsatz ist. Unternehmen müssen beim Einsatz von Hadoop also nicht gezwungenermaßen auch auf HDFS setzen.

Hadoop in Amazon Web Services, Google Cloud Platform und Rackspace
Hadoop können Sie auch in Amazon Web Services betreiben.

Die wichtigsten Hadoop-Distributionen
Hortonworks Data Platform gehört zu den besonders bekannten Hadoop-Distributionen.

Hadoop erweitern – YARN und Co.
Auf dem Markt finden Sie zahlreiche Erweiterungen, mit denen sich der Funktionsumfang von Hadoop vergrößern lässt.

Sicherheit und Überwachung im Hadoop-Cluster
Apache Knox erhöht beispielsweise die Sicherheit im Hadoop-Cluster. Für die Überwachung der Hadoop-Infrastruktur eignet sich Apache Chukwa.

Oracle, IBM und Co. – Hadoop kommerziell erweitern
Oracle bietet zum mit Big Data SQL die Möglichkeit über SQL-Abfragen auf Big Data-Daten zuzugreifen. IBM InfoSphere BigInsights erweitert Hadoop um zahlreiche Möglichkeiten.

IBM General Parallel File System im Big-Data-Einsatz

Das IBM General Parallel File System (GPFS) ist ein spezielles Dateisystem von IBM, das auch in Hadoop-Clustern zum Einsatz kommt. Diese verwenden oft das Hadoop File System (HDFS), können aber auch GPFS nutzen. Die beiden Dateisystem können große Datenmengen enorm schnell verarbeiten und sind daher anderen Dateisystemen überlegen. Vorteil von GPFS ist zum Beispiel der schnelle Zugriff auf sehr große Dateien. Die Daten werden auf hunderte oder tausende Clusterknoten gespiegelt und verteilt, bleiben aber dennoch zugreifbar.

GPFS kann Daten auch intelligent speichern. Wenn Unternehmen verschiedene Technologien einsetzen, zum Beispiel SSD, SAN, NAS und DAS, kann GPFS häufig verwendete Daten in schnellen Bereichen sparen und alte Dateien auf langsamere Datenträger bringen. Das ist bei der Verarbeitung mit Hadoop besonders wichtig.

Hadoop in Amazon Web Services, Google Cloud Platform und Rackspace

Neben Microsoft Azure HDInsight lassen sich Hadoop-Cluster auch in Amazon Web Services (AWS) betreiben. Nutzen Sie AWS, dann werden die Daten des Hadoop-Clusters im AWS-Speicherdienst S3 abgelegt. Das Unternehmen Rackspace bietet ebenfalls eine Cloud-Lösung an, die auf Apache Hadoop und Hortonworks Data Platform aufbaut. Hadoop kann aber auch auf der Google Cloud Platform betrieben werden.

Die wichtigsten Hadoop-Distributionen

Neben den Möglichkeiten, Hadoop in Microsoft Azure HDInsight oder Amazon Web Services zu betreiben, können Sie natürlich auch auf eigene Installationen setzen. Besonders bekannt in diesem Zusammenhang sind die folgenden Anbieter:

• Hortonworks Data Platform

• Cloudera

• MapR

Hadoop erweitern - YARN und Co.

Auf dem Markt finden Sie zahlreiche Erweiterungen, mit denen sich der Funktionsumfang von Hadoop vergrößern lässt. Beispiele dafür sind Hadoop YARN und Apache Hive. Entwickler können mit Hive direkt die Daten abfragen, die in HDFS gespeichert sind.

Auch Apache Spark spielt in diesem Zusammenhang eine wichtige Rolle. Bei Yarn handelt es sich um eine Cluster-Verwaltungs-Technologie für Hadoop. Viele Big-Data-Profis bezeichnen YARN auch als MapReduce 2.

Mit Apache ZooKeeper können Sie die Hadoop-Infrastruktur zentral steuern. Apache HCatalog ist eine Verwaltungslösung für verschiedene Prozessverarbeitungs-Tools.

Sicherheit und Überwachung im Hadoop-Cluster - Apache Knox und Chukwa

Bei Apache Knox handelt es sich um ein RES- API-Gateway für Hadoop-Cluster. Die Hadoop-Erweiterung erhöht das Sicherheitsmodell von Hadoop und integriert Authentifizierungen und Benutzerrollen.

Um die Hadoop-Infrastruktur zu überwachen, setzen Sie am besten auf Apache Chukwa. Die Lösung überwacht HDFS-Datenzugriffe und das MapReduce-Framework.

Oracle, IBM und Co. - Hadoop kommerziell erweitern

Oracle bietet zudem mit Big Data SQL die Möglichkeit, über SQL-Abfragen auf Big-Data-Daten zuzugreifen. IBM InfoSphere BigInsights erweitert Hadoop um zahlreiche Möglichkeiten. Die Daten lassen sich besser verwalten und bieten mehr Möglichkeiten zur Abfrage. (mje)