Tipps und Tricks

10 Dinge, die Sie über Big Data wissen sollten

Die besten Erweiterungen für Big Data - mehr Daten schneller verarbeiten

Die meisten Unternehmen nutzen für die Verarbeitung von Big Data, vor allem Hadoop-Distributionen oder Cloud-Lösungen. Die meisten Tools und Distributionen gehören zum Apache-Projekt. Es lohnt sich daher durchaus, einen Blick auf Apache-Projekte zu werfen und sich verschiedene Tools anzusehen. Bekannte sind zum Beispiel:

Apache Ambari - Verwaltungslösung für Hadoop

Apache Sqoop - Lösung für das Transportieren von Daten zwischen Hadoop und anderen Datenspeichern

Apache Pig - Plattform, um parallele Abfragen durchführen zu können, während die Verarbeitung der Daten noch läuft

Apache ZooKeeper - Tool zum Synchronisieren und Verwalten von Hadoop-Clustern

Apache Mahout - Bessere Verwaltung der Daten in Hadoop

Apache Lucene /Apache Solr - Tools für das Indexieren von Text in Big-Data-Lösungen

Apache Avro - Data-Serialization-System für Big-Data-Lösungen

Oozie - Workflows in Big-Data-Umgebungen erstellen

GIS Tools - Tools für die bessere Verwaltung von geografischen Daten in Big Data

Apache Flume - Logfiles in Hadoop verwalten, aggregieren und verarbeiten. Auch die Sammlung ist möglich

Apache Spark - Daten schneller verarbeiten

Die Kosten bei Big-Data-Clustern in Cloud beachten

Cloud-Lösungen bei Microsoft Azure, Google Cloud Platform oder Amazon Web Services werden oft nach Datenvolumen berechnet. Entwickler sollten in die Abfragen und die Big-Data-Anwendungen daher auch das Herunterfahren und Ausschalten von Big-Data-Umgebungen einbeziehen. Bereits bei der Entwicklung können auf diesem Weg sehr hohe Kosten entstehen.

Der Autor dieses Artikels hat zum Beispiel nur zu Testzwecken bei Amazon Web Services einen Hadoop-Cluster erstellt, ohne Daten und großartige Berechnungen. Fällig waren dafür recht schnell 400 Euro. Das zeigt, dass bei Big-Data-Projekten auch sehr schnell große Kosten entstehen können, die Unternehmen nicht außer Acht lassen und Entwickler berücksichtigen müssen. Aus diesem Grund macht auch die Offline-Entwicklung von Big-Data-Lösungen Sinn, ebenso erst bei Inbetriebnahme die Übertragung in die Cloud.