Tipps und Tricks
10 Dinge, die Sie über Big Data wissen sollten
Die besten Erweiterungen für Big Data - mehr Daten schneller verarbeiten
Die meisten Unternehmen nutzen für die Verarbeitung von Big Data, vor allem Hadoop-Distributionen oder Cloud-Lösungen. Die meisten Tools und Distributionen gehören zum Apache-Projekt. Es lohnt sich daher durchaus, einen Blick auf Apache-Projekte zu werfen und sich verschiedene Tools anzusehen. Bekannte sind zum Beispiel:
• Apache Ambari - Verwaltungslösung für Hadoop
• Apache Sqoop - Lösung für das Transportieren von Daten zwischen Hadoop und anderen Datenspeichern
• Apache Pig - Plattform, um parallele Abfragen durchführen zu können, während die Verarbeitung der Daten noch läuft
• Apache ZooKeeper - Tool zum Synchronisieren und Verwalten von Hadoop-Clustern
• Apache Mahout - Bessere Verwaltung der Daten in Hadoop
• Apache Lucene /Apache Solr - Tools für das Indexieren von Text in Big-Data-Lösungen
• Apache Avro - Data-Serialization-System für Big-Data-Lösungen
• Oozie - Workflows in Big-Data-Umgebungen erstellen
• GIS Tools - Tools für die bessere Verwaltung von geografischen Daten in Big Data
• Apache Flume - Logfiles in Hadoop verwalten, aggregieren und verarbeiten. Auch die Sammlung ist möglich
• Apache Spark - Daten schneller verarbeiten
Die Kosten bei Big-Data-Clustern in Cloud beachten
Cloud-Lösungen bei Microsoft Azure, Google Cloud Platform oder Amazon Web Services werden oft nach Datenvolumen berechnet. Entwickler sollten in die Abfragen und die Big-Data-Anwendungen daher auch das Herunterfahren und Ausschalten von Big-Data-Umgebungen einbeziehen. Bereits bei der Entwicklung können auf diesem Weg sehr hohe Kosten entstehen.
Der Autor dieses Artikels hat zum Beispiel nur zu Testzwecken bei Amazon Web Services einen Hadoop-Cluster erstellt, ohne Daten und großartige Berechnungen. Fällig waren dafür recht schnell 400 Euro. Das zeigt, dass bei Big-Data-Projekten auch sehr schnell große Kosten entstehen können, die Unternehmen nicht außer Acht lassen und Entwickler berücksichtigen müssen. Aus diesem Grund macht auch die Offline-Entwicklung von Big-Data-Lösungen Sinn, ebenso erst bei Inbetriebnahme die Übertragung in die Cloud.