Tipps und Tricks

10 Dinge, die Sie über Big Data wissen sollten

NoSQL-Datenbanken nutzen

Um Big-Data-Lösungen zu nutzen, benötigen Sie in den meisten Fällen eine NoSQL-Datenbank, zusätzlich zu vorhandenen Datenbanken. Diese NoSQL-Datenbanken dienen als Speicherpunkt und zur Verwaltung der-Big Data-Infrastruktur. Viele NoSQL-Datenbanken stehen kostenlos als Open Source zur Verfügung. Beispiele dafür sind MongoDB, Cassandra und HBase. HBase steht als Datenbank auch in Microsoft Azure für HDInsight zur Verfügung.

Apache Giraph nutzen

Wer sich ein wenig mit Big Data bereits auseinandergesetzt hat und Lösungen in diesem Bereich einsetzt, kann die Umgebung mit weiteren Möglichkeiten erweitern. Auch hier steht eine Vielzahl an Open-Source-Produkten zur Verfügung, zum Beispiel Apache Giraph. Giraph verbessert das Analysieren verbundener Strukturen und sozialer Graphen und bietet daher eine ideale Ergänzung, wenn in der Big-Data-Lösung auch Daten sozialer Netze analysiert werden müssen.

MapReduce-Aufträge einfacher erstellen

Um Daten in Big-Data-Lösungen wie Hadoop zu verarbeiten, benötigen Entwickler MapReduce-Aufträge. Diese lassen sich mit verschiedenen Werkzeugen übertragen, auch mit Windows Azure HDInsight über die PowerShell . Zusätzlich stellt Microsoft noch das kostenlose ebook "Introducing Microsoft Azure HDInsight" zur Verfügung. Dieses bietet einen idealen Einstieg in die Möglichkeiten von Big Data, HDInsight und Hadoop, auch für andere Plattformen.

Apache HBase und Storm gemeinsam nutzen

HBase kann als Datenbank für Big-Data-Lösungen genutzt werden. Diese Technologie baut auf Google Big Table auf und kann sehr große Datenmengen speichern. Storm gehört ebenfalls zu diesem Projekt und unter das Apache-Dach. Storm ist ein Echtzeitverarbeitungs-System, dass neben der Analyse von Daten auch die Ausgabe erlaubt, während die Berechnung im Hintergrund weiterläuft.