Tipps und Tricks

10 Dinge, die Sie über Big Data wissen sollten

14.07.2015 von Thomas Joos

Wer das Thema Big Data im Unternehmen erfolgreich umsetzen will, sollte hinsichtlich Vorgehensweise und Tools einige Punkte beachten.

Wir haben im Folgenden einige Aspekte zusammengefasst, die Verantwortliche berücksichtigen sollten, wenn das Thema Big Data im Unternehmen angegangen werden soll.

Tipps für Big-Data-Projekte

Unternehmen sollten sich im Klaren sein, welche Daten sie erfassen und welche Ergebnisse sie erzielen wollen. Für Big Data sollten möglichst viele bis alle Daten erfasst werden können. Im Gegensatz zu BI-Lösungen sollten sich Verantwortliche nicht in Nebensächlichkeiten verstricken, sondern immer das große Ganze sehen.

Sehr wichtig, vor allem bei der Verarbeitung von Daten aus sozialen Netzwerken, ist der Datenschutz. Hier sollten Entwickler und Verantwortliche sehr sensibel vorgehen, aber nicht gleich ganze Datensammlungen ausklammern. Gesammelt und verarbeitet sollten aber nur Daten werden, die den Zielen des Big-Data-Projektes entsprechen.

Die Hardware und die Big-Data-Lösung sollten nicht nur erste Daten zuverlässig verarbeiten können, sondern als skalierbare Lösung mit den Daten mitwachsen können. Am besten geeignet sind dazu sicher Cloud-Lösungen bekannter Hersteller wie Microsoft, Amazon oder Google.

Benutzerschnittstelle berücksichtigen: Wichtig ist, dass die Anwender im Unternehmen etwas mit den Daten anfangen und diese selbstständig auslesen und analysieren können. Die Daten sollten von überall zugreifbar sein, durchaus auch mobil.

Big-Data-Leitfaden

Der Branchenverband BITKOM bietet eine kostenlose PDF-Datei, die als Leitfaden für Big-Data-Projekte verwendet werden kann. Unternehmen sollten sich den Leitfaden ansehen, bevor sie sich entschließen, ein erstes Big- Data-Projekt in Angriff zu nehmen.

Big Data mit Microsoft Azure

Um Big Data im Unternehmen einzusetzen, können Sie mit HDInsight einen Hadoop-Cluster in Microsoft Azure erstellen. Auf diesen Cluster können Sie mit herkömmlichen Microsoft-Mitteln wie C#, PowerShell oder Visual Studio zugreifen. Auch mit der PowerShell können Sie den Dienst steuern und sogar MapReduce-Abfragen durchführen.

Mit dem Azure SDK und den Azure Tools lassen sich HDInsight-Cluster mit HDInsight Tools für Visual Studio steuern und Abfragen erstellen. Damit verwalten Sie nicht nur den Speicher, sondern erstellen auch Hive-Abfragen und überwachen Hive-Jobs.

Hadoop-Cloud-Lösung offline testen

Um sich mit Hadoop und Big Data zu beschäftigen, ist HDInsight der schnellste Weg. Microsoft stellt für Entwickler eine Offline-Testumgebung für HDInsight zur Verfügung. Mit der Umgebung bauen Sie schnell und einfach eine Offline-Umgebung auf, können für Big Data entwickeln und die Daten dann in die Cloud hochladen.

Bildergalerie:

Big Data
Unternehmen sollten sich im Klaren sein, welche Daten sie erfassen und welche Ergebnisse sie erzielen wollen. Für Big Data sollten möglichst viele bis alle Daten erfasst werden können. Im Gegensatz zu BI-Lösungen sollten sich Verantwortliche nicht in Nebensächlichkeiten verstricken, sondern immer das große Ganze sehen.

Big Data
Der Branchenverband BITKOM bietet eine kostenlose PDF-Datei, die als Leitfaden für Big Data-Projekte verwendet werden kann.

Big Data
Mit Hadoop und HDInsight in Microsoft Azure können Sie Big Data auch in der Microsoft Cloud betreiben.

Big Data
Um sich mit Hadoop und Big Data zu beschäftigen, ist HDInsight der schnellste Weg. Microsoft stellt für Entwickler eine Offline-Testumgebung für HDInsight zur Verfügung.

Big Data
Um Big Data-Lösungen zu nutzen, benötigen Sie in den meisten Fällen eine NoSQL-Datenbank, zusätzlich zu vorhandenen Datenbanken, beispielsweise MongoDB.

Big Data
Wer sich etwas mit Big Data bereits auseinandergesetzt hat und Lösungen in diesem Bereich einsetzt, kann die Umgebung mit weiteren Möglichkeiten erweitern. Auch hier steht eine Vielzahl an Opensource-Pridukten zur Verfügung, zum Beispiel Apache Giraph.

Big Data
Microsoft noch das kostenlose ebook „Introducing Microsoft Azure HDInsight“ zur Verfügung. Diese bietet einen idealen Einstieg in die Möglichkeiten von Big Data, HDInsight und Hadoop, auch für andere Plattformen.

Big Data
HBase kann als Datenbank für Big Data-Lösungen genutzt werden. Diese Technologie baut auf Google Big Table auf und kann sehr große Datenmengen speichern.

Big Data
Die meisten Unternehmen nutzen für die Verarbeitung von Big Data vor allem Hadoop-Distributionen oder Cloud-Lösungen. Die meisten Tools und Distributionen gehören zum Apache Projekt. Apache Mahout erlaubt eine bessere Verwaltung der Daten in Hadoop.

Big Data
Cloudlösungen bei Microsoft Azure, Google Cloud Platform oder Amazon Web Services, werden oft nach Datenvolumen berechnet und Berechnungsdauer. Entwickler sollten in die Abfragen und die Big Data-Anwendungen daher auch das Herunterfahren und Ausschalten von Big Data-Umgebungen einbeziehen.

NoSQL-Datenbanken nutzen

Um Big-Data-Lösungen zu nutzen, benötigen Sie in den meisten Fällen eine NoSQL-Datenbank, zusätzlich zu vorhandenen Datenbanken. Diese NoSQL-Datenbanken dienen als Speicherpunkt und zur Verwaltung der-Big Data-Infrastruktur. Viele NoSQL-Datenbanken stehen kostenlos als Open Source zur Verfügung. Beispiele dafür sind MongoDB, Cassandra und HBase. HBase steht als Datenbank auch in Microsoft Azure für HDInsight zur Verfügung.

Apache Giraph nutzen

Wer sich ein wenig mit Big Data bereits auseinandergesetzt hat und Lösungen in diesem Bereich einsetzt, kann die Umgebung mit weiteren Möglichkeiten erweitern. Auch hier steht eine Vielzahl an Open-Source-Produkten zur Verfügung, zum Beispiel Apache Giraph. Giraph verbessert das Analysieren verbundener Strukturen und sozialer Graphen und bietet daher eine ideale Ergänzung, wenn in der Big-Data-Lösung auch Daten sozialer Netze analysiert werden müssen.

MapReduce-Aufträge einfacher erstellen

Um Daten in Big-Data-Lösungen wie Hadoop zu verarbeiten, benötigen Entwickler MapReduce-Aufträge. Diese lassen sich mit verschiedenen Werkzeugen übertragen, auch mit Windows Azure HDInsight über die PowerShell . Zusätzlich stellt Microsoft noch das kostenlose ebook "Introducing Microsoft Azure HDInsight" zur Verfügung. Dieses bietet einen idealen Einstieg in die Möglichkeiten von Big Data, HDInsight und Hadoop, auch für andere Plattformen.

Apache HBase und Storm gemeinsam nutzen

HBase kann als Datenbank für Big-Data-Lösungen genutzt werden. Diese Technologie baut auf Google Big Table auf und kann sehr große Datenmengen speichern. Storm gehört ebenfalls zu diesem Projekt und unter das Apache-Dach. Storm ist ein Echtzeitverarbeitungs-System, dass neben der Analyse von Daten auch die Ausgabe erlaubt, während die Berechnung im Hintergrund weiterläuft.

Die besten Erweiterungen für Big Data - mehr Daten schneller verarbeiten

Die meisten Unternehmen nutzen für die Verarbeitung von Big Data, vor allem Hadoop-Distributionen oder Cloud-Lösungen. Die meisten Tools und Distributionen gehören zum Apache-Projekt. Es lohnt sich daher durchaus, einen Blick auf Apache-Projekte zu werfen und sich verschiedene Tools anzusehen. Bekannte sind zum Beispiel:

• Apache Ambari - Verwaltungslösung für Hadoop

• Apache Sqoop - Lösung für das Transportieren von Daten zwischen Hadoop und anderen Datenspeichern

• Apache Pig - Plattform, um parallele Abfragen durchführen zu können, während die Verarbeitung der Daten noch läuft

• Apache ZooKeeper - Tool zum Synchronisieren und Verwalten von Hadoop-Clustern

• Apache Mahout - Bessere Verwaltung der Daten in Hadoop

• Apache Lucene /Apache Solr - Tools für das Indexieren von Text in Big-Data-Lösungen

• Apache Avro - Data-Serialization-System für Big-Data-Lösungen

• Oozie - Workflows in Big-Data-Umgebungen erstellen

• GIS Tools - Tools für die bessere Verwaltung von geografischen Daten in Big Data

• Apache Flume - Logfiles in Hadoop verwalten, aggregieren und verarbeiten. Auch die Sammlung ist möglich

• Apache Spark - Daten schneller verarbeiten

Die Kosten bei Big-Data-Clustern in Cloud beachten

Cloud-Lösungen bei Microsoft Azure, Google Cloud Platform oder Amazon Web Services werden oft nach Datenvolumen berechnet. Entwickler sollten in die Abfragen und die Big-Data-Anwendungen daher auch das Herunterfahren und Ausschalten von Big-Data-Umgebungen einbeziehen. Bereits bei der Entwicklung können auf diesem Weg sehr hohe Kosten entstehen.

Der Autor dieses Artikels hat zum Beispiel nur zu Testzwecken bei Amazon Web Services einen Hadoop-Cluster erstellt, ohne Daten und großartige Berechnungen. Fällig waren dafür recht schnell 400 Euro. Das zeigt, dass bei Big-Data-Projekten auch sehr schnell große Kosten entstehen können, die Unternehmen nicht außer Acht lassen und Entwickler berücksichtigen müssen. Aus diesem Grund macht auch die Offline-Entwicklung von Big-Data-Lösungen Sinn, ebenso erst bei Inbetriebnahme die Übertragung in die Cloud.