Wir haben im Folgenden einige Aspekte zusammengefasst, die Verantwortliche berücksichtigen sollten, wenn das Thema Big Data im Unternehmen angegangen werden soll.
Tipps für Big-Data-Projekte
Unternehmen sollten sich im Klaren sein, welche Daten sie erfassen und welche Ergebnisse sie erzielen wollen. Für Big Data sollten möglichst viele bis alle Daten erfasst werden können. Im Gegensatz zu BI-Lösungen sollten sich Verantwortliche nicht in Nebensächlichkeiten verstricken, sondern immer das große Ganze sehen.
Sehr wichtig, vor allem bei der Verarbeitung von Daten aus sozialen Netzwerken, ist der Datenschutz. Hier sollten Entwickler und Verantwortliche sehr sensibel vorgehen, aber nicht gleich ganze Datensammlungen ausklammern. Gesammelt und verarbeitet sollten aber nur Daten werden, die den Zielen des Big-Data-Projektes entsprechen.
Die Hardware und die Big-Data-Lösung sollten nicht nur erste Daten zuverlässig verarbeiten können, sondern als skalierbare Lösung mit den Daten mitwachsen können. Am besten geeignet sind dazu sicher Cloud-Lösungen bekannter Hersteller wie Microsoft, Amazon oder Google.
Benutzerschnittstelle berücksichtigen: Wichtig ist, dass die Anwender im Unternehmen etwas mit den Daten anfangen und diese selbstständig auslesen und analysieren können. Die Daten sollten von überall zugreifbar sein, durchaus auch mobil.
Big-Data-Leitfaden
Der Branchenverband BITKOM bietet eine kostenlose PDF-Datei, die als Leitfaden für Big-Data-Projekte verwendet werden kann. Unternehmen sollten sich den Leitfaden ansehen, bevor sie sich entschließen, ein erstes Big- Data-Projekt in Angriff zu nehmen.
Big Data mit Microsoft Azure
Um Big Data im Unternehmen einzusetzen, können Sie mit HDInsight einen Hadoop-Cluster in Microsoft Azure erstellen. Auf diesen Cluster können Sie mit herkömmlichen Microsoft-Mitteln wie C#, PowerShell oder Visual Studio zugreifen. Auch mit der PowerShell können Sie den Dienst steuern und sogar MapReduce-Abfragen durchführen.
Mit dem Azure SDK und den Azure Tools lassen sich HDInsight-Cluster mit HDInsight Tools für Visual Studio steuern und Abfragen erstellen. Damit verwalten Sie nicht nur den Speicher, sondern erstellen auch Hive-Abfragen und überwachen Hive-Jobs.
Hadoop-Cloud-Lösung offline testen
Um sich mit Hadoop und Big Data zu beschäftigen, ist HDInsight der schnellste Weg. Microsoft stellt für Entwickler eine Offline-Testumgebung für HDInsight zur Verfügung. Mit der Umgebung bauen Sie schnell und einfach eine Offline-Umgebung auf, können für Big Data entwickeln und die Daten dann in die Cloud hochladen.
NoSQL-Datenbanken nutzen
Um Big-Data-Lösungen zu nutzen, benötigen Sie in den meisten Fällen eine NoSQL-Datenbank, zusätzlich zu vorhandenen Datenbanken. Diese NoSQL-Datenbanken dienen als Speicherpunkt und zur Verwaltung der-Big Data-Infrastruktur. Viele NoSQL-Datenbanken stehen kostenlos als Open Source zur Verfügung. Beispiele dafür sind MongoDB, Cassandra und HBase. HBase steht als Datenbank auch in Microsoft Azure für HDInsight zur Verfügung.
Apache Giraph nutzen
Wer sich ein wenig mit Big Data bereits auseinandergesetzt hat und Lösungen in diesem Bereich einsetzt, kann die Umgebung mit weiteren Möglichkeiten erweitern. Auch hier steht eine Vielzahl an Open-Source-Produkten zur Verfügung, zum Beispiel Apache Giraph. Giraph verbessert das Analysieren verbundener Strukturen und sozialer Graphen und bietet daher eine ideale Ergänzung, wenn in der Big-Data-Lösung auch Daten sozialer Netze analysiert werden müssen.
MapReduce-Aufträge einfacher erstellen
Um Daten in Big-Data-Lösungen wie Hadoop zu verarbeiten, benötigen Entwickler MapReduce-Aufträge. Diese lassen sich mit verschiedenen Werkzeugen übertragen, auch mit Windows Azure HDInsight über die PowerShell . Zusätzlich stellt Microsoft noch das kostenlose ebook "Introducing Microsoft Azure HDInsight" zur Verfügung. Dieses bietet einen idealen Einstieg in die Möglichkeiten von Big Data, HDInsight und Hadoop, auch für andere Plattformen.
Apache HBase und Storm gemeinsam nutzen
HBase kann als Datenbank für Big-Data-Lösungen genutzt werden. Diese Technologie baut auf Google Big Table auf und kann sehr große Datenmengen speichern. Storm gehört ebenfalls zu diesem Projekt und unter das Apache-Dach. Storm ist ein Echtzeitverarbeitungs-System, dass neben der Analyse von Daten auch die Ausgabe erlaubt, während die Berechnung im Hintergrund weiterläuft.
Die besten Erweiterungen für Big Data - mehr Daten schneller verarbeiten
Die meisten Unternehmen nutzen für die Verarbeitung von Big Data, vor allem Hadoop-Distributionen oder Cloud-Lösungen. Die meisten Tools und Distributionen gehören zum Apache-Projekt. Es lohnt sich daher durchaus, einen Blick auf Apache-Projekte zu werfen und sich verschiedene Tools anzusehen. Bekannte sind zum Beispiel:
• Apache Ambari - Verwaltungslösung für Hadoop
• Apache Sqoop - Lösung für das Transportieren von Daten zwischen Hadoop und anderen Datenspeichern
• Apache Pig - Plattform, um parallele Abfragen durchführen zu können, während die Verarbeitung der Daten noch läuft
• Apache ZooKeeper - Tool zum Synchronisieren und Verwalten von Hadoop-Clustern
• Apache Mahout - Bessere Verwaltung der Daten in Hadoop
• Apache Lucene /Apache Solr - Tools für das Indexieren von Text in Big-Data-Lösungen
• Apache Avro - Data-Serialization-System für Big-Data-Lösungen
• Oozie - Workflows in Big-Data-Umgebungen erstellen
• GIS Tools - Tools für die bessere Verwaltung von geografischen Daten in Big Data
• Apache Flume - Logfiles in Hadoop verwalten, aggregieren und verarbeiten. Auch die Sammlung ist möglich
• Apache Spark - Daten schneller verarbeiten
Die Kosten bei Big-Data-Clustern in Cloud beachten
Cloud-Lösungen bei Microsoft Azure, Google Cloud Platform oder Amazon Web Services werden oft nach Datenvolumen berechnet. Entwickler sollten in die Abfragen und die Big-Data-Anwendungen daher auch das Herunterfahren und Ausschalten von Big-Data-Umgebungen einbeziehen. Bereits bei der Entwicklung können auf diesem Weg sehr hohe Kosten entstehen.
Der Autor dieses Artikels hat zum Beispiel nur zu Testzwecken bei Amazon Web Services einen Hadoop-Cluster erstellt, ohne Daten und großartige Berechnungen. Fällig waren dafür recht schnell 400 Euro. Das zeigt, dass bei Big-Data-Projekten auch sehr schnell große Kosten entstehen können, die Unternehmen nicht außer Acht lassen und Entwickler berücksichtigen müssen. Aus diesem Grund macht auch die Offline-Entwicklung von Big-Data-Lösungen Sinn, ebenso erst bei Inbetriebnahme die Übertragung in die Cloud.