Hadoop, NoSQL und Co. sicher betreiben

Big-Data-Umgebungen vor Ausfällen schützen

25.12.2015 von Radhika Krishnan
Big-Data- und Data-Analytics-Technolohgien haben sich in den Unternehmen etabliert. Doch auch diese "sensiblen" IT-Lösungen müssen Ausfällen widerstehen.

Neue Datenquellen, wie Clickstreams, Weblogs, Finanztransaktionen, Videos und Maschinen-/Sensordaten werden auf der NoSQL/Analyseebene gespeichert. Um aus diesen neuen Datenquellen Geschäftseinblicke zu gewinnen, müssen Unternehmen Big-Data-Tools, wie Hadoop oder NoSQL anwenden. Grund dafür ist, dass Big Data sich von gewöhnlichen Datenbankinformationen in Größe - denken Sie an die Zahl der E-Mails, Videos, Blogs und telemetrischen Daten, die von Organisationen jeden Tag erzeugt werden -, Format (strukturiert, halbstrukturiert und unstrukturiert) und Schnelligkeit (sofortige Verifizierung, Echtzeit-Analyse), in der sie erzeugt werden, unterscheiden.

Big Data
Big Data
Unternehmen sollten sich im Klaren sein, welche Daten sie erfassen und welche Ergebnisse sie erzielen wollen. Für Big Data sollten möglichst viele bis alle Daten erfasst werden können. Im Gegensatz zu BI-Lösungen sollten sich Verantwortliche nicht in Nebensächlichkeiten verstricken, sondern immer das große Ganze sehen.
Big Data
Der Branchenverband BITKOM bietet eine kostenlose PDF-Datei, die als Leitfaden für Big Data-Projekte verwendet werden kann.
Big Data
Mit Hadoop und HDInsight in Microsoft Azure können Sie Big Data auch in der Microsoft Cloud betreiben.
Big Data
Um sich mit Hadoop und Big Data zu beschäftigen, ist HDInsight der schnellste Weg. Microsoft stellt für Entwickler eine Offline-Testumgebung für HDInsight zur Verfügung.
Big Data
Um Big Data-Lösungen zu nutzen, benötigen Sie in den meisten Fällen eine NoSQL-Datenbank, zusätzlich zu vorhandenen Datenbanken, beispielsweise MongoDB.
Big Data
Wer sich etwas mit Big Data bereits auseinandergesetzt hat und Lösungen in diesem Bereich einsetzt, kann die Umgebung mit weiteren Möglichkeiten erweitern. Auch hier steht eine Vielzahl an Opensource-Pridukten zur Verfügung, zum Beispiel Apache Giraph.
Big Data
Microsoft noch das kostenlose ebook „Introducing Microsoft Azure HDInsight“ zur Verfügung. Diese bietet einen idealen Einstieg in die Möglichkeiten von Big Data, HDInsight und Hadoop, auch für andere Plattformen.
Big Data
HBase kann als Datenbank für Big Data-Lösungen genutzt werden. Diese Technologie baut auf Google Big Table auf und kann sehr große Datenmengen speichern.
Big Data
Die meisten Unternehmen nutzen für die Verarbeitung von Big Data vor allem Hadoop-Distributionen oder Cloud-Lösungen. Die meisten Tools und Distributionen gehören zum Apache Projekt. Apache Mahout erlaubt eine bessere Verwaltung der Daten in Hadoop.
Big Data
Cloudlösungen bei Microsoft Azure, Google Cloud Platform oder Amazon Web Services, werden oft nach Datenvolumen berechnet und Berechnungsdauer. Entwickler sollten in die Abfragen und die Big Data-Anwendungen daher auch das Herunterfahren und Ausschalten von Big Data-Umgebungen einbeziehen.

Der Wert von Daten

Unternehmen haben den Wert von Big Data entdeckt. Die sozialen Medien liefern Unternehmen wertvolle Einblicke in das Kundenverhalten. Die von Maschinen generierten Daten, wie Sensordaten, sind für moderne Unternehmen zu entscheidenden Faktoren geworden. Zum Beispiel liefern die von Flugzeugen generierten Sensordaten, die vom nächstgelegenen Tower weitergeleitet, gespeichert und analysiert werden, klare Sichtbarkeit des Flugzeugstatus und verbessern die Fähigkeit, um gegebenenfalls Korrekturmaßnahmen zu ergreifen.

IDC zufolge wird die durchschnittliche jährliche Wachstumsrate des Big-Data-Markts um 26,4 Prozent ansteigen, und bis 2017 41,5 Milliarden US-Dollar erreichen. Bis vor Kurzem unterhielten Unternehmen Speichersilos, was die Entscheidungsfindung beeinträchtigte.

Wenn Abteilungen Daten nicht miteinander teilen, bleiben Unterlagen, wie Kundenprofile, unvollständig. Um effektiv zu sein, verlangt Big Data darüber hinaus, dass Daten durchgehend zur Verfügung stehen und zugänglich sind und damit ihre Integrität gewahrt bleibt. Genau wie alle anderen geschäftskritischen Anwendungen im Datenzentrum erfordert Big Data eine Speicherarchitektur zur Wahrung der Geschäftskontinuität.

Geschäftskontinuität für Big-Data-Infrastruktur

Big-Data-Tools, wie Hadoops HDFS, bieten Ausfallsicherheit, denn sie ermöglichen Kunden den Aufbau von Drei-Wege-Spiegeln. Doch zusätzliche Kopien bedeuten auch zusätzliche Kosten. Und was passiert, wenn Daten zufällig oder böswillig gelöscht oder manipuliert wurden? Was passiert, wenn die gesamte Webseite zusammenbrechen sollte? Eine optimale Lösung ist ein Zwei-Wege-Spiegel unter Nutzung einer Infrastruktur, die größere Datenverfügbarkeit liefert.

Beispielsweise bietet eine Shared-Storage-Lösung mit RAID-Schutz nicht nur Redundanz, sondern verringert durch die Reduzierung der Serverzahl, die zur Verwaltung der Infrastruktur benötigt wird, auch das Risiko. In gemeinsame Speicher integrierter Datenschutz kann Risiken reduzieren, indem zu unterschiedlichen Zeitpunkten Snapshot-Kopien der Daten erstellt werden. Und schließlich ist die Geschäftskontinuität eines Unternehmens durch den Ausfall von Webseiten aufgrund von Naturkatastrophen, wie Erdbeben, Orkanen, Überschwemmung, Brand, usw. gefährdet.

Big-Data-Infrastrukturen sind nicht immun gegen diese Katastrophen. Die Nutzung der nativen Replikationstechnologie der Speicherlösung - nämlich, die Fähigkeit, Daten in Echtzeit von einer Seite zu einer anderen zu verschieben - spielt eine wichtige Rolle bei der Sicherstellung vollkommener Geschäftskontinuität.

Fazit

Unternehmen haben heute den Wert von Daten erkannt. Neben ausfallsicheren Server-Infrastrukturen ist ein auch ein Storage-System mit nativem Datenschutz, Replikation und Fernanalyse zur proaktiven Risikominimierung ein Bausteine, der dafür sorgt, dass Geschäftsprozesse unterbrechungsfrei und effizient weiterlaufen. (hal)