Datenanalyse als Service

Die wichtigsten Big-Data-Tools aus der Cloud

05.02.2016 von Thomas Hafen

Für Big-Data-Analysen brauchen Unternehmen nicht unbedingt einen eigenen Hadoop-Cluster. Wir stellen die wichtigsten Tools aus der Cloud vor, mit denen sich große Datenmengen verwalten, strukturieren und analysieren lassen.

Unter Big Data versteht man im Allgemeinen die Analyse großer Mengen von Daten, die häufig nur teilweise oder gar nicht strukturiert vorliegen. Oft werden dabei öffentlich zugängliche Massendaten wie Verkehrsströme oder Wetterprognosen mit unternehmenseigenen Informationen wie Verkaufszahlen oder Produktionswerten verknüpft. Der Aufbau eines eigenen Big-Data-Analysesystems erfordert sehr viel Know-how. Zwar steht mit Apache Hadoop eine leistungsfähige, ausgereifte Open-Source-Lösung zur Verfügung; die Implementierung eines Hadoop-Clusters wie auch die richtige Definition von Abfragen und die Interpretation der Ergebnisse ist ohne den Einsatz von Experten, sogenannten Data Scientists, aber kaum möglich.

Die Nachfrage nach diesen Datenwissenschaftlern ist groß, das Angebot klein. Entsprechend hoch sind die Ansprüche und die Gehaltsvorstellungen der Kandidaten. Für viele kleine und mittelständische Unternehmen (KMU) sind sie unbezahlbar. Sie schrecken deshalb davor zurück, überhaupt in die Big-Data-Analyse einzusteigen. Laut einer Umfrage des Branchenverbandes Bitkom aus dem Jahr 2014 nutzen nur sieben Prozent der Mittelständler mit 50 bis 499 Mitarbeitern Big-Data-Lösungen, in größeren Unternehmen mit 500 und mehr Mitarbeitern waren es bereits 27 Prozent.

Big-Data-Tools aus der Cloud können den Einstieg erleichtern. Sie erfordern keine Vorabinvestitionen im fünf- oder sechsstelligen Bereich und besitzen teilweise grafische Benutzeroberflächen, die es auch dem weniger versierten Anwender ermöglichen, Analyseprozeduren zu erstellen, die zu aussagefähigen Ergebnissen führen. Cloud-Services sind jedoch nicht nur zum Einstieg in die Big-Data-Welt geeignet. Sie spielen auch dann ihre Vorteile aus, wenn Analysesysteme schnell und unkompliziert erstellt werden sollen, etwa in Forschung und Entwicklung.

Big Data Vendor Benchmark 2016

Big Data Vendor Benchmark 2016
Die Analysten der Experton Group haben 100 Big-Data-Anbieter in verschiedenen Kategorien nach Portfolio-Attraktivität und Wettbewerbsstärke eingeordnet.

Digitale Transformation und Big Data
Die digitale Transformation ist datengetrieben. Doch die daraus resultierenden Big-Data-Szenarien sind meist komplex.

Einführung von Big Data
Ziel von Big-Data-Projekten sollte sein, einen zusätzlichen Mehrwert durch die Analyse und Nutzung von Daten zu erzielen.

Der Big-Data-Markt in Deutschland
Das hiesige Geschäft mit Big-Data-Lösungen soll von knapp 1,4 Milliarden Euro in diesem Jahr bis 2020 auf rund 3,75 Milliarden Euro anwachsen.

Deutscher Big-Data-Markt nach Branchen
Der Löwenanteil der Big-Data-Investitionen im kommenden Jahr geht auf das Konto von Dienstleistern.

Big Data Consulting
Die beste Beratung rund um Big Data liefern aus Sicht der Experton Group T-Systems, Atos und IBM.

Big Data - Datenbanken und Datenmanagement-Lösungen
Rund die Datenhaltung haben die alteingesessenen Anbieter die Nase vorn. IBM, Oracle, SAP und Microsoft haben im Ranking die Nase vorn.

Big Data braucht Beratung
Rund um Big-Data-Projekte ist viel Beratung gefragt. Die Kunden wollen gemeinsam mit den Anbietern Strategien und Lösungen entwickeln.

Zukunft von Big Data
Themen wie Industrie 4.0 und das Internet of Things werden Big Data weiter befeuern.

Auch wenn die zu verarbeitenden Daten bereits online vorliegen, wie es etwa bei Social-Media-Feeds oder den Kundendaten eines Online-Shops der Fall ist, lohnt es sich, auch die Analyse direkt im Netz zu starten. Das gilt besonders dann, wenn diese auch noch in Echtzeit stattfinden soll. Wir stellen im Folgenden fünf wichtige Big-Data-Tools vor, die Sie als Service aus der Cloud nutzen können.

Amazon Web Services (AWS)

Mit Elastic MapReduce (EMR) bietet Amazon Web Services einen umfangreichen Big-Data-Service auf der hauseigenen Cloud-Plattform. Die dort verfügbaren AMIs (Amazon Machine Image) enthalten bereits ein bootfähiges Linux-Betriebssystem, Hadoop und weitere Software, die zum Betrieb des Clusters notwendig ist. Die Version 4.2.0 unterstützt neben Hadoop auch Ganglia, Hive, Hue, Pig, Mahout und Spark. Als Datenbanken stehen neben der NoSQL-Lösung DynamoDB und der relationalen Datenbank RDS auch das Big-Data-Warehouse Redshift zur Verfügung, das auf PostgreSQL basiert.

Mit Kinesis bietet der Hersteller zudem einen Service zur Echtzeitanalyse großer Mengen von Streaming-Daten; über AWS IoT (Beta) lassen sich Sensoren, Aktoren, Embedded Devices oder Wearables mit der Cloud-Plattform verbinden. Ergänzt wird das Angebot durch mehr als 300 Applikationen von Drittanbietern, die über den AWS Marketplace abgerufen werden können.

Amazon Web Services Elastic MapReduce

AWS Elastic MapReduce
Beim Aufsetzen eines Hadoop-Clusters in Amazon EMR kann man unter anderem die Cluster-Größe, die Software-Version und die installierenden Applikationen wählen.

AWS Elastic MapReduce
Seit EMR-Version 4.1.0 lassen sich Cluster im laufenden Betrieb verkleinern.

AWS Elastic MapReduce
Mit Version 4.2.0 bietet Amazon die Möglichkeit, EMR-Cluster in einer virtuellen Private Cloud (VPC Subnet) zu betreiben.

AWS IoT
AWS IoT ermöglicht die Steuerung von Smart Devices über die Amazon-Cloud-Plattform.

Eine Hadoop-Instanz lässt sich auch manuell auf Knoten der Elastic Compute Cloud (EC2) einrichten. Zur Speicherung der Initialdaten nutzt man sinnvoller Weise Amazon S3, da der Datentransfer zwischen S3 und EC2 kostenlos ist. Dort legt man auch die Ergebnisse ab, bevor der Cluster heruntergefahren wird. Temporäre Daten hält man dagegen besser im Hadoop Distributed File System (HDFS) vor.

Amazon bietet eine 12-monatige Testphase, in der ein Kunde unter anderem 750 Stunden pro Monat eine EC2-Instanz (t2.micro-Instance) und 5 GB Standard-S3-Speicher nutzen kann. Auch einige Big-Data-Anwendungen wie DynamoDB, AWS IoT und Redshift lassen sich kostenlos testen, nicht aber EMR.

Amazon Web Services - Leistungsumfang Big-Data-Analyse

Amazon Elastic MapReduce (EMR): Hadoop und zahlreiche Big-Data-Frameworks als Service (Hive, Hue, Pig, Hbase, Impala, Mahout, Spark)
Amazon Kinesis: Echtzeitanalyse von Streaming-Daten
Amazon Machine Learning: Erstellung von Vorhersagemodellen
Amazon Elasticsearch Service: Suche, Protokollanalyse und Datenvisualisierung
AWS IoT (Beta): Kommunikation mit Smart Devices
diverse Datenbanken / Warehouses (DynamoDB, RDS, Redshift)

Amazon Web Services - Fazit

Pro

+ kostenloser Datentransfer zwischen Speicher (S3) und Computing-Plattform (EC2)

+ wichtigste Systeme vorinstalliert

+ Hadoop-Cluster können bedarfsorientiert auf- und auch wieder abgebaut werden

Contra

- manuelle Hadoop-Installation aufwendig

- wenn Daten in S3 statt in HDFS gespeichert werden, ist die Latenz recht hoch

- EMR nicht im kostenlosen AWS-Kontingent enthalten

Google Cloud Platform

Das Google-Angebot an Big-Data-Services ist sehr umfangreich. Neben Open-Source-Lösungen wie Hadoop gehören dazu auch von Google selbst entwickelte Produkte wie BigQuery oder Dataflow. Für Hadoop bietet Google einen "Cloud Launcher", mit dem sich nach Angaben des Providers in wenigen Minuten ein Cluster zur verteilten Big-Data-Analyse aufbauen lässt. Es besteht aus drei virtuellen Maschinen (n1-standard-4) inklusive 10 GB Boot Disk sowie drei Standardspeicherplatten mit 500 GB Kapazität. Die installierte Hadoop-Version 2.4.1 ist allerdings nicht ganz auf der Höhe der Zeit. Die neueste stabile Version von Hadoop hat die Versionsnummer 2.7.1.

In Google Dataflow werden Abfragen als sogenannte Pipelines definiert.

Weitere Big-Data-Lösungen lassen sich ebenfalls mit wenigen Klicks per Launcher installieren, darunter hoch skalierbare Datenbanken wie Cassandra, MongoDB und Redis sowie Elasticsearch, ein Open-Source-Tool zur Echtzeitanalyse. Elasticsearch ist aber nicht die einzige Möglichkeit für die Echtzeitanalyse auf der Google-Plattform: Eine weitere ist die Kombination aus dem Cluster-Manager Kubernetes, der In-Memory-Datenbank Redis und dem Abfragesystem BigQuery. In der zweiten Variante können Anwender Kubernetes und BigQuery mit Pub/Sub verknüpfen, einem Real-Time-Messaging-System. Für Logging-Zwecke lässt sich BigQuery schließlich auch noch mit dem Open-Source-Datensammler Fluentd kombinieren.

Mit dem Cloud Launcher lässt sich ein Hadoop-Cluster mit wenigen Klicks einrichten.

Im Jahr 2014 hat Google außerdem den Big-Data-Service "Cloud Dataflow" gestartet. Google Cloud Dataflow erlaubt die Analyse großer Datenmengen sowohl im Batch- als auch im Streaming-Modus nahezu in Echtzeit. Der Code ist für beide Methoden gleich, die Entscheidung trifft der Entwickler durch die Wahl der Datenquelle. Die Programmierung ist sehr einfach. Für die Analyse muss ein Entwickler die logischen Schritte nur in eine Sequenz simpler Befehle übersetzen. Um zum Beispiel ein Zeitfenster für eine Streaming-Analyse zu definieren, genügt eine Zeile Code. Google verspricht außerdem eine Skalierbarkeit bis in den Exabyte-Bereich und eine nahtlose Integration in andere Systeme.

Die Google Cloud-Services lassen sich 60 Tage lang testen. Der Anbieter stellt dafür ein Guthaben von 300 Dollar zur Verfügung.

Google Cloud Platform - Leistungsumfang Big-Data-Analyse

Cloud Launcher (Click to Deploy) unter anderem für Hadoop, Cassandra, MongoDB
Echtzeitanalyse mit Elasticsearch oder mit BigQuery in Kombination mit Kubernetes, Redis / Pub/Sub beziehungsweise Fluentd.
Cloud Dataflow: Managed Service für Batch- und Streaming-Analysen

Google Cloud Platform - Fazit

Pro

+ Einfache Installation von Hadoop-Clustern und anderen Big-Data-Lösungen

+ Cloud Dataflow erlaubt auch weniger erfahrenen Anwendern den Einstieg in die Big-Data-Analyse

Contra

- Im Cloud Launcher sind nicht immer die aktuellsten Versionen verfügbar

Microsoft Azure

Auch Microsoft verspricht auf seiner Public Cloud Azure eine Hadoop-Installation in wenigen Minuten. Zuständig dafür ist der "Data-Lake"-Dienst "HDInsight", der darüber hinaus auch zur Verwaltung von MapReduce-, Pig-, Hive-, HBase-, Storm- oder Spark-Projekten verwendet werden kann. Laut Anbieter lassen sich Analysen bis in den Petabyte-Bereich skalieren. Der Anwender kann sowohl per Linux als auch per Windows auf das Cluster zugreifen, Hadoop-Daten in Excel visualisieren oder lokale Hadoop-Cluster mit der Cloud-Instanz verknüpfen. Vorsicht ist allerdings geboten, wenn mehrere HDInsight-Cluster mit demselben Blob Storage verknüpft werden. Laut Microsoft kann es zu Fehlern und Systemabstürzen kommen. Der Hersteller empfiehlt, einen zusätzlichen Storage-Account anzulegen, falls mehrere HDInisght-Cluster auf dieselben Daten zugreifen sollen.

Azure Machine Learning erlaubt die erfahrungsbasierte Modellierung von Vorhersagen.

Ein weiterer Big-Data-Analyse-Service von Microsoft ist "Data Lake Analytics". Er basiert auf YARN und soll dank der Abfragesprache "U-SQL" einfach zu bedienen sein. U-SQL kombiniert SQL mit C#-Ausdrücken und ist so für die meisten Entwickler leicht erlernbar. Mit "Machine Learning" lassen sich auf Azure erfahrungsbasierte Analysealgorithmen über einen Webservice definieren und ausführen, wie sie zum Beispiel zur Entwicklung von Vorhersagemodellen bei Predictive Analytics verwendet werden. Echtzeitanalysen kann der Anwender mit "Stream Analytics" durchführen und zur Datenerfassung mit "Event Hubs" kombinieren, einer Plattform, die Log-Daten schnell in großen Mengen aufzeichnen kann, wie sie etwa auf Webseiten, mobilen Endgeräten oder Industrieanlagen anfallen. Microsoft bietet die Möglichkeit, die Services 30 Tage mit einem Guthaben von 170 Euro zu testen.

Ein Hadoop-Cluster ist in HDInsight in zirka 10 bis 15 Minuten verfügbar.

Mit der "Cortana Analytics Suite" bietet Microsoft außerdem ähnlich wie Google mit Cloud Dataflow einen einfacheren Einstieg in die Big-Data-Analyse. Sie verbindet die bestehenden Big-Data-Cloud-Angebote mit einer "Perceptive Intelligence" genannten Auswahl an Werkzeugen zur intelligenten Erfassung und Verarbeitung von Daten. Dazu zählen Microsofts "Siri"-Alternative "Cortana" sowie Tools zur Sprach- und Gesichtserkennung und zur Analyse von Texten oder Bildern.

Microsoft Azure - Leistungsumfang

HDInsight: Bereitstellung verwalteter Hadoop-Cluster
Data Lake Analytics: Verteilter Dienst zur Big-Data-Analyse
Machine Learning: Erfahrungsbasierte Erstellung von Vorhersagemodellen
Stream Analytics: Echtzeitanalyse von Datenströmen
Cortana Analytics Suite: Gemanagter Big-Data-Service für den einfachen Einstieg

Microsoft Azure - Fazit

Pro

+ großes Angebot an Analysetools

+ Integration anderer Microsoft-Produkte (Windows, Excel)

+ Cortana Analytics Suite bietet umfassendes Angebot für Prognosen, Entscheidungsfindung und Automatisierung

Contra

- Probleme, wenn mehrere HDInsight-Cluster auf den denselben Blob Storage zugreifen

IBM Analytics

IBM bietet Hadoop as a Service auf der Softlayer-Infrastruktur Bluemix über die IBM-eigene Hadoop-Distribution "Infosphere BigInsights" als "BigInsights for Apache Hadoop" an. Sie enthält unter anderem die Komponenten Ambari, YARN, Spark, Knox, HBase und Hive. Ein verschlüsseltes HDFS (Hadoop Distributed File System) erhöht die Datensicherheit. Beim Aufsetzen der Hadoop-Umgebung kann der Anwender zwischen drei Hardware-Größen pro Knoten (Small, Medium, Large) wählen.

Beim Einrichten eines Hadoop-Clusters auf IBM Bluemix hat der Anwender die Wahl zwischen drei Cluster-Größen.

Zudem stehen drei Softwarepakete zur Verfügung. Neben dem Standard "IOP" - IBMs Hadoop-Distribution - gibt es ein "Analyst"- und ein "Scientist"-Package. Beide enthalten die SQL-on-Hadoop-Engine "Big SQL" und das Spreadsheet-Analyse-Tool "Big Sheets". Die Data-Scientist-Variante bringt noch zusätzlich nativen Support für die Programmiersprache R ("Big R") mit sowie Algorithmen für Machine Learning und die Text Analyse.

Weitere Big-Data-Services auf Bluemix sind Apache Spark, diverse Datenbanken wie Cloudant, dashDB, MongoDB, PostgreSQL und Redis sowie Geospatial Analytics, Elasticsearch, Twitter- und Wetteranalysen. Das Angebot unterteilt sich zudem in "Self-Service" und "Full-Service"-Module. Bei ersteren muss der Kunde selbst für Skalierbarkeit, Elastizität, Hochverfügbarkeit und Disaster Recovery sorgen, in letzteren liefert die Plattform diese Features gleich mit.

In der Detail-Ansicht lassen sich die technischen Daten des Clusters überprüfen.

Auch Bluemix kann man kostenfrei ausprobieren. Die 30-Tage-Testversion umfasst 2 GB Laufzeit- und Container-Speicher sowie unbegrenzten Zugriff auf Services und APIs.

IBM Analytics - Leistungsumfang

BigInsights for Apache Hadoop as a Service inklusive Ambari, YARN, Spark, Knox, HBase und Hive
zahlreiche SQL- und NoSQL-Datenbanken
Streaming-Analysen
Raumbezogene Analysen

IBM Analytics - Fazit

Pro

+ umfangreiches Statistik-Paket für Hadoop ("Data Scientist Package")

+ Module für direkte Analyse von Twitter- und Wetterdaten

Contra

- teilweise muss der Kunde selbst für Skalierbarkeit, Elastizität, Hochverfügbarkeit und Disaster Recovery sorgen

SAP HANA Cloud Platform

SAP bietet seine In-Memory-Datenbank HANA auch als Platform as a Service (PaaS) an. Mithilfe der Query Engine Vora, die das Datenverarbeitungs-Framework Apache Spark nutzt, lassen sich interaktive Analysen in Hadoop auf HANA durchführen. Die Lösung ermöglicht OLAP-ähnliche Analysen (Online Analytical Processing), bei denen auch die Geschäftssemantik von Daten aus dem Hadoop-Umfeld berücksichtigt wird. Auch die auf der Cloud-Plattform verfügbare App "LubeInsights" des Anbieters Saggezza erlaubt eine Hadoop-Anbindung. Sie nutzt Hadoop als Data Warehouse und transferiert nur die Daten in HANA, die für aktuelle Analysen notwendig sind.

LubeInsights verknüpft Hadoop im SAP HANA und lädt nur aktuell benötigte Daten in die In-Memory-Datenbank.

LubeInsights ist nur eine von vielen Drittanbieteranwendungen im App Center der HANA Cloud Platform, das sich derzeit allerdings noch im Beta-Statium befindet. Von den aktuell zirka 940 gelisteten Lösungen sind etwas über 100 Big-Data-Anwendungen. Darunter finden sich Anaylsetools wie Operational Analytics (OPAL) oder Lumira, Big Data Warehouses wie PHEMI Central und verschiedene Datenbanken mit demografischen Informationen. Der App Store ist allerdings recht unübersichtlich. Oft geht aus den Beschreibungen nicht hervor, welchem Zweck welche App dient.

Auch die eigens für SAP HANA entwickelte Echtzeitanalyselösung OPAL (Operational Analytics) läuft als App auf der SAP HANA Cloud Platform.

Auch die SAP HANA Cloud Platform lässt sich kostenlos testen. Die Gratislizenz ist zeitlich unbefristet und umfasst unter anderem 1 GB HANA-Speicher. (wh)

SAP HANA Cloud Platform - Leistungsumfang

In-Memory-Datenbank SAP HANA als Platform as a Service (PaaS)
HANA Vora als In-Memory Query Engine zur interaktiven Analyse auf Hadoop-Clustern
Rund 100 Apps von Drittanbietern zur Big-Data-Analyse (Beta)

SAP HANA Cloud Platform - Fazit

Pro

+ Großer App Store mit vorgefertigten Applikation

Contra

- Beschreibung der Apps zum Teil wenig aussagekräftig