Große Datenmengen im Griff

Big-Data-Strategie im Unternehmen richtig aufsetzen

Unternehmen die großer Datenmengen etwa auf Basis von Hadoop analysieren wollen, müssen über entsprechende Technologien verfügen. Doch wichtig ist auch, eine einheitliche Strategie zu entwickeln und diese umzusetzen. Der Artikel gibt Tipps, worauf Sie bei einer Big-Data-Strategie-Implementierung achten müssen.

Großrechner, Desktop-Clients, Smartphones, Selbstbedienungsautomaten und eingebettete Systeme in Kraftfahrzeugen oder Flugzeugen - all diese Systeme erzeugen enorme Datenmengen, die wertvolle Informationen über Geschäftsprozesse, Produkte und Kunden enthalten. Obwohl günstige Infrastrukturen die Verarbeitung dieser Datenmengen ermöglichen, nutzen Unternehmen diese Informationen noch nicht systematisch, um sich Wettbewerbsvorteile zu verschaffen.

Einer der Hauptgründe: Die Datenverarbeitungsprinzipien haben sich nur wenig an die geänderten Rahmenbedingungen angepasst. Die heute in Unternehmen eingesetzten relationalen Datenbanken beruhen auf einem Modell, das bei Schreib- und Lesezugriffen absolut zuverlässig ist. Doch dieses Modell ist für große Datenmengen im Tera- oder sogar Petabyte-Bereich nicht ausgelegt. Derartige Systeme lassen sich nur durch die Erweiterung der Komponenten des Datenbankservers skalieren ("scale up"), wodurch sie in ihrer Größe begrenzt sind.

Big Data geht neue Wege

Big Data bricht mit dieser Tradition und etabliert ein neues Datenverarbeitungsprinzip, das voraussetzt, dass die vorhandene Datenbasis nur gelesen und nicht verändert wird. Die Verarbeitung wird dabei so aufgeteilt, dass die Infrastruktur flexibel an die Problemgröße angepasst werden kann ("scale out"). Google hat diesen Ansatz als Kern seiner Produktionsinfrastruktur unter dem Namen "MapReduce" entwickelt. Daraus entstand das populäre Open-Source-Projekt "Hadoop" - heute der Standard für die Big-Data-Technologie.

Die Vorteile dieser Technologie liegen auf der Hand: die Möglichkeit, große Datenvolumina (Petabyte-Bereich) zu verarbeiten, und die Flexibilität bei der Auswahl der Basis-Infrastruktur. Von der einfachen, kostengünstigen Commodity-Hardware bis hin zu einer Cloud-basierten Infrastruktur sind hier keine Grenzen gesetzt. So bieten zum Beispiel "Amazon Web Services" und in Kürze auch "Microsoft Azure" vorkonfigurierte Hadoop-Umgebungen an.

Auch China Mobile, der größte chinesische Mobilfunkprovider, hat eine Hadoop-basierte Lösung entwickelt, um etwa die Verbindungsdaten hinsichtlich des Nutzungsverhaltens und der Abwanderungswahrscheinlichkeit seiner Kunden zu analysieren. Diese Auswertungen unterstützen das Marketing und tragen zur Verbesserung der Netze und der Servicequalität bei. Denn die zuvor eingesetzte "scale up"-Lösung ermöglichte es dem Unternehmen, die Daten von nur etwa zehn Prozent der Kunden auszuwerten.

Dank der Hadoop-basierten Lösung wurden zwei Ziele erreicht: Alle Verbindungsdaten konnten ausgewertet werden und zeitgleich konnte die Firma die Kosten senken. Durch den Einsatz der Commodity-Hardware kostete die neue Lösung etwa ein Fünftel der bisherigen Lösung - und das bei einer deutlich besseren Leistung.