Eine Frage der Technik

Big Data erfolgreich beherrschen

Rumorender DB-Markt und Hadoop

Gefordert auf der Infrastrukturseite sind unter anderem die Hersteller von Datenbanken. Lange Zeit schienen die Verhältnisse in diesem Markt klar. In den Anwenderunternehmen waren die relationalen Datenbank-Management-Systeme (RDBMS) gesetzt. Die Claims hatten die drei großen Anbieter Oracle, IBM und Microsoft unter sich aufgeteilt. Doch seit einiger Zeit rumort es. Im Zuge von Big Data stoßen die klassischen Systeme an ihre Grenzen. Diskussionen werden lauter, wie die Zukunft der Datenbanken aussehen könnte. Techniken wie NoSQL, In-Memory und Hadoop finden mehr Aufmerksamkeit.

SQL or NoSQL

Gerade mit der wachsenden Flut wenig strukturierter Daten, die sich nur schwer in das Raster einer relationalen Datenbank pressen lassen, wächst das Interesse an NoSQL-Systemen. Das Kürzel steht für "Not only SQL", ist also primär nicht als Ersatz für relationale Systeme gedacht, sondern eher als Ergänzung. Während herkömmliche Datenbanken auf Tabellen und Relationen aufbauen, können in NoSQL-Datenbanken verschiedene Datenmodelle zum Einsatz kommen. Das heißt jedoch auch, dass NoSQL nicht gleich NoSQL ist. Die unterschiedlichen Varianten haben Stärken und Schwächen, es gilt also genau zu prüfen, ob das individuelle Anwendungsszenario auf die jeweilige NoSQL-DB passt.

Knoten für Knoten

Die Architektur setzt meist auf viele zusammengeschaltete Standard-Server. Skaliert wird einfach dadurch, dass weitere Rechenknoten hinzugefügt werden. Prominentes Beispiel dafür ist Hadoop. Das Framework besteht im Wesentlichen aus zwei Teilen: Das Hadoop Distributed File System (HDFS) verteilt die Daten auf die verschiedenen Knoten. Dort werden die Daten mit Hilfe des von Google entwickelten MapReduce-Algorithmus verarbeitet. Die Grundidee dahinter: Rechenaufgaben in viele kleine Teilaufgaben zu zerlegen und im Cluster zu verteilen.

Diese Parallelisierung und die Tatsache, dass die Daten an ihrem Ablageort verarbeitet werden, sollen dafür sorgen, dass Ergebnisse deutlich schneller vorliegen. Hadoop scheint sich derzeit mehr und mehr in der Datenbankbranche etablieren zu können. Anbieter wie Cloudera und Intel bauen eigene Distributionen des Open-Source-Stacks, indem sie das Framework mit zusätzlichen Tools ergänzen. Zudem bieten die großen Datenbankanbieter wie Oracle, IBM und Microsoft mittlerweile Konnektoren an, um ihre Systeme mit Hadoop zu verknüpfen.