Von Business Intelligence bis Business Analytics

Ratgeber für den Mittelstand - was ist was bei Big Data?

Big Data ist kein abgehobener IT-Trend mehr, sondern bestimmt zusehends das praktische Handeln auch von mittelständischen Unternehmen. Im Mittelpunkt von Big Data stehen die zunehmenden Datenmassen, die gespeichert, verwaltet und analysiert werden wollen. Dieser Artikel erklärt die wichtigsten Konzepte, Begriffe und Werkzeuge.

Der Terminus Big Data ist nicht unumstritten, aber er ist nun schon seit etlichen Jahren etabliert und kennzeichnet ein eigenes IT-Gebiet. Wörtlich lässt sich Big Data zunächst im Sinn von "großen Daten(mengen)" verstehen. In der Regel spricht man von Big Data, wenn das Volumen einer bestimmten abgrenzbaren Datenmenge in die Größenordnung der Terabytes (1 Terabyte = 1024 GB), Petabytes (1 Petabyte = 1024 Terabyte) und Exabytes (1 Exabyte = 1024 Petabyte) geht. Solche Datenmengen sind heute keine theoretischen Größen mehr, sondern kommen in der Praxis immer häufiger vor.

Die Entwicklung hin zu Big Data ist kein isoliertes, etwa auf bestimmte Branchen oder Gebiete beschränktes Phänomen, sondern gilt branchenweit und global. Laut den Marktforschern von IDC durchbrachen die digitalen Informationen, die pro Jahr erzeugt oder kopiert werden, im Jahr 2011 erstmals die Zettabyte-Barriere und sind auf 1,8 Zettabyte angeschwollen. Zettabyte ist die nächste Einheit nach Exabyte und entspricht einer Billion Gigabyte an Daten.

Wie groß sind 1,8 Zettabyte? Diese IDC-Grafik veranschaulicht die Datenmenge.
Wie groß sind 1,8 Zettabyte? Diese IDC-Grafik veranschaulicht die Datenmenge.
Foto: IDC

Laut IDC ist die Informationsmenge in den vergangenen fünf Jahren um den Faktor fünf gewachsen. Ein Ende ist nicht abzusehen, im Gegenteil: Laut der IDC-Umfrage Big Data in Deutschland erwarten mehr als drei Viertel der deutschen Unternehmen in den nächsten Jahren einen jährlichen Datenzuwachs von bis zu 25 Prozent. 13 Prozent rechnen gar damit, dass ihr Datenberg um 25 bis 50 Prozent wächst.

Warum Big Data jetzt?

Warum schnellen die Datenmengen gerade heute so hoch? Dafür gibt es eine Reihe von Gründen. Weil mittlerweile faktisch "alles" digitalisiert wird, entstehen in zahlreichen Branchen neue Arten von Massendaten und Echtzeitdaten. Vor allem Maschinen und Rechner produzieren enorme Datenmengen: Eine modernes Flugzeug beispielsweise generiert heute in 30 Minuten bis zu 10 Terabyte an Daten. Bei 25.000 Flügen pro Tag entstehen damit Petabytes an Daten.

Auch neue Anwendungen fördern das Datenwachstum. Technologien wie Cloud Computing, RFID, transaktionale Systeme, Data Warehouses, Business Intelligence, Dokumentenmanagement- und Enterprise-Content-Management-Systeme sind IT-Applikationen, die zu Big Data hinführen.

Mögliche Ursachen für Big Data laut Bitkom.
Mögliche Ursachen für Big Data laut Bitkom.
Foto: Bitkom

Den entscheidenden Anteil an der Datenexplosion dürfte aber das Internet haben, kombiniert mit dem zunehmenden Anteil mobiler Geräte und vor allem den sozialen Medien wie Facebook, Twitter und Co. Bei Twitter etwa tummeln sich Millionen von Nutzern, die mindestens einen Account nutzen und oft mehrmals täglich Tweeds absetzen. Bei 140 Zeichen pro Tweed und bei der Geschwindigkeit, in der die Kurzmitteilungen abgesetzt werden, sorgt allein Twitter für mindestens 8 Terabyte an Daten - pro Tag.

Mögliche Ursachen für Big Data laut Bitkom.
Mögliche Ursachen für Big Data laut Bitkom.
Foto: Bitkom

Big Data = Volume + Variety + Velocity

Die riesige Datenmenge ist jedoch nur ein Aspekt von Big Data. Als weithin akzeptiertes Kriterium zur Charakterisierung von Big Data gilt die Formel "V3": Neben der schieren Datenmasse ("Volume") kommen als weitere Merkmale die Vielfalt ("Variety") und die Geschwindigkeit ("Velocity") hinzu.

V3: Die drei Merkmale von Big Data im Überblick.
V3: Die drei Merkmale von Big Data im Überblick.
Foto: IBM

Mit "Vielfalt" sind die Anzahl der unterschiedlichsten Datenquellen gemeint, aus denen die Daten heute sprudeln, sowie die Verschiedenheit der Daten selbst. So müssen Unternehmen heute Daten aus den verschiedensten herkömmlichen und neueren Informationsquellen verwalten und integrieren, einschließlich interner und externer Ressourcen: Daten aus Sensoren etwa, aus der mobilen Kommunikation, von intelligenten Devices oder aus Social-Media-Kanälen und Social-Collaboration-Technologien.

Mit der Vielfalt an Quellen nehmen auch die Datenformate zu. Waren Daten bis vor wenigen Jahren noch gut strukturiert und ließen sich effizient und ohne großen Aufwand als Tabellen in relationalen Datenbanken speichern, sind mit der zunehmenden Komplexität der Datenquellen auch die Datenformate komplexer geworden.

Oft sind die Daten, wie sie heute bei den neuen Medien anfallen, völlig unstrukturiert. Unstrukturierte Daten sind Texte, Bilder, Audio- und Videofiles - also der Löwenanteil an Datentypen im Social-Media-Umfeld. Sie lassen sich schlecht in vorgegebene Schemata pressen.

Nimmt man noch einen Mischbereich an "semi-strukturierten" Daten hinzu wie E-Mails, die mit "Empfänger", "Absender" und "Betreff" eine gewisse Struktur haben, während der Inhalt selbst strukturlos ist, dann haben wir es heute mit einem Mischmasch von strukturierten, semi-strukturierten und unstrukturierten Daten aus einer Vielzahl verschiedener Quellen zu tun.

Typische Datenarten heute

  • Strukturierte Daten: Daten, die in Tabellen und Strukturen von relationalen Datenbanken abgebildet werden, wie Adressen, Produktlisten, Personalverwaltung etc

  • Semi-strukturierte Daten Daten, die teils strukturiert, teils unstrukturiert sind, wie E-Mails: Solche Daten werden oft durch die Anwendung von Datenaustauschprogrammen zwischen Unternehmen erzeugt und basieren vielfach auf XML

  • Unstrukturierte Daten: Textdateien, PDFs, gescannte Post, Präsentationen, Bilder, Videos

Um solche Daten sinnvoll speichern, verwalten und analysieren zu können, sind neue Wege zu gehen - womit der dritte Aspekt von Big Data zum Tragen kommt: die Geschwindigkeit ("Velocity"). Denn diese großen, aus unterschiedlichen Quellen und in unterschiedlichen Formaten vorliegenden Daten müssen möglichst schnell und effizient gespeichert und analysiert werden. Dies ist insofern eine Herausforderung, als herkömmliche relationale Datenbanksysteme dafür an ihre Grenzen stoßen.

Relationale Datenbanken

Relationale Datenbanken sind für häufige Transaktionen auf Datensatzebene oder für Szenarien mit kleinen bis mittleren Datenvolumen effizient nutzbar. Auf die Verarbeitung und Analyse von Datenmengen im Peta- oder gar Exabyte-Bereich sind sie nicht ausgerichtet. Vor allem aber lassen sich unstrukturierte Daten nicht oder nur mit Verrenkungen in die tabellenorientierten relationalen Datenbanksysteme überführen.

Eine herkömmliche Datenbank wird unsagbar langsam, je mehr Daten zu verwalten sind und je mehr Relationen für eine Abfrage herangezogen werden. Die Performance, die für Abfragen mit akzeptablen Zugriffszeiten erforderlich ist, wird nicht erreicht. Zwar gibt es inzwischen Optimierungen für große Datenbanken, aber ab einer bestimmten Tiefe und Komplexität kann die beste Optimierung nicht mehr helfen.

Auch unstrukturierte Daten sind für herkömmliche Datenbanken ein Problem. Unstrukturierte Daten lassen sich, wie erwähnt, nur schwer ins Tabellenschema pressen. Tabellenorientierte Datenmodelle sind nicht darauf ausgerichtet, mit Unmengen an chaotischen Daten zu arbeiten. Und Social-Media-Daten aus Facebook oder Twitter eine relationale Struktur aufzuzwängen ist kaum machbar.

Ein weiteres Problem: Im Gegensatz zur klassischen Business Intelligence, als es noch Stunden dauerte, um Berichte im Batch-Verfahren zu generieren, werden heutzutage Ad-hoc-Abfragen mit Analyseergebnissen möglichst in Echtzeit erwartet. Sie bilden die Grundlage für umgehende, proaktive Entscheidungen oder ermöglichen sogar ein automatisiertes Eingreifen. Die Ergebnisse solcher Analysen möchten heute nicht nur der Unternehmens-Chef, sondern auch der Abteilungsleiter und andere Entscheidungsträger bis hin zum Sachbearbeiter möglichst zeitnah.