Die Big-Data-Formel

Big Data fordert Analyse-Systeme heraus

Die Big-Data-Formel: 3 mal V

Drei Dimensionen beeinflussen Big Data: Die drei Dimensionen der drei Vs: Je nachdem wie Datenmenge, Strukturierungsgrad und Faktor Geschwindigkeit zusammenhängen, brauchen Anwender ein Big-Data-System.
Drei Dimensionen beeinflussen Big Data: Die drei Dimensionen der drei Vs: Je nachdem wie Datenmenge, Strukturierungsgrad und Faktor Geschwindigkeit zusammenhängen, brauchen Anwender ein Big-Data-System.
Foto: Opitz Consulting

Der gemeinsame Nenner der Definitionen sind die drei Vs (Volume, Variety and Velocity). Doch in welcher Abhängigkeit stehen diese? Handelt es sich bereits um ein Big-Data-Problem, wenn die aktuelle Situation im Unternehmen ein oder zwei Vs erfüllt und damit das eigene System lahmlegt? Die fließenden Übergänge sowie die Abhängigkeiten zwischen den Begriffen verdeutlicht die Abbildung auf Seite 18. So können zwar unstrukturierte Daten mit herkömmlichen Lösungen verarbeitet werden, sobald jedoch zeitgleich die Datenmenge zunimmt, bewältigt ein Big-Data-System solch eine Anforderung effizienter.

Eindeutig ist der Fall, bei dem Ergebnisse aus vielfältigen Daten gewonnen werden müssen, die noch dazu in großer Menge auftreten und außerdem in kurzer Zeit angefordert werden. Hier handelt es sich um Big Data im klassischen Sinne. Da es aber durchaus Abstufungen gibt, lohnt sich eine nähere Betrachtung der einzelnen Vs im Zusammenhang mit bewährten Lösungsansätzen.

Vielfalt (Variety)

Bei dem sehr breit gefächerten Begriff der Datenvielfalt ist hinsichtlich Big Data nur eine Ausprägung relevant. Die Auswertung von vielfältigen Datenquellen ist eine gängige Praxis, die in Unternehmen mit einem Data Warehouse bereits seit einiger Zeit realisiert wird. In einem klassischen DW ist die Vielfältigkeit der Daten auf unterschiedliche Systeme sowie unterschiedliche Daten- und Dateiformate limitiert. Dabei ist diesen Daten eines gemein: Sie sind in der Regel strukturiert. Der Umgang mit strukturierten Daten ist demnach keine neue Herausforderung und erfordert damit auch nicht zwingend einen Big-Data-Ansatz. Wohl aber der Umgang mit semistrukturierten oder gar unstrukturierten Daten.

Semi- beziehungsweise unstrukturierte Daten finden sich meist im Bereich von Social Media, Dokumenten, Webseiten oder E-Mails. Folglich entspricht die Analyse solcher Daten für Unternehmen, die sich bis dato nicht mit der Auswertung von Textquellen beschäftigt haben, einem Novum. Die Verarbeitung dieser Datentypen ist in der Regel mit einer hohen Rechenleistung verbunden, die mithilfe eines Big-Data-Systems beherrschbar wird. Dementsprechend lässt sich der Begriff der Datenvielfalt in puncto Big Data auf den Strukturierungsgrad der Daten eingrenzen.

Menge (Volume)

Die Datenmenge ist ein eindeutiger Begriff, allerdings fehlt es an einer festen Größe für die klare Zuordnung zu Big Data. Die Datenmenge wirkt sich insbesondere bei der Speicherung und der Auswertung von Daten aus. Verhalten sich die aktuellen Systeme während des Speicherns oder der Auswertung von Daten auf Grund der hohen Datenmenge grenzwertig, so kann der Umstieg auf ein Big-Data-System die beste Lösung sein. Doch vorher empfiehlt es sich, noch einige Stellschrauben zu prüfen, mit deren Hilfe sich die Grenzen der bestehenden Systeme erweitern lassen.

Der erste Blick gilt der Datenspeicherung: Können Daten in ein Archiv verschoben werden, ohne die Funktionalität des Systems zu beinträchtigen? Im zweiten Schritt ergeben sich mehrere Möglichkeiten für die Archivierung selbst:

  • Die Daten werden im gleichen System separat abgelegt, falls eine Analyse der Daten noch bevorsteht.

  • Die Daten werden ganz aus dem System entnommen und auf einem kostengüns-tigen Speicher offline abgelegt.

Bei der anschließenden Auswertung lässt sich die Datenmenge mithilfe einer intelligenten Aufteilung reduzieren. So können beispielsweise die Datamarts in einer DW/BI-Umgebung dem Anwender losgelöst von den eigentlichen konsolidierten Daten zur Verfügung gestellt werden. Bei gleich bleibender Gesamtmenge reduziert sich so die Datenmenge pro System, was zur Folge hat, dass sich die Kapazität des Gesamtsystems erhöht und dieses künftig höhere Datenmengen verarbeiten kann.

Ein weiterer Ansatz ist die Komprimierung der Daten. Hier bieten Datenbankhersteller unterschiedliche Modelle. Die Komprimierung strukturierter Daten erfolgt in Echtzeit bei der Datenablage, die Dekomprimierung findet ebenfalls in Echtzeit statt und ist für den Endanwender transparent.