Datability

Big Data läutet neue Analytics-Ära ein

Kritischer Faktor Performance

Ein entscheidendes Hindernis bei der Analyse großer Datenmengen war in der Vergangenheit die schlechte Performance. Klassische relationale Datenbank-Management-Systeme (RDBMS) bieten typischerweise zufriedenstellende Antwortzeiten nur bis zu einer Größe von einigen Dutzend Terabyte. Um das zu erreichen, sind jedoch vielfältige Performance-steigernde Maßnahmen (beispielsweise Indizes, Aggregate, OLAP-Würfel, Materialisierte Views, Vorberechnungen) erforderlich, die großen Aufwand mit sich bringen und zu Lasten der Flexibilität gehen. Hinzu kommt, dass RDBMS sich nur für die Speicherung und Analyse von strukturierten Daten eigenen. Text-, Bild-, Ton- und andere unstrukturierte Daten lassen sich zwar grundsätzlich auch dort ablegen, sind aber dort nicht mehr effektiv und schnell genug im Zugriff.

Es haben sich daher für die Analyse von Big Data eine Vielzahl neuer Technologien (allen voran In-Memory-Lösungen, Parallel-Architekturen, Hadoop, NoSQL-Datenbanken) entwickelt, die auch auf sehr großen und verschiedenartigen Datenbeständen schnelle Antwortzeiten ermöglichen sollen. Viele dieser Ansätze verzichten auf eine umfassende Vorverarbeitung und inhaltliche Aufbereitung der Daten, sondern legen sie lediglich technisch optimiert ab.

Die hohe Geschwindigkeit vieler dieser Technologien und die Beibehaltung möglichst vieler Datendetails erlaubt einerseits eine hohe Flexibilität bei Adhoc-Abfragen. Andererseits macht sie es in vielen Fällen auch möglich, komplette Datenbestände zu analysieren und sich nicht auf Stichproben (Samples) zu beschränken, wie es in herkömmlichen Datenanalysen typischerweise der Fall war. Selbst aus kleinen Stichproben lassen sich zwar grundsätzlich valide und übertragbare Muster erkennen, sofern sie qualitativ hochwertig sind, das heißt repräsentativ für den Gesamtdatenbestand sind.

In der Vergangenheit erwies es sich aber als nicht immer einfach, eine ordentliche Zufallsstichprobe zu erstellen, da selbst vermeintlich zufällig ausgewählte Datensätze unbewusste und unerkannte Korrelationen enthalten können. Außerdem gehen bei Stichproben durch die Eliminierung vermeintlicher Ausreißer auch viele weniger prominente Informationen verloren.

Es gibt zahllose Anekdoten von Analysten, die aufgrund falscher Stichproben auf statistische Muster gestoßen sind, die sich im Anschluss nicht auf andere Datenbestände übertragen ließen und daher nutzlos waren. Der Trend im Bereich Mustererkennung und Predictive Analytics geht heute tatsächlich eher dahin, möglichst komplette Datenbestände anstelle von Samples zu analysieren, um auf diese Weise mehr Details zu ermitteln und auch seltene Ereignisse beziehungsweise Muster mit einzubeziehen. Damit das möglich ist, muss jedoch nicht nur die Performance der zugrundeliegenden Datenablage stimmen. Da die Daten kaum noch aufbereitet werden, müssen die Analyse-Tools die Daten auch so nehmen, wie sie kommen. Das heißt vor allem, dass die entsprechenden Werkzeuge robust gegen vielfältige Qualitätsprobleme (zum Beispiel leere Felder, Tippfehler) innerhalb der Daten sein müssen. Auch sollten sie möglichst unempfindlich gegen zugrundeliegende statistische Verteilungen sein.