Datability

Big Data läutet neue Analytics-Ära ein

24.03.2014 von Marcus Dill
Datenanalysen mit Hilfe intelligenter Algorithmen sind nicht neu. Big Data verspricht jede Menge neuer Möglichkeiten für Unternehmen, stellt jedoch auch neue Anforderungen: an Techniken für das Management, die Analyse dieser Daten und an Menschen, die diese Techniken letztendlich bedienen.

Datenanalysen waren über viele Jahrzehnte ein Thema, das in aller Regel nur Forscher, Softwareentwickler und die Verantwortlichen in den Unternehmen bewegt und interessiert hat. Das hat sich geändert. Nicht nur Ökonomen und IT-Experten reden heute über Big Data und die damit verbundenen aktuellen und noch vor uns liegenden Umwälzungen, die die Vielfalt heutiger Daten und die modernen Analysemöglichkeiten mit sich bringen. Längst diskutieren auch Geistes- und Sozialwissenschaftler, Politiker und Journalisten - teilweise sehr kontrovers - die vielfältigen Auswirkungen auf die Gesellschaft und jeden Einzelnen.

Auf der Habenseite für Big Data stehen neue Anwendungsideen - etwa zum schonenderen Umgang mit natürlichen Ressourcen, der intelligenteren Nutzung vorhandener Infrastruktur, zur Steigerung der Erträge in der Landwirtschaft und zu Fortschritten bei der Diagnose und Behandlung von Krankheiten. Viele Szenarien, die zukünftig mittels Datenanalysen möglich sein werden, sind heute jedoch noch nicht einmal angedacht - es herrscht Aufbruchsstimmung.

So mancher sieht aber auch eher die Risiken durch die Hoheit über die Daten und Tools seitens großer Konzerne, des Staates oder von Geheimdiensten. So ist es nicht verwunderlich, dass sich die diesjährige CeBIT unter der Überschrift "Datability" insbesondere Aspekte wie Nachhaltigkeit und Verantwortungsbewusstsein in Bezug auf Big Data als Leitthema vorgenommen hat. Der Schlüssel zum Verständnis von Chancen und Risiken durch Datenanalysen liegt in einer genauen Kenntnis der Möglichkeiten von Big Data Analytics - insbesondere auch, worin sie sich von den bisherigen Möglichkeiten unterscheiden.

Es geht nicht nur um die Datenmenge

Der Begriff Big Data hat sich im Markt angesichts seiner Griffigkeit etabliert, auch wenn über ihn eigentlich nur einer der wesentlichen Aspekte heutiger und zukünftiger Daten hervorgehoben wird - nämlich die Menge. Umfassender beschreiben die aus der englischsprachigen Literatur übernommenen und mittlerweile auch in Deutschland vielzitierten "3V" (volume, variety, velocity) das Neue an Big Data. Die Datenmenge (volume) war und ist sicher ein zentraler Treiber für viele der jüngeren Innovationen, ohne die viele Analysen schlicht aufgrund von langen Laufzeiten nicht möglich wären. Neue Anwendungen entstehen jedoch vor allem durch ein massiv verbreitertes Spektrum an Daten und Datentypen (variety) sowie aufgrund der erhöhten Verfügbarkeit und Nutzbarkeit von Daten für Analysen in Echtzeit (velocity).

Datability-Prognose des Bitkoms -
Wachstumsfeld Big Data
Crisp Research hat im Auftrag des Bitkom das Marktpotenzial im Big-Data-Geschäft erhoben. Demnach wird der Umsatz allein in diesem Jahr um 59 Prozent zulegen.
Rasantes Wachstum
Der Markt für Produkte und Services rund im das Thema Big Data wächst in den kommenden Jahren rasant. Schon im Jahr 2014 soll sich das Geschäft in Deutschland auf über sechs Milliarden Euro summieren.
Drei Teilsegmente im Big-Data-Geschäft
Die Marktforscher von Crisp Research segmentieren den Markt in die Teilsegmente "Sensoren und Netzwerke", "Big-Data-IT" sowie "datenbasierte Produkte und Analytics-Services".
Umsatzverteilung
Im Geschäft mit datenbasierten Produkten und Analytics-Services fließen die meisten Gelder.

Es ist insbesondere die Vielfalt der Daten, die - richtig kombiniert - ganz neue Fragestellungen sowie eine bessere Steuerung von Prozessen und Handlungen erlaubt. So lässt sich heute beispielsweise die Wirkung von Werbung sehr detailliert analysieren, indem Daten aus dem Onlineverhalten von Menschen (auf den Webseiten oder in der mobilen App eines Unternehmens, oder aber innerhalb sozialer Netzwerke) mit Informationen zur klassischen Offlinewerbung (TV, Radio, Print, Plakat) geschickt kombiniert werden. Wo es lange Zeit nicht als möglich galt, den Erfolg ganzer Kampagnen zu ermitteln, können Experten heute schon auf der Ebene eines einzelnen Werbespots, Internetbanners oder Plakatstandorts sehr präzise Aussagen zur Wirksamkeit machen.

Ähnlich liegt der Fall in anderen klassischen Anwendungsbereichen wie beispielsweise Absatzprognosen für den Handel. Wo früher nur grobe Modelle zur Abbildung saisonaler Schwankungen auf der Basis der Verkäufe früherer Jahre möglich waren, lassen sich heute durch mittlerweile durchaus zuverlässige Wetterprognosen auch sehr konkrete Aussagen über die Nachfrage der nächsten Tage und Wochen machen und Lagerbestände auf dieser Grundlage steuern. Beide Beispiele zeigen auch die Bedeutung von unternehmensexternen Informationen im Kontext Big Data.

Kritischer Faktor Performance

Ein entscheidendes Hindernis bei der Analyse großer Datenmengen war in der Vergangenheit die schlechte Performance. Klassische relationale Datenbank-Management-Systeme (RDBMS) bieten typischerweise zufriedenstellende Antwortzeiten nur bis zu einer Größe von einigen Dutzend Terabyte. Um das zu erreichen, sind jedoch vielfältige Performance-steigernde Maßnahmen (beispielsweise Indizes, Aggregate, OLAP-Würfel, Materialisierte Views, Vorberechnungen) erforderlich, die großen Aufwand mit sich bringen und zu Lasten der Flexibilität gehen. Hinzu kommt, dass RDBMS sich nur für die Speicherung und Analyse von strukturierten Daten eigenen. Text-, Bild-, Ton- und andere unstrukturierte Daten lassen sich zwar grundsätzlich auch dort ablegen, sind aber dort nicht mehr effektiv und schnell genug im Zugriff.

Es haben sich daher für die Analyse von Big Data eine Vielzahl neuer Technologien (allen voran In-Memory-Lösungen, Parallel-Architekturen, Hadoop, NoSQL-Datenbanken) entwickelt, die auch auf sehr großen und verschiedenartigen Datenbeständen schnelle Antwortzeiten ermöglichen sollen. Viele dieser Ansätze verzichten auf eine umfassende Vorverarbeitung und inhaltliche Aufbereitung der Daten, sondern legen sie lediglich technisch optimiert ab.

Die hohe Geschwindigkeit vieler dieser Technologien und die Beibehaltung möglichst vieler Datendetails erlaubt einerseits eine hohe Flexibilität bei Adhoc-Abfragen. Andererseits macht sie es in vielen Fällen auch möglich, komplette Datenbestände zu analysieren und sich nicht auf Stichproben (Samples) zu beschränken, wie es in herkömmlichen Datenanalysen typischerweise der Fall war. Selbst aus kleinen Stichproben lassen sich zwar grundsätzlich valide und übertragbare Muster erkennen, sofern sie qualitativ hochwertig sind, das heißt repräsentativ für den Gesamtdatenbestand sind.

In der Vergangenheit erwies es sich aber als nicht immer einfach, eine ordentliche Zufallsstichprobe zu erstellen, da selbst vermeintlich zufällig ausgewählte Datensätze unbewusste und unerkannte Korrelationen enthalten können. Außerdem gehen bei Stichproben durch die Eliminierung vermeintlicher Ausreißer auch viele weniger prominente Informationen verloren.

Es gibt zahllose Anekdoten von Analysten, die aufgrund falscher Stichproben auf statistische Muster gestoßen sind, die sich im Anschluss nicht auf andere Datenbestände übertragen ließen und daher nutzlos waren. Der Trend im Bereich Mustererkennung und Predictive Analytics geht heute tatsächlich eher dahin, möglichst komplette Datenbestände anstelle von Samples zu analysieren, um auf diese Weise mehr Details zu ermitteln und auch seltene Ereignisse beziehungsweise Muster mit einzubeziehen. Damit das möglich ist, muss jedoch nicht nur die Performance der zugrundeliegenden Datenablage stimmen. Da die Daten kaum noch aufbereitet werden, müssen die Analyse-Tools die Daten auch so nehmen, wie sie kommen. Das heißt vor allem, dass die entsprechenden Werkzeuge robust gegen vielfältige Qualitätsprobleme (zum Beispiel leere Felder, Tippfehler) innerhalb der Daten sein müssen. Auch sollten sie möglichst unempfindlich gegen zugrundeliegende statistische Verteilungen sein.

Anbieter verbessern ihre Werkzeuge

Einer der Vorreiter in dieser Hinsicht war sicherlich die Firma KXEN. Der Spezialanbieter, der 2013 von SAP übernommen worden war, verfügt schon seit über einem Jahrzehnt über Algorithmen, die auch mit unsauberen Daten ohne allzu viele Datenbereinigungen gute Ergebnisse liefern. Tatsächlich belegen aber die Ergebnisse der Data-Mining-Studien von mayato aus den vergangenen Jahren, dass mittlerweile alle wichtigen Anbieter - allen voran SAS und IBM SPSS - ihre Werkzeuge in dieser Hinsicht erheblich verbessert haben und über ähnlich leistungsfähige Algorithmen verfügen.

Hinzu kommen deutlich verbesserte Visualisierungsmöglichkeiten. Der Weg von den Daten zur Erkenntnis lässt sich mit moderner Analysesoftware deutlich verkürzen, was nicht nur Aufwand und Kosten reduziert, sondern den Ablauf der Analyse auch in ein Zeitfenster bringt, das es erlaubt, wiederum über neue Anwendungsgebiete nachzudenken. In vielen Fällen lassen sich Analysen tatsächlich vollständig automatisieren und die gefundenen Muster und Regeln einfach und schnell an neue Gegebenheiten anpassen. Dies führt beispielsweise im Bereich Betrugserkennung dazu, dass neue Maschen schneller als bisher erkannt werden können. Auch auf Veränderungen im Kundenverhalten, zum Beispiel durch das plötzliche Auftauchen eines Konkurrenzangebots, lässt sich so schneller reagieren.

Big Data Analytics erlaubt grundsätzlich nicht nur die Wiedererkennung von bereits bekannten Mustern und die Anwendung von Regeln in Echtzeit, die zuvor mit Hilfe von intelligenten Verfahren ermittelt worden sind. Es können heute vielmehr Systeme entwickelt werden, die sich kontinuierlich selbst optimieren, indem sie immer wieder neue Daten nach veränderten Zusammenhängen prüfen. Realtime Analytics erreicht damit eine neue Qualität. Der Mensch tritt als Analyst in den Hintergrund. Er überwacht den Analysemechanismus lediglich im Sinne eines Monitoring.

In dem Maße, in dem Systeme auch ohne menschliches Zutun funktionieren, tritt auch die Frage zunehmend in den Hintergrund, welche Ursachen und Kausalzusammenhänge hinter einem gefundenen Muster liegen. Was zählt, ist lediglich das Zutreffen einer Prognose und die Wirksamkeit einer Maßnahme. Eine Begründung, wieso dies der Fall ist, interessiert oftmals nicht mehr. Tatsächlich beruhen viele der Analysemodelle auch auf sehr komplexen Zusammenhängen mit nicht selten Dutzenden von Faktoren innerhalb der Daten. In solchen Fällen wären einfache Erklärungsversuche sowieso zum Scheitern verurteilt.

Welche Daten dürfen genutzt werden?

Doch welche Daten dürfen in Analysen mit einbezogen werden und damit beispielsweise potentiell zu einer Ungleichbehandlung von Menschen führen? Darf ein Unternehmen Geschlecht, ethnische Herkunft oder Alter eines Kunden oder Mitarbeiters überhaupt für Analysen heranziehen? Datenschutz und Gleichstellungsgesetze setzen hier grundsätzlich klare Grenzen. Versicherungen mussten bereits auf Unisextarife umstellen, obwohl statistische Risiken von Männern und Frauen in verschiedenen Sparten sich durchaus deutlich unterscheiden. Doch in vielen anderen Branchen und Anwendungsgebieten gibt es noch weite Graubereiche, die zukünftig kontrovers diskutiert werden dürften und auf eine klare Regelung warten.

Für strukturierte Daten gibt es mittlerweile eine Vielzahl von Ansätzen zur effektiven Anonymisierung. Auch wenn diese in der Praxis noch nicht überall Anwendung finden, erlauben sie im Prinzip die Verarbeitung und Analyse im Einklang mit dem Bundesdatenschutzgesetz. Für unstrukturierte Daten ist eine Anonymisierung dagegen oftmals nur schwer oder überhaupt nicht zu erreichen. Indirekte Personenbezüge innerhalb von Texten können beispielsweise so vielfältig sein, dass sie kaum vollständig eliminiert werden könnten. Auch zu einem Foto den formalen Personenbezug zu entfernen, reicht sicher in Zeiten sehr guter Gesichtserkennungssoftware nicht mehr aus. Auch bei strukturierten Daten kann der Verzicht auf die aufbereitende Verarbeitung für Analysen zu Problemen im Bereich Datenschutz führen. (ba/sh)

Big Data: Handlungsempfehlungen -
Big Data: Handlungsempfehlungen
Was sind die Hauptursachen für Fehlschläge? Und was kann das Projektteam dagegen unternehmen?
Big-Data-Vorhaben konsequent auf die Unternehmensstrategie ausrichten.
Vollständigen Business Case mit Nachweis des Return on Investment erstellen.
Detailliertes Pflichtenheft verfassen und pragmatischen Plan mit Reserven für Unvorhergesehenes ausarbeiten.
Kommunikation zwischen allen Stakeholdern sicherstellen.
Das System schrittweise einführen.
Notwendiges Wissen vorab erwerben oder aufbauen.