Von Business Intelligence bis Business Analytics

Ratgeber für den Mittelstand - was ist was bei Big Data?

16.05.2014 von Klaus Manhart, Dr.
Big Data ist kein abgehobener IT-Trend mehr, sondern bestimmt zusehends das praktische Handeln auch von mittelständischen Unternehmen. Im Mittelpunkt von Big Data stehen die zunehmenden Datenmassen, die gespeichert, verwaltet und analysiert werden wollen. Dieser Artikel erklärt die wichtigsten Konzepte, Begriffe und Werkzeuge.

Der Terminus Big Data ist nicht unumstritten, aber er ist nun schon seit etlichen Jahren etabliert und kennzeichnet ein eigenes IT-Gebiet. Wörtlich lässt sich Big Data zunächst im Sinn von "großen Daten(mengen)" verstehen. In der Regel spricht man von Big Data, wenn das Volumen einer bestimmten abgrenzbaren Datenmenge in die Größenordnung der Terabytes (1 Terabyte = 1024 GB), Petabytes (1 Petabyte = 1024 Terabyte) und Exabytes (1 Exabyte = 1024 Petabyte) geht. Solche Datenmengen sind heute keine theoretischen Größen mehr, sondern kommen in der Praxis immer häufiger vor.

Die Entwicklung hin zu Big Data ist kein isoliertes, etwa auf bestimmte Branchen oder Gebiete beschränktes Phänomen, sondern gilt branchenweit und global. Laut den Marktforschern von IDC durchbrachen die digitalen Informationen, die pro Jahr erzeugt oder kopiert werden, im Jahr 2011 erstmals die Zettabyte-Barriere und sind auf 1,8 Zettabyte angeschwollen. Zettabyte ist die nächste Einheit nach Exabyte und entspricht einer Billion Gigabyte an Daten.

Wie groß sind 1,8 Zettabyte? Diese IDC-Grafik veranschaulicht die Datenmenge.
Foto: IDC

Laut IDC ist die Informationsmenge in den vergangenen fünf Jahren um den Faktor fünf gewachsen. Ein Ende ist nicht abzusehen, im Gegenteil: Laut der IDC-Umfrage Big Data in Deutschland erwarten mehr als drei Viertel der deutschen Unternehmen in den nächsten Jahren einen jährlichen Datenzuwachs von bis zu 25 Prozent. 13 Prozent rechnen gar damit, dass ihr Datenberg um 25 bis 50 Prozent wächst.

Warum Big Data jetzt?

Warum schnellen die Datenmengen gerade heute so hoch? Dafür gibt es eine Reihe von Gründen. Weil mittlerweile faktisch "alles" digitalisiert wird, entstehen in zahlreichen Branchen neue Arten von Massendaten und Echtzeitdaten. Vor allem Maschinen und Rechner produzieren enorme Datenmengen: Eine modernes Flugzeug beispielsweise generiert heute in 30 Minuten bis zu 10 Terabyte an Daten. Bei 25.000 Flügen pro Tag entstehen damit Petabytes an Daten.

Auch neue Anwendungen fördern das Datenwachstum. Technologien wie Cloud Computing, RFID, transaktionale Systeme, Data Warehouses, Business Intelligence, Dokumentenmanagement- und Enterprise-Content-Management-Systeme sind IT-Applikationen, die zu Big Data hinführen.

Mögliche Ursachen für Big Data laut Bitkom.
Foto: Bitkom

Den entscheidenden Anteil an der Datenexplosion dürfte aber das Internet haben, kombiniert mit dem zunehmenden Anteil mobiler Geräte und vor allem den sozialen Medien wie Facebook, Twitter und Co. Bei Twitter etwa tummeln sich Millionen von Nutzern, die mindestens einen Account nutzen und oft mehrmals täglich Tweeds absetzen. Bei 140 Zeichen pro Tweed und bei der Geschwindigkeit, in der die Kurzmitteilungen abgesetzt werden, sorgt allein Twitter für mindestens 8 Terabyte an Daten - pro Tag.

Mögliche Ursachen für Big Data laut Bitkom.
Foto: Bitkom

Big Data = Volume + Variety + Velocity

Die riesige Datenmenge ist jedoch nur ein Aspekt von Big Data. Als weithin akzeptiertes Kriterium zur Charakterisierung von Big Data gilt die Formel "V3": Neben der schieren Datenmasse ("Volume") kommen als weitere Merkmale die Vielfalt ("Variety") und die Geschwindigkeit ("Velocity") hinzu.

V3: Die drei Merkmale von Big Data im Überblick.
Foto: IBM

Mit "Vielfalt" sind die Anzahl der unterschiedlichsten Datenquellen gemeint, aus denen die Daten heute sprudeln, sowie die Verschiedenheit der Daten selbst. So müssen Unternehmen heute Daten aus den verschiedensten herkömmlichen und neueren Informationsquellen verwalten und integrieren, einschließlich interner und externer Ressourcen: Daten aus Sensoren etwa, aus der mobilen Kommunikation, von intelligenten Devices oder aus Social-Media-Kanälen und Social-Collaboration-Technologien.

Mit der Vielfalt an Quellen nehmen auch die Datenformate zu. Waren Daten bis vor wenigen Jahren noch gut strukturiert und ließen sich effizient und ohne großen Aufwand als Tabellen in relationalen Datenbanken speichern, sind mit der zunehmenden Komplexität der Datenquellen auch die Datenformate komplexer geworden.

Oft sind die Daten, wie sie heute bei den neuen Medien anfallen, völlig unstrukturiert. Unstrukturierte Daten sind Texte, Bilder, Audio- und Videofiles - also der Löwenanteil an Datentypen im Social-Media-Umfeld. Sie lassen sich schlecht in vorgegebene Schemata pressen.

Nimmt man noch einen Mischbereich an "semi-strukturierten" Daten hinzu wie E-Mails, die mit "Empfänger", "Absender" und "Betreff" eine gewisse Struktur haben, während der Inhalt selbst strukturlos ist, dann haben wir es heute mit einem Mischmasch von strukturierten, semi-strukturierten und unstrukturierten Daten aus einer Vielzahl verschiedener Quellen zu tun.

Typische Datenarten heute

Um solche Daten sinnvoll speichern, verwalten und analysieren zu können, sind neue Wege zu gehen - womit der dritte Aspekt von Big Data zum Tragen kommt: die Geschwindigkeit ("Velocity"). Denn diese großen, aus unterschiedlichen Quellen und in unterschiedlichen Formaten vorliegenden Daten müssen möglichst schnell und effizient gespeichert und analysiert werden. Dies ist insofern eine Herausforderung, als herkömmliche relationale Datenbanksysteme dafür an ihre Grenzen stoßen.

Big Data: Handlungsempfehlungen -
Big Data: Handlungsempfehlungen
Was sind die Hauptursachen für Fehlschläge? Und was kann das Projektteam dagegen unternehmen?
Big-Data-Vorhaben konsequent auf die Unternehmensstrategie ausrichten.
Vollständigen Business Case mit Nachweis des Return on Investment erstellen.
Detailliertes Pflichtenheft verfassen und pragmatischen Plan mit Reserven für Unvorhergesehenes ausarbeiten.
Kommunikation zwischen allen Stakeholdern sicherstellen.
Das System schrittweise einführen.
Notwendiges Wissen vorab erwerben oder aufbauen.

Relationale Datenbanken

Relationale Datenbanken sind für häufige Transaktionen auf Datensatzebene oder für Szenarien mit kleinen bis mittleren Datenvolumen effizient nutzbar. Auf die Verarbeitung und Analyse von Datenmengen im Peta- oder gar Exabyte-Bereich sind sie nicht ausgerichtet. Vor allem aber lassen sich unstrukturierte Daten nicht oder nur mit Verrenkungen in die tabellenorientierten relationalen Datenbanksysteme überführen.

Eine herkömmliche Datenbank wird unsagbar langsam, je mehr Daten zu verwalten sind und je mehr Relationen für eine Abfrage herangezogen werden. Die Performance, die für Abfragen mit akzeptablen Zugriffszeiten erforderlich ist, wird nicht erreicht. Zwar gibt es inzwischen Optimierungen für große Datenbanken, aber ab einer bestimmten Tiefe und Komplexität kann die beste Optimierung nicht mehr helfen.

Auch unstrukturierte Daten sind für herkömmliche Datenbanken ein Problem. Unstrukturierte Daten lassen sich, wie erwähnt, nur schwer ins Tabellenschema pressen. Tabellenorientierte Datenmodelle sind nicht darauf ausgerichtet, mit Unmengen an chaotischen Daten zu arbeiten. Und Social-Media-Daten aus Facebook oder Twitter eine relationale Struktur aufzuzwängen ist kaum machbar.

Ein weiteres Problem: Im Gegensatz zur klassischen Business Intelligence, als es noch Stunden dauerte, um Berichte im Batch-Verfahren zu generieren, werden heutzutage Ad-hoc-Abfragen mit Analyseergebnissen möglichst in Echtzeit erwartet. Sie bilden die Grundlage für umgehende, proaktive Entscheidungen oder ermöglichen sogar ein automatisiertes Eingreifen. Die Ergebnisse solcher Analysen möchten heute nicht nur der Unternehmens-Chef, sondern auch der Abteilungsleiter und andere Entscheidungsträger bis hin zum Sachbearbeiter möglichst zeitnah.

Big-Data-Systeme: ein Überblick

Dies alles sind Gründe, warum spezielle "Big-Data-Systeme" notwendig sind. Sie müssen nicht nur die Datenmassen bewältigen, sondern auch unstrukturierte Daten möglichst effizient bearbeiten - und das Ganze möglichst schnell.

Wegbereiter solcher Big-Data-Werkzeuge war Google. Mit dem Programmiermodell MapReduce konnte der Konzern die Verarbeitung der Datenmassen so aufteilen, dass die Infrastruktur flexibel an die Datengröße angepasst werden kann. Daraus entstand das populäre Open-Source-Projekt Hadoop - heute neben In-Memory und NoSQL-Datenbanken für unstrukturierte Daten der Standard für Big Data.

Das Herzstück der Big-Data-Analyse aber bilden Modelle und Algorithmen, die darauf getrimmt sind, Zusammenhänge in den Datenbergen aufzuspüren sowie Muster und Ähnlichkeiten zu erkennen. Diese - auf große Datenmengen ausgerichteten - Predictive- oder Analytics Lösungen helfen nicht nur, schnell und akkurat ein Bild der Gegenwart zu zeichnen, sondern auch, Vorhersagen zu treffen und damit Prognosen über künftige Entwicklungen aufzustellen.

Daten beherrschen - MapReduce und Hadoop

Ein Big-Data-System, das alle genannten Anforderungen erfüllt, gibt es nicht. Aber es gibt für jede der Problemstellungen adäquate Methoden und Werkzeuge. Für die Frage, wie man große Datenmassen effizient speichert und verarbeitet, hat sich etwa das altrömische Prinzip "Teile und herrsche" als geeignet erwiesen.

Statt die Daten an einem zentralen Ort zu speichern und zu verarbeiten, werden sie verteilt und parallel bearbeitet. Das ist das Grundprinzip des von Google entwickelten MapReduce-Algorithmus. Die beiden wichtigsten Bausteine dieses Ansatzes sind erstens ein distributives (= verteiltes) Dateisystem, das Daten auf den lokalen Speicher eines Rechner-Clusters - also eines Rechnerverbundes - verteilt, und zweitens eine Instanz, die ein Problem in Teilaufgaben aufgliedern und die Ergebnisse wieder zusammenfügen kann.

Der Google-Algorithmus verwendet dazu einen "Koordinator", der die Datenmassen aufsplittet und sie anhand von vordefinierten Regeln auf die einzelnen Server verteilt. Jeder dieser Server speichert und bearbeitet nur den ihm zugewiesenen, winzigen Ausschnitt der Datenmenge. Bei einer Berechnungsanfrage verteilt der Koordinator die Aufgaben auf in der Nähe befindliche Server. Da die Tasks den einzelnen Serverknoten zugeordnet werden (= Mapping), werden sie als "Map-Tasks" bezeichnet.

Die Map-Tasks berechnen zunächst Zwischenergebnisse, die der Koordinator bei Bedarf sortiert und in einem temporären Speicher ablegt. Sind alle Zwischenergebnisse kalkuliert, ist die Map-Phase beendet. Das Endergebnis wird dann durch Aggregation, das heißt durch Kombinieren, Zusammenführen und Konsolidieren der Zwischenergebnisse, in einem sogenannten Reduce-Vorgang berechnet. Daher werden diese Tasks als "Reduce-Tasks" bezeichnet.

Eine konkrete Implementierung des MapReduce-Algorithmus ist Apache Hadoop. Die verteilt arbeitende Software realisiert die eben beschriebenen Parallel-Computing-Prinzipien und besteht aus zwei zentralen Bestandteilen:

Vor mehreren Jahren hat die Apache Software Foundation die Hadoop-Plattform als Open-Source-Software freigegeben. Das in Java geschriebene Framework lässt sich auf mehrere Tausend Server skalieren, arbeitet fehlertolerant und gilt als Branchenstandard für Big-Data-Umgebungen.

Hadoop-Distributionen im Kurzprofil -
Hadoop-Distributionen im Kurzprofil
Im Zuge von Big Data steigt in deutschen Unternehmen das Interesse an einem Framework für eine hoch skalierbare Infrastruktur zur Analyse großer Datenmengen. Die Open-Source-Variante Hadoop hat sich hier als Quasi-Standard etabliert. Mittlerweile sind jedoch auch Enterprise-Distributionen einiger Hersteller auf dem Markt, darunter auch IBM und Microsoft. Wir stellen sieben Anbieter und ihre Produkte vor.
Amazon Elastic MapReduce (EMR)
Amazons Cloud-basierter Service "Elastic MapReduce" (EMR) nutzt Hadoop für die Verteilung der Daten und die Verarbeitung auf einem skalierbaren Cluster. Dieses Cluster besteht aus Server-Instanzen, die Amazon EC2 (Elastic Compute Cloud) bereitstellt, sowie aus Speicherkapazitäten von Amazon S3. Ein Vorteil ist, dass der User ein EMR-Cluster in wenigen Minuten einrichten kann. Er muss sich weder um die Bereitstellung von Knoten noch um das Konfigurieren von Clustern und Hadoop kümmern.
Cloudera
Die US-Firma Cloudera zählt zu den bekanntesten Anbietern von Hadoop-Distributionen. Im März 2014 beteiligte sich Intel mit angeblich 720 Millionen Dollar an dem Unternehmen und brachte seine eigene Hadoop-Technik in die Partnerschaft ein.
Hortonworks
Die aktuelle Version 2.1 der "Hortonworks Data Platform" steht seit Kurzem zur Verfügung. Eine Besonderheit ist, dass Hortonworks nicht nur Linux, sondern auch Windows unterstützt. Die Hadoop-Distribution enthält unter anderem die Tools Stinger Solr und Storm, aber auch Lösungen für Sicherheit sowie IT- und Daten-Governance.
IBM mit InfoSphere BigInsights
IBMs Distribution "InfoSphere-BigInsights" wird von Forrester Research in einer Studie zu Hadoop-Distributionen von Anfang 2014 gut bewertet. Das überrascht ein wenig, weil das Unternehmen nicht unbedingt als Open-Source-Spezialist bekannt ist. Allerdings verfügt IBM über alle Tools und Kenntnisse, die für Big Data vonnöten sind: Datenbanken, Analysewerkzeuge, Erfahrung im Bereich Cluster und High-Performance-Computing, Datenmodellierungs-Tools etc.
Intel
Seinen Ausflug in Hadoop-Regionen hat Intel im März 2014 nach einem Jahr bereits wieder beendet. Mit der "Intel Distribution for Hadoop Software" hatte das Unternehmen eine Big-Data-Software-Plattform auf Basis von Hadoop entwickelt. Sie setzte weitgehend auf der Software von Apache auf, inklusive YARN.
MapR
MapR stellt laut einem Test von Flux7 eine Hadoop-Distribution zur Verfügung, die sich durch besonders hohe Performance auszeichnet. Dazu trägt das hauseigene File-System MapR-FS bei, das anstelle des Original-Dateisystems HDFS von Hadoop zum Zuge kommt. Weitere Besonderheiten sind die Unterstützung von NFS (Network File System), Änderungen an HBase, die sich in kürzeren Antwortzeiten niederschlagen, sowie die Option, unterschiedlichen Programmcode im Cluster laufen zu lassen.
Microsoft HDInsight
Mit "HDInsight Hadoop" stellt Microsoft eine Apache-Hadoop-Distribution über seine Cloud-Plattform Azure bereit. Auf der Entwicklerkonferenz "Build" gab Microsoft Anfang April 2014 in San Francisco bekannt, dass der Hadoop-Cloud-Service HDInsight Hadoop auf die aktuelle Version 2.2 upgedatet wurde. Zudem steht den Nutzern nun auch "Hadoop YARN" (Yet Another Resource Negotiator) zur Verfügung. Damit lassen sich auch Streaming-Daten verarbeiten.
Pivotal HD
Als Hadoop-Distribution, die im Gegensatz zur Standardversion der Software auch SQL-Datenbanken als Datenquellen nutzen kann, positioniert sich "Pivotal HD". Die Distribution basiert auf Hadoop 2.0 und verbindet EMCs Greenplum-Datenbank mit der Open-Source-Software. Die engen Bande zu EMC kommen nicht von ungefähr, weil Pivotal eine Ausgründung des Storage-Spezialisten ist.

Echtzeitanalyse - In-Memory-Datenbanken

Ein Hadoop-Cluster löst wie angedeutet nicht alle Big-Data-Aufgaben. Liegen die Daten auf der Festplatte, kannibalisieren langsame Datenbankzugriffe das, was man beim Parallelisieren gewonnen hat. Für die beschleunigte Verarbeitung extrem großer Datenmengen haben sich In-Memory-Datenbanken etabliert. Diese Datenbanken machen sich die Tatsache zunutze, dass das Speichern und Abrufen von Daten im Arbeitsspeicher (RAM) deutlich schneller vor sich geht als von Festplatten.

In-Memory-Datenbanken laden deshalb das gesamte Datenvolumen - zusammen mit den Datenbankanwendungen - in den Hauptspeicher, der dann entsprechend groß dimensioniert sein sollte. Dort kann die sehr schnelle Analyse erfolgen. Die Analyse von Geschäftsdaten kann mit In-Memory-Datenbanken praktisch in Echtzeit ausgeführt werden und nimmt nicht Tage oder gar Wochen in Anspruch.

Mit dem inzwischen recht populären HANA bietet SAP beispielsweise eine auf In-Memory-Technik basierende Applikation, die Mitte 2010 von ihren geistigen Vätern Hasso Plattner und Technik-Chef Vishal Sikka als Hochleistungsplattform für die analytische Bearbeitung großer Datenmengen entwickelt wurde.

In-Memory-Datenbanken sind inzwischen kein Nischenthema mehr. Laut einer von TNS-Infratest im Auftrag von T-Systems durchgeführten Studie haben 43 Prozent der deutschen Unternehmen In-Memory-Technologien zur Datenauswertung bereits im Einsatz oder planen dies für die nahe Zukunft. 90% verweisen dabei auf gute und sehr gute Erfahrungen.

V3: die drei Merkmale von Big Data im Überblick.
Foto: PAC

Nicht nur SQL - NoSQL-Datenbanken

Für die effiziente Speicherung und Verwaltung unstrukturierter Daten haben sich im Big-Data-Umfeld NoSQL-Datenbanken etabliert. SQL ist bekanntlich die Abfragesprache für die klassischen, tabellenorientierten Datenbanken. NoSQL ist der Name einer Bewegung weg von den relationalen Datenbanken hin zu neuen beziehungsweise vergessenen Datenbankmodellen. Der Begriff "NoSQL" steht dabei nicht für "kein SQL", sondern für "nicht nur SQL" (= not only SQL).

NoSQL soll bestehende Datenbanktechnologien also nicht ersetzen, sondern ergänzen, und zusätzlich zu den klassischen Datenbanken eingesetzt werden. Entsprechende Daten können dann wieder in strukturierte Datensysteme überführt und als Kennzahlen beispielsweise in ein Data-Warehouse eingespeichert werden. Der Unterschied zu SQL-Datenbanken ist nicht so groß, wie man meinen möchte, zumal die Abfragen dieser Nicht-SQL-Datenbanken jenen in SQL ähneln.

In graphenorientierten Dateiformaten wie dem Resource Description Framework, kurz RDF, werden Informationen als Graphen in Form von Triples abgelegt.
Foto: Bitkom

Bei NoSQL-Datenbanken gibt es mehrere Varianten, die auf jeweils spezifische Probleme zugeschnitten sind. Eine Variante von NoSQL-Datenbanken sind beispielsweise Graphen-Datenbanken. Bei diesen Datenbanken werden unstrukturierte Daten in Diagrammen durch Knoten und Kanten zusammen mit ihren Eigenschaften gespeichert. Das dabei oft genutzte Datenbankformat RDF (Resource Description Framework) stellt ein Format ohne fixes Schema bereit, das die Informationen innerhalb der Graphen speichert. Eine typische Anwendung dafür ist die Darstellung von Nutzerbeziehungen innerhalb von sozialen Netzwerken.

Blick in die Zukunft - Predictive Analytics

Die eben genannten Werkzeuge sind die Basis für die Speicherung und Verwaltung von Informationen in Big-Data-Szenarien. Für die Analyse und insbesondere die Echtzeitanalyse der Daten hat sich der Begriff Analytics oder Predictive Analytics etabliert.

Predictive Analytics umfasst vor allem Methoden, die in die Zukunft schauen können und dabei Echtzeitinformationen liefern. Diese analytischen Lösungen helfen nicht nur, schnell und akkurat ein Bild der Gegenwart zu zeichnen, sondern auch, Vorhersagen zu treffen und damit Prognosen über künftige Entwicklungen aufzustellen. Dies geschieht auf Basis von statistischen Methoden, Datenmodellen und Simulationen mit Best-Case- und Worst-Case-Szenarien.

Werden die Systeme mit entsprechenden Daten gefüttert, können sie fundierte Vorhersagen geben und bei der Ressourcenplanung und Risikobewertung wichtige Dienste leisten. So können Nutzer nicht nur herausfinden, was im Business quasi "im Rückspiegel" passiert ist, sondern, warum es passiert ist und was weiter passieren könnte.

Für die Analyse der Daten bedient man sich oft der Methoden und Werkzeuge des Data Minings. Klassische Data-Mining-Methoden umfassen beispielsweise die Klassifizierung (Clustering), die Entscheidungsbaumanalyse, neuronale Netze sowie die Assoziationsanalysen. Banken verwenden etwa die Entscheidungsbaumanalyse zur Erkennung von Kreditkartenbetrug und für die Profilerstellung von Kunden, die mit einer gewissen Wahrscheinlichkeit ihre Kreditverbindlichkeiten nicht erfüllen können.

Im Marketing werden Assoziationsanalysen und Clustering genutzt, um Absatzprognosen, Kundensegmentierungen, Warenkorbanalysen und Missbrauchserkennungen durchzuführen. Mit Cluster-Analyse und Regressionsverfahren können bestehende Kunden in immer neue Gruppen aufgeteilt werden. Die Cluster-Analyse ermöglicht es beispielsweise, profitable und weniger profitable Kunden zu unterscheiden.

Predictive Analytics ist jedoch nicht nur Data Mining. Darüber hinaus spielen auch Methoden des Operations Research wie Optimierungsrechnung und Simulation eine Rolle, ferner modelltheoretische Ansätze wie die mathematische Spieltheorie. Softwareseitig bilden In-Memory-Datenbanken wie SAP HANA und Hadoop meist eine tragende Rolle bei Predictive-Analytics-Lösungen.

Bei der Analyse von Big Data helfen Data-Mining-Verfahren – hier eine Zusammenstellung einiger Probleme (links) und möglicher Verfahren.
Foto: Bitkom

Warum Big Data? - Der praktische Nutzen

Natürlich haben all diese neuen Konzepte und Werkzeuge einen praktischen Nutzen. Besonders in Marketing und Vertrieb ist die Analyse großer Datenmengen für Unternehmen von unschätzbarem Wert. Denn in den Kundendatenbergen stecken Schätze, die man nur heben muss.

So versetzt Big Data Unternehmen in die Lage, feinkörnige Bevölkerungs- und Kundensegmente zu erstellen und ihre Waren und Dienstleistungen auf deren Bedarf zuzuschneiden. Eine detaillierte Segmentierung von Zielgruppen erleichtert deren Ansprache, vermindert die Streuverluste und somit auch die Kosten für Marketingkampagnen.

Je mehr man über seine Kunden weiß, desto besser kann man Services und Produkte auf diese zuschneiden. Beispielsweise wollen Unternehmen Stimmungen oder Produkt- und Firmennamen in Social Networks aufspüren. Oder durch Auswertung von Kundenkommentaren Vorschläge für die Verbesserung von Produkten gewinnen. Oder einfach ihr Business verbessern.

Dem Handel eröffnen sich Cross-Selling-Potenziale, indem Einzelhändler beispielsweise typische Muster für Kaufentscheidungen identifizieren. Online-Händler erhöhen mit solchen Analysen den Umsatz pro Kaufvorgang. Im Rahmen von Cross-Selling-Maßnahmen könnten aber auch über einen Kunden bekannte Daten wie Transaktionen oder aktuelle Standortdaten verwendet und mit weiteren - beispielsweise demografischen - Daten in Echtzeit in Beziehung gesetzt werden. Händler sind so in der Lage, einem Kunden zu einem bestimmten Zeitpunkt an einem Ort spezifische Angebote zu unterbreiten.

Mit analytischen Verfahren lassen sich Kunden beispielsweise in wichtigere und weniger wichtige segmentieren.
Foto: Bitkom

Besonders lukrativ ist heute die Auswertung von Social-Media-Kanälen. Sie liefert frühe Signale für gesellschaftliche Trends und eröffnet die Chance, Märkte mit genau darauf abgestimmten Produkten zu erschließen. Erfolgreiche Unternehmen wie Apple oder Google nutzen diese Möglichkeiten virtuos.

Kopie: Big Data: Neue Berufsbilder -
Big Data: Neue Berufsbilder
In den teilweise euphorischen Einschätzungen von Markforschern und IT-Unternehmen ist immer wieder die Rede von neuen Berufsbildern, die Big Data mit sich bringen soll. Dazu zählen unter anderem folgende Tätigkeiten:
Data Scientist
Er legt fest, welche Analyseformen sich am besten dazu eignen, um die gewünschten Erkenntnisse zu erzielen und welche Rohdaten dafür erforderlich sind. Solche Fachleute benötigen solide Kenntnisse in Bereichen wie Statistik und Mathematik. Hinzu kommen Fachkenntnisse über die Branche, in der ein Unternehmen beziehungsweise tätig ist und über IT-Technologien wie Datenbanken, Netzwerktechniken, Programmierung und Business Intelligence-Applikationen. Ebenso gefordert sind Verhandlungsgeschick und emotionale Kompetenz, wenn es um die Zusammenarbeit mit anderen Abteilungen geht.
Data Artist oder Data Visualizer
Sie sind die "Künstler" unter den Big-Data-Experten. Ihre Hauptaufgabe besteht darin, die Auswertungen so zu präsentieren, dass sie für Business-Verantwortliche verständlich sind. Die Fachleute setzen zu diesem Zweck Daten in Grafiken und Diagramme um.
Data Architect
Sie erstellen Datenmodelle und legen fest, wann welche Analyse-Tools Verwendung finden und welche Datenquellen genutzt werden sollen. Auch sie benötigen ein umfassendes Know-how auf Gebieten wie Datenbanken, Datenanalyse und Business Intelligence.
Daten-Ingenieur
Diese Aufgabe ist stark auf die IT-Infrastruktur ausgerichtet. Der Dateningenieur ist das Big-Data-Analysesystem zuständig, also die Hard- und Software sowie Netzwerkkomponenten, die für das Sammeln und Auswerten von Daten benötigt werden. Eine vergleichbare Funktion haben System- und Netzwerkverwalter im IT-Bereich.
Information Broker
Er kann mehrere Rollen spielen, etwa die eines Datenhändlers, der Kunden Informationen zur Verfügung stellt, oder die eines Inhouse-Experten, der Datenbestände von unterschiedlichen Quellen innerhalb und außerhalb des Unternehmens beschafft. Außerdem soll er Ideen entwickeln, wie sich diese Daten nutzbringend verwenden lassen.
Data Change Agents
Diese Fachleute haben eine eher "politische" Funktion. Sie sollen bestehende Prozesse im Unternehmen analysieren und anpassen, sodass sie mit Big-Data-Initiativen kompatibel sind. Nur dann lässt sich aus solchen Projekten der größtmögliche Nutzen ziehen. Wichtig sind daher ausgeprägte Kommunikationsfähigkeiten, Verständnis für Unternehmensprozesse sowie Kenntnisse im Bereich Qualitätssicherung und Qualitätsmanagement (Six Sigma, ISO 9000).