Eine Frage der Technik

Big Data erfolgreich beherrschen

10.12.2013 von Martin Bayer

Wer Big Data erfolgreich beherrschen will, muss sich aus verschiedenen Werkzeugkästen den richtigen Tool-Mix zusammenstellen. Die eine Lösung, die alle Probleme behebt, gibt es nicht.

Dass die Datenmengen wachsen und auch in Zukunft wachsen werden, ist eine Binsenweisheit und dürfte sich mittlerweile in jedem Unternehmen herumgesprochen haben. Die Beherrschung der Datenflut allein mit Big Data gleichzusetzen greift jedoch zu kurz. Das Thema hat viele unterschiedliche Facetten. Genau das macht es für Anwenderunternehmen alles andere als banal und einfach, das Big-Data-Phänomen anzugehen. Folgende Aspekte spielen zusammen:

Neben der puren Menge an Daten wächst auch die Zahl der Datenquellen, die die Unternehmen im Blick behalten müssen. Es sind nicht mehr nur die klassischen transaktionalen Systeme, aus denen die Daten in die Firmen sprudeln. Vielmehr gilt es heute auch Maschinendaten beziehungsweise Informationen aus sozialen Netzwerken richtig zu kanalisieren.
Mit der Vielzahl der Datenquellen wächst auch die Datenvielfalt. Zu den strukturierten Transaktionsdaten, die sich klassisch in relationalen Datenbanksystemen fassen lassen, kommen wenig beziehungsweise kaum strukturierte Daten hinzu wie beispielsweise Texte, Bilder und Videos. Um diese Datentypen sinnvoll zu analysieren und zu verwalten und bearbeiten, sind neue Wege zu gehen.
Zugleich müssen Daten und Informationen immer mehr Nutzern zugänglich gemacht werden. Das betrifft nicht nur die Mitarbeiter im eigenen Unternehmen, sondern die gesamte Wertschöpfungskette - vom Lieferanten bis hin zu den Kunden. Es wächst also nicht nur die Zahl der Datenquellen, sondern auch die der Datenkonsumenten.
Unterschiedliche Datenquellen, verschiedene Datentypen sowie die immer weiter reichende Verteilung von Informationen stellen neue Herausforderungen an den Datenschutz. Darüber hinaus bergen die komplexer werdenden Dateninfrastrukturen die Gefahr von Fehlern und Manipulationen. Daher nimmt die Bedeutung von Datenintegrität und Datenqualität weiter zu.

Doch damit hört die Komplexität rund um Big Data noch nicht auf. Genauso vielschichtig und undurchsichtig wie die durch die Datenflut verursachten Herausforderungen präsentiert sich das Angebots- beziehungsweise Lösungspanorama. Mit der Verbreitung des Big-Data-Begriffs habe sich eine unübersichtliche Anbieterlandschaft entwickelt, sagen die Analysten der Experton Group. Komplexe Pakete tauchen ebenso wie Einzelbausteine als Big-Data-Lösungen am Markt auf. Hinzu kommen Anbieter, die vorhandene Produkte Dritter mit ihren eigenen Lösungen kombinierten. Hier den Überblick zu behalten fällt zunehmend schwer.

Erfahrungen beim Einsatz von Big-Data-Techniken
Es ist nicht so, dass noch niemand Big-Data-Projekte angegangen wäre. Es gibt sogar einige Beispiele von Unternehmen, die solche Projekte mit Erfolg absolviert haben.

Deutsche Welle
„Essenziell auch für Big-Data-Projekte sind eine klare Aufgabenstellung, Fokus auf die Lösung und die Nutzer dieser Lösung (weniger auf neueste Informationstechnik) und nicht zuletzt auch ein Gespür für Usability und Funktionsumfang eines Reporting-/Analyse-Dashboards. Weniger ist hier meistens mehr.“

DeutschlandCard GmbH
„Nur ein minutiöser Migrationsplan mit mindestens einer kompletten Generalprobe inklusive Fallback-Test sichert die Betriebssicherheit einer solch komplexen Applikation mit ihren zahlreichen Schnittstellen zu externen Partnern.“

Schukat Electronic
„Big Data Analytics ist nicht nur eine Herausforderung für Großunternehmen. Auch der Mittelstand muss sich immer mehr mit diesem Thema beschäftigen, um im internationalen Wettbewerb erfolgreich zu sein. Das Anwendungsbeispiel verdeutlicht den Nutzen im Vertrieb. Aber beispielsweise auch in der Produktion mit Sensordaten etc. gibt es vielfältige Szenarien in den Fachabteilungen.“

Otto Versand
„Wir haben erkannt, dass für unsere Anforderungen ein selbstlernendes System notwendig ist, das sich stetig ändernde Einflussfaktoren wie Ansprache und Artikel- Ranking oder im Printbereich Seitenanteil und Katalogausstoßmenge berücksichtigt. Damit steigt unsere Prognosequalität kontinuierlich, und die prognostizierten Absatzmengen werden immer präziser. Außerdem können wir uns frühzeitig auf künftige Entwicklungen einstellen.“

Macy‘s
„Der Business-Nutzen zeigt sich erst, wenn Prozesse, die aufgrund fehlender Möglichkeiten bewusst eingeschränkt waren, verbessert werden. In diesem Fall ist es die früher gar nicht mögliche, sehr viel häufigere Preisoptimierung im Gesamtsortiment. Auch können nun sehr viel aktuellere Abverkaufszahlen mit in die Analyse einbezogen werden.“

Telecom Italia
„Bestehende Segmentierungsmodelle können um rollenbasierte Modelle erweitert werden, indem der Einfluss auf das soziale Umfeld durch Leader, Follower etc. verdeutlicht wird. Leader gelten als Kommunikations-Hubs und haben einen starken Entscheidungseinfluss auf ihr Umfeld. Marketing- Strategien und Ansätze zur Kundenakquise können durch SNA optimiert werden. Eigenschaften der Communities, Wechsel zwischen den Communities und die Identifikation von Teilnehmern in Schnittstellenbereichen ermöglichen Rückschlüsse auf neue Kundensegmente und Zielgruppen.“

Netapp
„Das auf Apache Hadoop basierende System arbeitet sicher, zuverlässig und höchst performant. Die Java-basierende Plattform verwendet offene Technologien und ist somit flexibel erweiterbar. Kunden vermeiden so bei niedrigen Betriebskosten (TCO) ein Vendor-Lock-in.“

Semikron GmbH
„Big-Data-Projekte sind komplex. Oft sind Unternehmen nicht in der Lage, ihre tatsächlichen Datenbestände für die geplanten Projektvorhaben hinsichtlich ihrer Volumenentwicklung abzuschätzen. Bei Semikron hat sich beispielsweise gezeigt, dass sie von einem viel größeren Datenvolumen ausgegangen sind, als es tatsächlich der Fall war. Bei dem durchgeführten Proof of Concept stellte sich heraus, dass zwar die Vielzahl an Daten, die in den typischen Produktionsprozessen anfallen, sehr hoch ist, nicht aber das Datenvolumen.“

Vaillant Group
„Allein die Umstellung der Systemlandschaft auf innovative Big-Data-Architekturen aus technischer IT-Perspektive ergibt belastbare Business Cases zur Reduzierung des TCO. Noch deutlich übertroffen werden für Fachabteilungen die Resultate aus dem Mehrwert der neuen Lösungen und Möglichkeiten in Verbindung mit der drastischen Reduzierung der Bearbeitungszeiten durch die Anwender.“

TomTom
„Um die kompletten Anforderungen des Kunden in Big- Data-Projekten erfüllen zu können, ist übergreifendes Know-how erforderlich, das die Konfiguration von Hard- und Software, das Tuning und technisches Consulting umfasst.“

United Overseas Bank (Singapur)
„Entscheidend ist das Denken in Geschäftsprozessen. Wird nur ein Teil beschleunigt, der Gesamtprozess bleibt aber unangetastet, so lässt sich der Vorteil nicht realisieren. Sowohl das Daten-Management im Vorfeld als auch die Echtzeit-Nutzung der Echtzeit-Ergebnisse sind bestimmende Faktoren für den erfolgreichen Einsatz dieser neuen Lösung.“

Xing
„In kürzester Zeit stellten sich positive Effekte bei Xing ein, vor allem eine deutliche Verbesserung bei den Analysen. Prozesse können durch die neue Lösung schneller entwickelt und Ad-hoc Anfragen zügiger beantwortet werden. Es sind keine langen Workarounds mehr notwendig, alle BI-Mitarbeiter nutzen das neue System effektiv. Die Komplexität und die Wartung des Systems wurden merklich verringert. Bei der Arbeit mit der neuen Lösung konnte eine steile Lernkurve seitens der Anwender verzeichnet werden, auch wird spürbar produktiver gearbeitet.“

In eigener Sache:
Mit diesen Anwenderzitaten wollen wir Ihnen Lust machen auf das nächste Heft in unserer vierteiligen Quadriga-Reihe. Titelthema ist Big Data. Anwenderbeispiele, visionäre Konzepte und Meinungen runden das Thema ab. Auch auf die Megatrends Mobility, Cloud Computing und Social Media werden wir wieder eingehen. Erscheinungstermin: 10. Juni 2013.

Daten für Windräder

Die Angelegenheit wird aus Sicht der Analysten auch dadurch komplizierter, dass viele Anbieter in ihrer Kommunikation auf theoretischen Anwendungsbeispielen aufbauten. Konkrete Referenzen sind in diesem noch jungen Markt eine Seltenheit. Dort, wo es sie gibt, sind sie meist sehr spezifisch und kaum auf andere Unternehmen zu übertragen. IBMs Big-Data-Vorzeigeprojekt beim dänischen Windkraftanlagenhersteller Vestas, der für die Wahl des richtigen Standorts bis zu 160 verschiedene Faktoren und damit Daten im Petabyte-Bereich untersucht, ist so ein Beispiel.

Dasselbe gilt für SAPs "Oncolyzer", der in der Berliner Charité auf Basis der In-Memory-Datenbank HANA in kürzester Zeit verschiedenste medizinische Daten auswerten und so eine individuelle Krebstherapie ermöglichen soll. Für andere Unternehmen bleibt es angesichts solcher Individualfälle schwierig, die richtige Antwort für ihr eigenes Big-Data-Problem zu finden.

The Big Five

Die Analysten haben fünf verschiedene Themengebiete definiert, die Anwender bei ihrer Suche im Blick behalten sollten:

Big-Data-Infrastruktur: Datenspeicherlösungen, Verknüpfung von Daten und Datenbanken, Appliances, Computerhardware.
Big-Data-Aggregation: Zusammenführen von Daten aus unterschiedlichen Quellen, Integration, Data-Security, -Integrity und -Quality.
Big-Data-Analytics: Business-Intelligence-Lösungen, Data Warehouse, Advanced Analytics.
Big-Data-Syndizierung: Visualisierung und Ausspielen von Ergebnissen an viele Benutzer, Konzepte wie Linked Open Data.
Big-Data-Consulting und -Services.

Die Herausforderungen in Sachen Technik beginnen mit der Infrastruktur. Drei Viertel aller IT-Entscheider sehen Handlungsbedarf, ihre Storage- und Datenbanksysteme anzupacken. Auswirkungen auf die Analysen und Reporting hat dagegen erst die Hälfte der Befragten ausgemacht.

Rumorender DB-Markt und Hadoop

Gefordert auf der Infrastrukturseite sind unter anderem die Hersteller von Datenbanken. Lange Zeit schienen die Verhältnisse in diesem Markt klar. In den Anwenderunternehmen waren die relationalen Datenbank-Management-Systeme (RDBMS) gesetzt. Die Claims hatten die drei großen Anbieter Oracle, IBM und Microsoft unter sich aufgeteilt. Doch seit einiger Zeit rumort es. Im Zuge von Big Data stoßen die klassischen Systeme an ihre Grenzen. Diskussionen werden lauter, wie die Zukunft der Datenbanken aussehen könnte. Techniken wie NoSQL, In-Memory und Hadoop finden mehr Aufmerksamkeit.

SQL or NoSQL

Gerade mit der wachsenden Flut wenig strukturierter Daten, die sich nur schwer in das Raster einer relationalen Datenbank pressen lassen, wächst das Interesse an NoSQL-Systemen. Das Kürzel steht für "Not only SQL", ist also primär nicht als Ersatz für relationale Systeme gedacht, sondern eher als Ergänzung. Während herkömmliche Datenbanken auf Tabellen und Relationen aufbauen, können in NoSQL-Datenbanken verschiedene Datenmodelle zum Einsatz kommen. Das heißt jedoch auch, dass NoSQL nicht gleich NoSQL ist. Die unterschiedlichen Varianten haben Stärken und Schwächen, es gilt also genau zu prüfen, ob das individuelle Anwendungsszenario auf die jeweilige NoSQL-DB passt.

Knoten für Knoten

Die Architektur setzt meist auf viele zusammengeschaltete Standard-Server. Skaliert wird einfach dadurch, dass weitere Rechenknoten hinzugefügt werden. Prominentes Beispiel dafür ist Hadoop. Das Framework besteht im Wesentlichen aus zwei Teilen: Das Hadoop Distributed File System (HDFS) verteilt die Daten auf die verschiedenen Knoten. Dort werden die Daten mit Hilfe des von Google entwickelten MapReduce-Algorithmus verarbeitet. Die Grundidee dahinter: Rechenaufgaben in viele kleine Teilaufgaben zu zerlegen und im Cluster zu verteilen.

Diese Parallelisierung und die Tatsache, dass die Daten an ihrem Ablageort verarbeitet werden, sollen dafür sorgen, dass Ergebnisse deutlich schneller vorliegen. Hadoop scheint sich derzeit mehr und mehr in der Datenbankbranche etablieren zu können. Anbieter wie Cloudera und Intel bauen eigene Distributionen des Open-Source-Stacks, indem sie das Framework mit zusätzlichen Tools ergänzen. Zudem bieten die großen Datenbankanbieter wie Oracle, IBM und Microsoft mittlerweile Konnektoren an, um ihre Systeme mit Hadoop zu verknüpfen.

Turbo-In-Memory

Weitere Schlagworte, die die Datenbankszene umtreiben, sind In-Memory-Computing und spaltenorientierte Datenbanken - Techniken, wie sie die SAP in ihrer HANA-Appliance kombiniert. In-Memory-Systeme zeichnen sich dadurch aus, dass die Daten primär im Arbeitsspeicher vorgehalten und dort deutlich schneller verarbeitet werden können. Ist das entsprechende System zudem spaltenorientiert aufgebaut, lassen sich Daten schneller lesen. Damit eignen sich diese Systeme vor allem für analytische Anwendungen (Online Analytical Processing = OLAP). Müssen dagegen oft und viele Daten in die Datenbank geschrieben werden wie im Umfeld transaktionaler Systeme (Online Transaction Processing = OLTP), sind zeilenorientierte Datenbanken im Vorteil.

All-in-One

Trotz aller Neuerungen glauben die Befürworter der klassischen RDBMS nicht an das Ende ihrer Systeme. Die neuen Techniken würden über kurz oder lang assimiliert. Zudem hätten die etablierten Systeme bereits heute vergleichbare Funktionen im Programm, wie sie beispielsweise Hadoop bietet. Darüber hinaus forcieren die alten Hasen im Datenbankgeschäft derzeit einen Appliance-Ansatz. Mit vorkonfigurierten Systemen aus Hardware und Software soll den Kunden eine Komplettlösung für das Daten-Handling geboten werden. Oracle offeriert dafür seine Exadata-Maschinen, IBM hat im Rahmen seiner Puresystems spezielle Datenbank-Appliances im Portfolio.

Jetzt aber flott!

Steht mit der Infrastruktur die Big-Data-Basis, geht es im nächsten Schritt darum, Nutzen aus den Daten zu ziehen. Dabei kommen Werkzeuge rund um Analytics und Business Intelligence (BI) ins Spiel. Wie im Datenbankumfeld hat sich auch in dieser Szene in der jüngsten Vergangenheit einiges verändert. Neben dem klassischen Reporting geht es heute verstärkt darum, Daten in Echtzeit zu verarbeiten und zu analysieren, beispielsweise Finanzinformationen kontinuierlich auszuwerten, um Kreditkartenbetrügern auf die Schliche zu kommen. Ein anderes Beispiel ist eine intelligentere Verkehrssteuerung. So werden in Stockholm in jeder Sekunde 250.000 Standortdaten von Verkehrsteilnehmern, Video- und Sensorsystemen erfasst, ausgewertet und zur Verkehrssteuerung eingesetzt.

In den Unternehmen soll das Management mit in Echtzeit vorliegenden Ergebnissen in die Lage versetzt werden, schnellere und vor allem bessere Entscheidungen zu treffen. Es werde immer wichtiger, in einem sich rasch verändernden Umfeld Entwicklungen frühzeitig zu erkennen, sagen BI-Experten. Nur dann könne man auch rechtzeitig darauf reagieren.

Das neue Orakel

Diese Trends führen in der logischen Konsequenz dazu, dass für die Unternehmen Werkzeuge wichtiger werden, die ihnen helfen, künftige Entwicklungen möglichst exakt vorherzusagen. Viele BI-Anbieter haben ihr Portfolio bereits mit entsprechenden Werkzeugen für Simulationen und Predictive Analytics erweitert. Genauso schnell, wie die BI-Systeme Ergebnisse liefern sollen, müssen diese aber auch beim Nutzer landen. Die wollen sich heute ihre Analysen selbst zusammenstellen. Das Schlagwort dafür heißt "Self-Service-BI". Von den Anbietern sind dafür übersichtliche und einfach zu bedienende Dashboards gefordert. Darüber hinaus ist immer mehr ein mobiler Zugriff auf Informationen und Analysewerkzeuge gefragt.

In sieben Schritten zum Big-Data-Erfolg
Teil- oder unstrukturierte Daten in großer Menge erfolgreich analysieren können - das ist das Ziel von Big-Data-Projekten. Aber welcher Weg führt dorhin?

1. Die jeweiligen Ziele definieren
Die Anzahl der möglichen Big-Data-Analysen ist Legion. Im ersten Schritt muss also geklärt werden: Was möchten Sie erreichen? Was bringt Ihnen die Auswertung? Möchten Sie mehr Kunden ansprechen, Ihren Umsatz steigern oder neue Geschäftsfelder erschließen? Und welche Ziele sind überhaupt erreichbar?

2. Die Datenquellen identifizieren
Dann müssen die verfügbaren Datenquellen analysiert werden: Welche sind wichtig? Wie und in welcher Form lässt sich auf die benötigten Daten zugreifen? Meist ist es sinnvoll, sich zunächst auf ausgewählte Quellen zu konzentrieren. Hier schon sind Datenschutzaspekte zu berücksichtigen. Manche Daten dürfen gar nicht oder nur unter bestimmten Voraussetzungen gespeichert und analysiert werden.

3. Mit IT- und anderen Bereichen vernetzen
Die IT sollte frühzeitig eingebunden werden. Um maximalen Nutzen aus den Auswertungen zu ziehen, sind auch andere Fachbereiche zu involvieren. Und spätestens in dieser Phase sollte das Management einbezogen werden, das breite Unterstützung garantiert.

4. Performance und Verfügbarkeit klären
Die Erwartungen bezüglich Performance und Verfügbarkeit müssen so früh wie möglich dingfest gemacht werden. Dabei spielen Themen wie Analyse-Latenzzeit, Auswertungen in Echtzeit und In-Memory-Technik eine wichtige Rolle.

5. Die Ergebnisse in Prozesse einbinden
Erfolgreiche Big-Data-Analytics-Projekte binden die Analysen und deren Ergebnisse in die Geschäftsprozesse ein. Nur so führen die gewonnenen Erkenntnisse zu einer Verbesserung.

6. Big Data in Analysestrukturen einfügen
Big-Data-Analytics ersetzen nicht zwingend vorhandene Analysen, beispielsweise Data Warehouses. Oft sind sie vielmehr eine Ergänzung. Folglich sollten sie in vorhandene BI-Architekturen oder -Landschaften integriert werden.

7. Komplexität und Dynamik abschätzen
Welche Daten mit welchem Volumen kurz- und mittelfristig verfügbar sein werden, ist im Vorfeld schwer abschätzbar. Deshalb gilt es, die Einbindung neuer Datenquellen oder zusätzlicher Analysen einzukalkulieren, um einen nachhaltigen Erfolg des Projekts zu gewährleisten.

Richtig kombiniert

Angesichts all dieser neuen Herausforderungen und Veränderungen könnte man befürchten, bestehende Systeme komplett ablösen und alles neu aufbauen zu müssen. Doch das ist längst nicht der Fall, sagt Carsten Bange vom Business Application Research Center (Barc). Es gehe nicht darum, die klassischen BI-Suiten und Data Warehouses gegen neue Big-Data-Tools auszutauschen, sondern vielmehr darum, die neuen Techniken sinnvoll in die bestehenden Systeme zu integrieren und so mit den bereits vorhandenen Möglichkeiten zu kombinieren. (cvi)