Die Datenflut eindämmen

Fitnesskur durch cleveres Datenmanagement

17.07.2015 von Gregor  Stöckler
Die Datenflut in Data-Warehouse-Systemen nimmt stetig zu. Eine umfassende Datenmanagementstrategie bremst dieses Wachstum und hält das ERP-System fit.

Mit der Entwicklung immer neuer Möglichkeiten zur Evaluierung und Optimierung von Geschäftsprozessen wächst die Menge an wertvollen und auch überflüssigen Daten kontinuierlich an. Eine Analyse in über 250 Kundensystemen zeigt, dass produktiv genutzte und berichtsfertige Daten in InfoCubes nur rund sieben bis elf Prozent der Systemgröße ausmachen (siehe Abbildung 1). Der Rest sind Stammdaten (vier bis zehn Prozent), temporäre Daten (20 bis 31 Prozent), Daten in DSOs (30 bis 48 Prozent) und Daten in Cubes, die älter als zwei Jahre sind (drei bis sieben Prozent) - plakativ bezeichnet also Datenmüll, beziehungsweise die Abfallprodukte der Erzeugung wertvoller Informationen, die entweder auf Systemebene oder in den Akquisitions- und Transformationsschichten anfallen.

Abb. 1: Produktiv genutzte Daten machen in InfoCubes nur sieben bis elf Prozent der Systemgröße aus.
Foto: Datavard

In der Verwertung dieses Abfallhaufens liegt erhebliches Potenzial. Um dieses zu realisieren, bedarf es einer Strategie, die sowohl effektiv als auch zielgerichtet ist. Sie muss aufräumen, die Daten richtig klassifizieren, den Wert der Daten richtig erkennen und in Einklang mit den verursachten direkten und indirekten Kosten bringen. Dadurch lassen sich eine Reihe wichtiger Effekte erzielen:

  1. Direkte und indirekte Kostenersparnis durch Reduktion der Systemgröße und Verlangsamung des Datenwachstums

  2. Erhöhte Performance

  3. Vereinfachung der Systemadministration und Beschleunigung aufwendiger Arbeiten wie Recovery, Systemkopien und Upgrades

  4. Direkte und indirekte Kostenersparnis beim Betrieb von Business Warehouse Accelerator oder Hana

Letzteres ist derzeit ein Renaissance-Thema, da die hohen Kosten der Infrastruktur die Notwendigkeit einer effektiven Verwaltung deutlich machen.

Auswirkungen von Datenwachstum

Die oben genannte Analyse BW Fitness Test misst in über 250 Kundensystemen ein durchschnittliches Wachstum von 32,8 Prozent. Es sind vielfältige Gründe, die Data-Warehouse-Systeme immer größer werden lassen.

Einerseits steigt das zugrunde liegende operative Datenvolumen aufgrund einer starken Zunahme der Geschäftstransaktionen und neuer nationaler und internationaler Standorte. Neben höheren Anforderungen der Benutzer nach mehr Daten mit zunehmend detaillierterer Granularität steigt auch der Nutzungsumfang durch neue Anwendungsfälle und Applikationen. Und auch die Sicherstellung der Hochverfügbarkeit der Daten verschlingt viel Speicherkapazität. So benötigen 1 Terabyte strukturierte Daten zehn bis zwanzigmal so viel Speicherplatz, bedingt durch Spiegelung, Hochverfügbarkeit, Test- und Qualitätssicherungssysteme und Backups.

Mit Daten Werte schaffen Report 2015
Deutsche Unternehmen tun sich schwer mit Datenstrategien
Die Analyse von Daten wird für viele Unternehmen immer wichtiger, hat eine Studie von KPMG und Bitkom Research ergeben. Allerdings fällt es den Verantwortlichen nicht gerade leicht, die richtige Technik und Strategien zu finden. Immer noch bestimmen einfache Werkzeuge wie Excel das Bild.
Relevante Entscheidungen werden zunehmend mit Datenanalysengetroffen
Inwieweit treffen die folgenden Aussagen für Ihr Unternehmen zu?
Alle befragten Unternehmen analysieren Unternehmensdaten
Welche der folgenden Arten von Daten werden in Ihrem Unternehmen für Entscheidungsprozesse digital gesammelt und IT-gestützt analysiert?
Erhebliche Unterschiede nach Branchen
Welche der folgenden Arten von Daten werden in Ihrem Unternehmen für Entscheidungsprozesse digital gesammelt und IT-gestützt analysiert?
Aufbau und Datenspeicherung werden am häufigsten ausgelagert
Wie managt Ihr Unternehmen derzeit folgende Aspekte im Zusammenhang mit Daten und Datenanalysen?
Aktuell sind hautsächlich deskriptive Analysen im Einsatz
Welche der folgenden Arten der Datenanalyse nutzt Ihr Unternehmen derzeit bzw. plant oder diskutiert dies?
Je fortgeschrittener die Datenanalyse, desto weniger verbreitet
Inwieweit nutzt Ihr Unternehmen bereits Datenanalysen bzw. plant/diskutiert ihren Einsatz?
Je fortgeschrittener die Datenanalyse, desto höher die Zufriedenheit
Wie zufrieden sind Sie mit den Erkenntnissen aus den eingesetzten Datenanalysen?
Datenschutz, unzureichendes Budget und Personal sind wichtige Hürden
Kommen wir nun zu möglichen Argumenten, die gegen eine (intensivere) Nutzung von Datenanalysen sprechen. Inwieweit treffen die folgenden Aussagen für Ihr Unternehmen zu?
Mehr als die Hälfte der Großkonzerne hat bereits eine Big Data-Strategie
Hat Ihr Unternehmen bereits eine Strategie für die Umsetzung konkreter Big Data-Maßnahmen erarbeitet?
Big Data-Strategie bisher nur in wenigen Branchen stärker verbreitet
Hat Ihr Unternehmen bereits eine Strategie für die Umsetzung konkreter Big Data-Maßnahmen erarbeitet?
Stellenwert von Big Data wird an Bedeutung gewinnen
Wie wird sich Ihrer Meinung nach der Stellenwert von Big Data in Ihrem Unternehmen in den kommenden drei Jahren verändern?

Allerdingsspielen auch rechtliche Gründe und Regularien eine signifikante Rolle. Vor diesem Hintergrund wächst die Notwendigkeit eines cleveren Datenmanagements, das granulare Daten für eine lange Historie speichert, auf deren Basis schnell neue Applikationen zur Berücksichtigung neuer Geschäftsanforderungen bereitgestellt werden können. "Das beschleunigte Datenwachstum ist eine Herausforderung für die Verwaltung des Systems, die verfügbaren Zeitfenster für Ladeprozesse und die performanten Auswertungen. Datenwachstum ist darüber hinaus der Hauptgrund für Leistungsverlust und steigende Betriebskosten", beschreibt Michael Hahne, Geschäftsführender Gesellschafter von Hahne Consulting, die Problematik.

Cleveres Datenmanagement optimiert Kosten und Performance

Mit zunehmendem Datenvolumen nimmt der Anteil der aktiv genutzten Daten rapide ab. Gerade ältere historische (kalte) Daten werden oftmals nur noch für eventuelle Prüfungen vorgehalten. Kalte Daten werden jedoch weiterhin in gleicher Weise wie die aktiv genutzten (warmen und heißen) Daten verwaltet. Das heißt, dass 1 Terabyte aktiv genutzter Daten die gleichen Kosten wie ein Terabyte unregelmäßig genutzter oder sogar ungenutzter temporärer Daten verursacht. Es versteht sich, dass dies aus Kosten- und Performance-Gründen wenig sinnvoll ist. Auch die Einhaltung von Service Level Agreements wird zunehmend schwieriger und teurer. Gefragt ist daher eine sinnvolle Speicherung beziehungsweise Archivierung der Daten gemäß ihrer Nutzung und Aussagekraft.

Speicherstrategie auf Datentyp abstimmen

Für ein Data Warehouse gibt es im Hinblick auf das physische Speichermanagement mehrere Möglichkeiten. Neben der normalen Speicherung (online) können die Daten klassisch in einem festen Speichermedium archiviert werden (offline).

Es gibt aber auch noch eine Zwischenform, die Nearline-Speicherung (NLS) (siehe Abbildung 2). Sie zeichnet sich durch zwei wesentliche Eigenschaften aus: Zum einen können die Daten mithilfe effizienter Komprimierungstechniken und dedizierter Systemlösungen vorgehalten werden. Zum anderen, und das ist für Analyse und Reporting von Bedeutung, haben die Benutzer durch die Integration der NLS-Schnittstelle in die OLAP-Engine weiterhin darauf Zugriff.

Abb 2: SAP-BW-Architektur mit Near-Line Storage
Foto: Datavard

Die Daten können daher in einem ihrem Alter und ihrer Stellung im Informationslebenszyklus entsprechenden optimalen Speichermedium abgelegt werden und damit die unterschiedlichen Anforderungen an deren Service Level Agreements (SLAs) adressieren. Der Einsatz von NLS empfiehlt sich vor allem für Daten aus InfoCubes und DSOs. Gerade für die Verwaltung großer Datenmengen mit den dabei auftretenden besonderen Anforderungen an Performance und Skalierbarkeit gibt es Konzepte, die für die unterschiedlichen Speicherstrategien Verbesserungspotenzial versprechen.

Die komprimierte Ablage der NLS-Daten erfolgt in spezifischen komprimierten Speicherbereichen der BW-Datenbank. Im Zuge der Big-Data-Diskussion sind darüber hinaus Technologien wie SAP IQ und Hadoop zukunftsträchtig, da sie große Datenvolumina effizient managen und diese mit sehr guter Performance bereitstellen können. Die klassische Datenarchivierung hingegen bietet eine kostengünstige Lösung für sehr alte Daten, Daten aus der Akquisitionsschicht und einige temporäre Daten. Durch das hohe Kosten-Nutzen-Verhältnis bietet es sich an, temporäre Daten nur kurz aufzubewahren und regelmäßig zu löschen.

Fazit

Die aktuellen Herausforderungen rasant wachsender Datenmengen, langer Zugriffszeiten und unnötig hohen administrativen Aufwands in Data-Warehouse-Umgebungen lassen sich schnell und mit wenig Aufwand lösen. Mit einem nachhaltigen Konzept für ein Business-Warehouse-Datenmanagement können Unternehmen die Informationsverwaltung ihrer Systeme deutlich verbessern und versteckte Potenziale realisieren. Ausgangspunkt ist die Analyse des Lebenszyklus von Informationen. Darauf aufbauend können Speicheroptimierungsmöglichkeiten wie Nearline-Storage (NLS) das Datenvolumen deutlich verringern und gleichzeitig den Zugriff auf archivierte Daten erleichtern. (bw)