Komplettsysteme für die Datenanalyse

Big Data Appliances haben noch Luft nach oben

29.05.2013 von Hartmut  Wiehr
Schlüsselfertige Big-Data-Appliances sollen Unternehmen helfen, große Datenmengen zu sammeln und zu analysieren. Doch die Entwicklung steht erst am Anfang.

Dass die meisten Unternehmen mit einem schwer kontrollierbaren Datenwachstum kämpfen, ist heute schon fast eine Binsenweisheit. Vor allem unstrukturierte Informationen wie E-Mails, SMS oder Videos sorgen für einen kontinuierlichen Strom neuer Daten in die Rechenzentren. Dort müssen sie häufig wegen gesetzlicher oder unternehmensinterner Vorschriften archiviert werden, teils werden sie innerhalb kürzerer Fristen für diverse Auswertungen herangezogen. Solche Analysen beziehen sich zunehmend auf zeitnahe Datensammlungen, die zum Beispiel im Bereich der Social Media anfallen. Schlüsselfertige Big-Data-Appliances, bestehend aus vorintegrierten Hardware- und Softwarekomponenten, könnten helfen, solche Aufgaben effizienter zu meistern. Das zumindest versprechen die Hersteller.

IBM spricht von "Smarter Analytics": Big-Data-Appliances sollen den Anwendern viele manuelle Tätigkeiten bei der Datenanalyse abnehmen. In der Praxis gibt es einige Stolpersteine.
Foto: IBM

Ob Schnelligkeit das entscheidende Kriterium bei der Auswertung solcher Informationen ist, hängt vom jeweiligen Anwendungsfall ab. Anbieter von Big-Data-Lösungen und kompletter Big-Data-Appliances heben dies besonders hervor, weil sie sich erst noch gegen die schon länger am Markt befindlichen Data-Warehouse- und Business-Intelligence-Produkte durchsetzen müssen. Der unabhängige Analyst Josh Krischer von Krischer & Associates verweist dagegen darauf, dass man bei Big Data oder Analytics genau unterscheiden müsse. Er geht von vier Datenkategorien aus, die nur zum Teil eine sofortige Auswertung und neue Methoden erfordern:

  1. Analytics (Velocity and Volume): Sehr große Datenmengen, die nur in einigen Fällen wie der Gesichtserkennung an Flughäfen oder bei der Prüfung von Kreditkarten in Real-Time-Geschwindigkeit ausgewertet werden müssen. In der Retail-Branche komme es dagegen nicht auf ein paar Stunden oder Tage an, um über aktuelle Verkaufszahlen Bescheid zu wissen.

  2. Bandwidth (Volume and Velocity): Netz- und Zugriffsdaten, zum Beispiel aus sozialen Netzwerken. Unmittelbare Auswertung und Verwendung seien in der Regel nicht erforderlich.

  3. Content (Volume and Variety): Da es sich meistens um langfristig abgelegte oder archivierte Daten handelt, könne man auf zeitnahe Analytics verzichten.

  4. Machine and Sensoring (Volume and Velocity): Oft handelt es sich um sensible Daten, die zum Beispiel bei Wetter- oder Erdbebenmeldungen eine schnelle Auswertung erforderten um Katastrophen zu verhindern.

SAP HANA treibt den Big-Data-Hype

Für Krischer hängt das gegenwärtige Trendthema Big Data und Big-Data-Appliances vor allem mit den Entscheidungen von SAP in Sachen HANA-/In-Memory-Technologie zusammen. SAP sei wegen der großen installierten Basis seiner Anwendungen mit dem weiteren Absatz an eine Barriere gestoßen, die man jetzt mit einem technologischen Entwicklungsschub aufbrechen möchte: Um alle Neuerungen der SAP-Programme sinnvoll und vor allem performant nutzen zu können, bräuchten die Kunden laut Hersteller zusätzlich noch HANA-Appliances, ausgestattet mit In-Memory-Bausteinen und einer Datenbank.

Auch der Analyst und SAP-Spezialist Helmuth Gümbel spricht von den Geschäftszwängen, die SAP dazu bewogen haben, sich auf das Hardware-Feld zu bewegen. Dabei handele es sich nicht nur um einen reinen Verkaufstrick, sondern die Kunden hätten durchaus die Möglichkeit, die Leistung ihrer etablierten SAP-Software-Landschaft ein Stückchen nach oben zu treiben. Dafür müssten sie allerdings etwas zusätzliches Geld - so wie von SAP beabsichtigt - in die Hand nehmen.

Appliances enthalten laut Gartner viele vorgefertigte Komponenten und Funktionen, die die IT'ler unterstützen sollen.
Foto: Gartner


SAP hat mit einer Reihe von Hardware-Herstellern Abkommen getroffen, um geeignete Appliances anzufertigen - anders als Konkurrent Oracle hat man keinen Hardware-Produzenten hinzugekauft. Die geeignte Hardware für SAP-Programme ist derzeit erhältlich von Cisco, Dell, Fujitsu, HP, Hitachi, Huawei, IBM, NEC und VCE. Entwickler und Kunden haben laut SAP außerdem die Möglichkeit, über Hosting-, Anwendungsmanagement- und Outsourcing-Dienste HANA-Technologie als Service zu beziehen.
Der Hamburger SAP-Partner Info AG zum Beispiel, der drei eigene Rechenzentren in Deutschland betreibt, ist bereits aktiv in dieses Geschäftsfeld eingestiegen. Auf seiner Webseite heißt es: "HANA steht für "High Performance Analytic Appliance". Die Appliance ist ein Paket aus Hardware und In-Memory-Software und stellt große Mengen operativer Daten aus SAP-Anwendungen direkt im Hauptspeicher für die Auswertung oder zusätzliche Anwendungsfunktionen zur Verfügung." Mit SAP HANA könne man "die gesamte IT-Infrastruktur effizienter gestalten und dabei auch noch die Betriebskosten senken". Besonders zwei Aspekte hebt Info AG hervor: "Der Plattenspeicher wird durch den Hauptspeicher ersetzt - das spart Betriebskosten." Es bestehe ferner eine "konstante Datensicherheit, auch bei Stromausfall".


Auf der Kundenveranstaltung SAPPHIRE in Orlando Mitte Mai 2013 kündigte SAP den Cloud-Einsatz von HANA an. Die Technologie stehe nun in verschiedenen Bereitstellungsoptionen zur Verfügung: On Premise, in der Cloud oder über andere Geschäftsmodelle wie etwa Hosting oder Outsourcing. Die Option "SAP HANA Enterprise Cloud" solle es Unternehmen ermöglichen, das In-Memory-Potenzial "als Service auf vollkommen neue Weise auszuschöpfen". Zu den ersten Partnern auf diesem Sektor gehören Accenture, Deloitte, IBM, itelligence, Savvis and Virtustream. Außerdem gibt es den von Amazon Web Services betriebenen "SAP HANA One Database Service": Er ist über den AWS Marketplace zugänglich und umfasst eine kleinere Version von HANA für produktive und kommerzielle Zwecke.

Big-Data-Appliances von IBM

Neben und um HANA herum gibt es weitere Appliance-Angebote für Big Data/Analytics. So bietet IBM "PureData for Analytics" an, basierend auf der vor zwei Jahren für 1,78 Milliarden Dollar eingekauften Netezza-Technology. Unbestätigten Berichten zufolge soll IBM in den letzten Jahren allein für die Akquisition von Analyse-Technologien 16 Milliarden Dollar ausgegeben haben. Laut IBM ist die PureData-Appliance eine "einfache Lösung für ernsthafte Analytics-Aufgaben". Sie soll die Performance von Datenauswertungen deutlich verbessern, indem komplexe Algorithmen innerhalb von Minuten und nicht wie bisher innerhalb von Stunden abgearbeitet werden können.

Netezza-Technologie benützt für das Management von Datenbanken-Workloads "Field Programmable Gate Arrays" (FPGA). Die Daten können an ihrem Ursprungsort analysiert werden, der umständliche und teure Transport über Datennetze entfällt. Unter anderem unterstützt Netezza auch die "Predictive Model Markup Language (PMML) 4.0", die Berechnungen und Vorhersagen innerhalb der vorhandenen Datenbanken erlaubt.

IBM hat inzwischen speziell für den deutschen Markt ein "HANA Innovation Center" in Chemitz eröffnet. Hier sollen "zukunftsweisende In-Memory-Anwendungen" für diverse Branchen entwickelt werden. Für Tests und Machbarkeitsstudien stellt IBM eine auf In-Memory-Anwendungen ausgerichtete Infrastruktur bereit. Eines der ersten Projekte befasst sich mit einer Retail-Lösung zur Filialbestandsoptimierung im Fashion-Bereich.

Dell setzt auf Referenzarchitektur für Big Data

Dell hat sich neben den HANA-Appliances für einen eigenen Ansatz entschieden: Eine selbst entwickelte Appliance, wie sie andere Hersteller im Programm haben, will man explizit nicht anbieten. Dell verfolgt demgegenüber einen "offenen Ansatz", der auf einer Referenz-Architektur und einem automatischen Installer für den Kunden beruht (Dell-Cloudera Solution Reference Architecture v2.1.2). Der Vorteil laut Dell: "So kann der Kunde den offenen Ansatz von Opensource Hadoop weiter nutzen, bekommt aber die Sicherheit einer getesteten, zertifizierten und unterstützten Umgebung mit schneller und einfacher Implementierung."

Dell verfolgt zusammen mit Cloudera einen offenen Ansatz.
Foto: Dell

Auch Big-Data-Appliances folgen der generellen Logik von All-in-One-Systemen. Wie der Gartner-Analyst Merv Adrian anmerkt, handelt es sich in allen Fällen von Appliances um den besonderen Service, über einen vorkonfigurierten, getesteten und integrierten Hardware- und Software-Stack verfügen zu können. Fast "auf Knopfdruck" soll sich die jeweilige Anwendung starten lassen. Und Support und Schulung kommen aus der gleichen Quelle - man hat einen Ansprechpartner für alles.

Wie Forrester in einer Studie ermittelt hat ("The Future of Customer Data Management", März 2013), beklagen 54 Prozent der Analytics-Spezialisten in den Unternehmen, dass die diversen Datenquellen nur schwer zu integrieren seien. Und 38 Prozent sehen Probleme bei der Interpretation der Big-Data-Resultate. Der Bedarf nach Hilfsmitteln wie Analyse-Tools oder gleich multifunktionalen Big-Data-Appliances ist also durchaus vorhanden.

Hewlett-Packard kooperiert mit SAP

Viele Hersteller gehen aber in ihren Entwicklungen schon über die gegenwärtige Appliance-Stufe hinaus. So arbeiten HP und SAP seit zwei Jahren am "Project Kraken", das laut Bill Veghte, Chief Operating Officer bei HP, "In-Memory-Computing revolutioniert". Man will die eigene "Converged Infrastructure" - integrierte Racks aus Server, Storage und Netzwerk - mit SAPs HANA-Technologie kombinieren, um "Online-Transaktionen und Analytics-Prozesse an einem Ort zu konsolidieren".

Analytics- oder Big-Data-Anwendungen müssen heute laut Forrester viele unterschiedliche Datenquellen integrieren.
Foto: Forrester

Ein jetzt vorgestellter Prototyp verfügt über 16 Intel-CPUs (Ivy Bridge-EX) und zwölf Terabyte Speicher und soll für datenintensive Arbeitslasten taugen. HP nennt als Beispiele Systeme und Anwendungen für Lieferketten, Customer Relationship Management (CRM), Enterprise Resource Planning (ERP) und Datenanalyse. Die Plattform soll speziell Behörden und Unternehmen in die Lage versetzen, große Datenmengen "fast in Echtzeit" zu analysieren, "Muster schnell zu erkennen und die entsprechenden Erkenntnisse für die Entscheidungsfindung zu nutzen".

Wobei HP mit dem Autonomy-Desaster ein Stück Glaubwürdigkeit in Sachen Analytics verloren hat. Die im Herbst 2012 vorgenommene Abschreibung von 8,8 Milliarden Dollar belastet auf Jahre das Budget des etwas ins Straucheln geratenen Herstellers. Teile der Analytics-Software von Autonomy sollen jedoch in Appliance-, Security- und Netzwerklösungen weiterverwendet werden.

Im Unterschied zu Krischer sieht Gartner-Mann Adrian in allen Branchen Anwendungsfälle für Big Data/Analytics - von Banken über Retail, Marketing, Industrieproduktion und Logistics bis hin zum öffentlichen Sektor. Überall erscheint es für ihn sinnvoll, bisher unerschlossene Datenquellen in Untersuchungen zu integrieren. Dies bedeute nicht, dass traditionell benützte Werkzeuge wie Data Warehouses, CRM oder Business Intelligence ihre Rolle verlören.

Adrian geht davon aus, dass alle großen IT-Player gegenwärtig an neuen Big-Data-Appliances arbeiten, viele von ihnen gleich an mehreren parallel. Er unterscheidet vier Gruppen solcher Systeme:

Vier Typen von Big-Data-Appliances

- Datenbank-Appliances (wie Oracle Database Appliance) mit einem eher allgemeinen Analytics-Ansatz;

- Data-Warehouse-Appliances (wie Teradata Aster Big Analytics Appliance), die Datenbank-Analytics mit speziellen Funktionen mit einem Hadoop-Stack für unstrukturierte Daten in einem gemeinsamen Rack integrieren;

- Hadoop-orientierte Appliances (wie NetApp Open Solution for Hadoop; auch von Cisco ausgeliefert);

- Appliances für Transactional Workload (wie IBM PureData System).

Der Markt für Big Data, Data Warehouses und Business Intelligence ist stark umkämpft. An der Spitze liegt laut Gartner Oracle.
Foto: Gartner

Für Entscheider in Unternehmen wird die Welt durch die Flut neuer Analytics-Appliances nicht unbedingt einfacher. Gartner-Analyst Adrian resümiert: Das größte Problem für die Anwender bestehe heute darin, dass sich die unterschiedlichen Appliances nur schwer mit anderen IT-Systemen integrieren ließen. Ein gemeinsames Netz aus Analytic-Services zu erbauen, dürfte schwierig werden. Das komplexe Unterfangen, Daten zwischen verschiedenen Systemen auszutauschen, zu synchronisieren und eine gemeinsame Semantik aufzubauen, bleibe den Anwendern überlassen. In vielen Fällen bedeutet das: Selbsthilfe statt Hilfe durch schlüsselfertige Appliances. Es bleibt als noch viel zu tun in Sachen Big-Data-Appliances, vor allem für die Hersteller. (wh)