SAP Hana und Terracotta

Schneller Datenzugriff: In-Memory-Konzepte im Vergleich

05.04.2013 von Susanne Franke

Statt Business-Intelligence-Anwendungen auf Festplatten zu halten, holt man sie komplett in den Arbeitsspeicher. In-Memory-Technologie beschleunigt den Datenzugriff deutlich. Zwei unterschiedliche Ansätze sind SAP HANA für analytische Daten und Terracotta für transaktionale Java-Anwendungen.

Informationen bilden die Basis für anhaltende geschäftliche Erfolge. Die Herausforderung für Unternehmen: Große Mengen operativer Daten müssen in kürzester Zeit verarbeitet werden, damit sie jederzeit aktuell bereit stehen - und das für jeden einzelnen Geschäftsvorgang. Aber auch neue Dienstleistungen, beispielsweise die automatische Nachverfolgung von Benutzerinteraktionen in Online-Anwendungen (etwa Amazons Empfehlungen für jeden Kunden), und die permanente Verbesserung von Geschäftsprozessen erfordern die Verarbeitung von immer mehr Informationen. Dennoch darf die Wartezeit nicht größer werden -das heißt, es müssen viel mehr Daten in kürzerer Zeit verarbeitet werden.

Diese großen Volumina auch an neuen Daten übersteigen häufig die Verarbeitungskapazitäten von herkömmlichen Festplatten-basierten Datenbankensystemen bezüglich Durchsatz, Performanz oder Flexibilität. Eine der Antworten auf diese Herausforderungen besteht darin, das Datenmanagement von der Festplatte in den Hauptspeicher (In-Memory) zu verlagern.

Beschleunigung: Die Pyramide zeigt, wie die Zugriffsgeschwindigkeit auf die Daten zunimmt, je näher die Verarbeitung dem In-Memory-Konzept kommt. Die Speicherkapazität nimmt zur Spitze der Pyramide natürlich ab.
Foto: Susanne Franke

In-Memory-Technologien erlauben es, hohe Datenvolumina direkt im Hauptspeicher vorzuhalten und dort mit großer Geschwindigkeit zu verarbeiten. Das In-Memory Data Management ist in den letzten Jahren dank der Verfügbarkeit von riesigen Hauptspeichern bei sinkenden Kosten zu einem Angebot gereift, das Unternehmen eine extreme Beschleunigung und eine hohe Skalierbarkeit des Datenmanagements verspricht. Unterm Strich sollen damit neue Geschäftsabläufe und schnellere Entscheidungsprozesse ermöglicht werden.

Wie häufig, wenn es um ein neues IT-Thema geht, beanspruchen auch dieses Mal viele unterschiedliche Hersteller In-Memory Computing für sich. Auf den ersten Blick scheinen auch alle Angebote in dieselbe Richtung zu gehen. Unterschiede zeigen sich erst bei näherem Hinsehen. Am Beispiel der beiden In-Memory-Datenmanagementlösungen SAP Hana und Terracotta von der Software AG lassen sich sowohl Gemeinsamkeiten aufzeigen, die In-Memory-Produkte verbinden, als auch unterschiedlichen Einsatzszenarien, die durch die Architekturen und Funktionen der Lösungen bedingt sind.

SAP HANA und Terracotta

SAP hat mit Hana (High Performance Analytic Appliance) das Thema In-Memory-Computing in den Fokus gerückt. Die SAP-Appliance dient derzeit in erster Linie der raschen Analyse von vorwiegend aus SAP-Umgebung stammenden Daten abgeschlossener Transaktionen. Die sehr schnellen Hana-basierten Anwendungen ersetzen hauptsächlich vorherige SAP-BW-Prozesse (Business Warehouse) oder beschleunigen datenintensive Verarbeitungen in SAP-Anwendungen (zum Beispiel HANA FI-CO and CO-PA Accelerators).

Die Software AG wiederum zielt mit der In-Memory-Lösung Terracotta auf Unternehmen, die beispielsweise in ihren Zahlungssystemen, bei Bonitätsprüfungen oder bei Prüfungen auf Kreditkartenbetrug mit herkömmlichen Java/Datenbank-Architekturen an ihre Performance- und Skalierbarkeitsgrenzen stoßen. Mit der Lösung sollen diese Anwender Terabytes an Daten im Arbeitsspeicher im Zugriff haben und damit das hohe Transaktionsaufkommen und steigende Nutzerzahlen im Griff behalten. Vorstellbar ist etwa ein Reisebuchungssystem im Internet, das die Verfügbarkeit von Flügen, Hotels und anderem schnell prüfen kann sowie auch Änderungen sofort im Zugriff haben muss. Mit der Verfügbarkeit der Daten In-Memory könnte ein solches Reiseunternehmen seinen Partnern ganz andere SLAs bezüglich der Antwortzeiten anbieten.

SAP und die Software AG verfolgen mit ihren Lösungen dasselbe übergeordnete Ziel: Das In-Memory-Datenmanagement soll bestehende Anwendungsarchitekturen erweitern und optimieren sowie neue Architekturen ermöglichen, die dann auch ohne herkömmliche Datenverarbeitung über die Festplatte auskommen.

Gegenüberstellung: Herkömmliche Prüfung versus In-Memory-Prüfung.
Foto: Susanne Franke

Doch abgesehen von diesen eher strategischen Gemeinsamkeiten gehen die beiden Unternehmen im Rahmen des In-Memory-Computings unterschiedliche Wege: Analysten von Gartner etwa machen mehrere grundsätzliche Typen der In-Memory-Datenmanagement-Technologien aus, und zwar abhängig von der Art ihres Einsatzbereichs. Dazu gehören die In-Memory-Datenbankmanagement-Systeme, zu denen auch SAP Hana mit dem In-Memory Datamart zählt. Diese Systeme halten die gesamte Datenbankstruktur im Hauptspeicher vor und nutzen den gegenüber der Festplatte erheblich schneller zugreifbaren Arbeitsspeicher des Computers zur Datenspeicherung und -auswertung. Das ist vor allem dort gefragt, wo kurze Antwortzeiten benötigt werden: im Finanzwesen zum Beispiel, wenn Informationen über sich plötzlich ändernde Marktbedingungen eintreffen und Entscheidungen innerhalb von Sekunden getroffen werden müssen.

Einen zweiten Typ von In-Memory-Datenmanagement-Technologien stellen die von den Analysten als Data Grids bezeichneten Plattformen mit verteiltem Caching dar. Lösungen dieser Art vereinen mehrere Server in einem logischen Caching-Cluster, in dem die Daten ausfallsicher und schnell Anwendungen zur Verfügung stehen. Dieser Art lässt sich Terracotta zuordnen.

Die Zuordnung zeigt auch bereits, dass die beiden hier dargestellten Lösungen in zwei verschiedene Welten zu Hause sind und da ihre jeweiligen Vorteile liefern: Terracotta in der Java-Welt mit transaktionsintensiven oder zeitkritischen Anwendungen, Hana in der SAP-Welt mit analytischen Anwendungen.

Software oder Appliance

Die reine Softwarelösung Terracotta lässt Anwendungen auf Basis der verteilten Server-Knoten unter Einsatz von Standardhardware hoch skalieren. Die Architektur lässt sich durch das Hinzufügen von zusätzlichen Servern erweitern.

Die verteilte Caching-Architektur zeigt ihre Vorteile vor allem bei solchen Java-Anwendungen, wie sie häufig im Web anzutreffen sind, in denen die Verarbeitung der Zugriffe und der Transaktionsdaten stark beschleunigt werden soll. Mit der Appliance SAP Hana lassen sich laut Hersteller Daten in Echtzeit untersuchen. Die Appliance zieht ihre Performance unter anderem aus speziell aufeinander abgestimmten Hard- und Softwarekomponenten. Damit ist eine hohe Leistung offensichtlich, doch sind Anwender an eine bestimmte Hardwarearchitektur gebunden, die sich allerdings auch erweitern lässt.

Architektur der SAP Hana-Appliance: In der heutigen Ausprägung dient sie der Echtzeitanalyse von Daten aus den SAP-Anwendungen. Die grauen Kästen zeigen die künftige Möglichkeit der Integration weiterer Datenquellen und Abfragetools.
Foto: Susanne Franke

Als Software kommt ein Hybrid aus der bei In-Memory-Datenbanken üblichen spaltenorientierten, bei Lesezugriffen schnelleren Arbeitsweise und - darunter liegend - der herkömmlichen, in relationalen Datenbanken verbreiteten, bei Schreibzugriffen bevorzugten zeilenorientierten Datenbanktechnik zum Einsatz. Die spaltenorientierte Technik ist gerade für die Analysen wichtig, während die zeilenorientierte Arbeitsweise SAP für die geplante Erweiterung auf transaktionale Daten dienlich ist.

Wegen der gemeinsamen Zielsetzung bei unterschiedlichen Ansätzen bezeichnet Wolfram Jost, Technologievorstand der Software AG, Terracotta und Hana sogar als komplementäre Produkte. Die IDS Scheer Consulting der Software AG betreibt auch ein Center of Excellence für Hana. "Es gibt zwar klare Positionierungsmöglichkeiten für SAP Hana und für Terracotta. Diese aber können sogar beim gleichen Kunden gegeben sein, wenn auch normalerweise nicht im selben Bereich", so Jost.

Denkbar wäre aus seiner Sicht eine Java/Oracle-Applikation, die die transaktionalen Daten mit der Terracotta-Technologie verarbeitet, und die in gewissen Zeitabständen Daten für die Echtzeitanalyse in eine Hana-Appliance transportiert. SAP HANA könne zwar Daten aus nicht-SAP Systemen integrieren, sei aber darauf angewiesen, dass die Daten schnell angeliefert werden - hier könne Terracotta einen Geschwindigkeitsvorteil bieten.

Künftige Annäherung der In-Memory-Lösungen

Die bislang klar abgesteckten Marktbereiche werden wohl in näherer Zukunft neu "verhandelt" werden müssen, denn beide Hersteller haben die Weiterentwicklung ihrer Lösungen angekündigt - und sie nähern sich einander an.

"Unsere Vision ist eine anwendungsunabhängige In-Memory-Plattform für das Datenmanagement, die eine Brücke zwischen den Anforderungen von Transaktionssystemen auf der einen und Analysesystemen auf der anderen Seite schlägt", erläutert Jost. Konkret bedeute das, die Integration des Data Grids mit der eigenen CEP-Engine (Complex Event Processing), um Ereignisse in Echtzeit zu analysieren, und der neuen Low-Latency Messaging-Technologie, um Datenströme in Echtzeit zu übertragen.

Auf den in Terracotta vorhandenen Datenbeständen sollen sich dann Echtzeitanalysen mit der CEP-Engine durchführen lassen. Damit würde die Software AG Real-time Analytics für die Java-Welt offerieren. Darüber hinaus wollen die Darmstädter die Verarbeitung von Daten aus mehreren Datenumgebungen - Transaktionssystemen, Analysesystemen, relationalen und nicht-relationalen Datenbanken und Social Networks - in einem gemeinsamen In-Memory-Speicher ermöglichen.

Aufrüstung: In späteren Versionen will SAP Hana als zentrale Unternehmensdatenbank positionieren, die neben analytischen Fähigkeiten auch solche für die Verarbeitung von transaktionalen Daten mitbringt und eine Entwicklungsplattform umfasst.
Foto: Susanne Franke

Aber auch SAP will seine HANA-Appliance erweitern und als Datenbanksystem für transaktionale Daten, etwa aus der Warenwirtschaft, etablieren. Schließlich wollen die Walldorfer Hana für einen größeren Markt öffnen und als Entwicklungsplattform für Drittanwendungen anbieten.

Die Einbindung des Open-Source-Frameworks Hadoop steht auf der kurzfristigen Roadmap beider Hersteller. Hadoop kann sehr große Datenmengen im Petabyte-Bereich verarbeiten und ist somit ein interessantes Angebot für Big-Data-Analysen. Das Framework umfasst neben NoSQL- auch eine SQL-Schnittstelle, denn diese Riesendatenmengen bestehen zumeist aus einer Mischung aus relationalen und nicht-relationalen Daten und lassen sich zum Teil also auch mit SQL-Anwendungen analysieren.

"Wir werden uns tendenziell auch künftig in unterschiedlichen Bereichen bewegen", erklärt Jost die Abgrenzung der beiden In-Memory-Datenmanagement-Produkte. "Die Software AG in der Welt der Non-SAP-Anwendungen in Verbindung mit hoch skalierbaren, verteilten Speicherstrukturen für beliebige Datenformate und SAP mit einem eher spaltenorientierten Datenbankansatz und SQL in der SAP Anwendungswelt."

Dieser Artikel basiert auf einem Beitrag unserer Schwesterpublikation Computerwoche. (cvi)