Big Data Analytics und NOSQL

Mehr Business Intelligence für alle

Mit nichtrelationalen Datenbanken und Big-Data-Tools lässt sich eine leistungsstarke Plattform für Big Data Analytics aufbauen. Wie das funktioniert, zeigen die Open-Source-Lösungen MongoDB und Pentaho.

Der Markt für Business Intelligence (BI) und Big-Data-Software entwickelt sich rasant. Auslöser ist die zunehmende Digitalisierung der Wirtschaft, die einen unaufhörlich sprudelnden Datenquell hervorbringt. Datengetriebene Unternehmen entscheiden sich darum immer öfter für integrierte Analytics-Lösungen, wenn es darum geht, unstrukturierte Informationsfluten gezielt in die eigenen Wissensmühlen zu lenken. Die kostengünstige Speicherung und erhöhte Verfügbarkeit vielfältigster Daten ermöglicht Unternehmen, potenzielle Chancen und Risiken frühzeitig wahrzunehmen und ihre strategische Geschäftsentwicklung zu optimieren.

Wer sind meine Anwender, was ihre Anforderungen?

Doch vor der Wahl einer geeigneten BI-Suite sollten Unternehmen ihre Business Cases kennen und überlegen, welchem Anwender welche Informationen bereitgestellt werden müssen. Sind meine Geschäftsdaten hochgradig organisiert, folgen meine Analysen wiederkehrenden Mustern? Oder stehe ich vor der Aufgabe, datenintensive Webapplikationen auf einer gemeinsamen Plattform zu konsolidieren?

Angesichts einer steigenden Zahl an Power Usern und des Trends zum Self Service BI heißt die Frage auch: Sollen bestehende Geschäftsprozesse unterstützt oder ganz neu entwickelt werden? Neben den proprietären Angeboten namhafter Hersteller existiert eine ganze Reihe leistungsfähiger Open-Source-BI-Suiten, die sich flexibel an die Bedürfnisse verschiedener Anwendergruppen anpassen lassen.

Big Data braucht Performance

Grundlegende Voraussetzung bei der Analyse großer Datenmengen sind kürze Antwortzeiten des Datenbankmanagementsystems. Relationale Datenbanksysteme speichern Daten nach einem stark strukturierten Schema ab und lassen sich vergleichsweise schwierig skalieren. NoSQL-Datenbanken hingegen sind auf ein dynamisches Schema ausgelegt, das sich unterschiedlichen Datenformaten flexibel anpasst.

So verzichtet MongoDB, eine der führenden NoSQL-Datenbanken, auf komplexe Relationstabellen und zeitraubende Join-Operationen. Stattdessen werden Daten in Form von Dokumenten im BSON-Format (Binary JSON) abgespeichert. Heterogene Dokumente werden unabhängig von Herkunft und Struktur in sogenannten Collections zusammengefasst. Durch die Java-nahe Notation eignet sich MongoDB insbesondere für Webanwendungen, da die Daten ohne Transformation direkt aus der Datenbank migriert werden können. Nur so lassen sich Datensilos vermeiden.

Bei Anwendungen mit einem hohen Datenvolumen und Datendurchsatz spielen NoSQL-Datenbanken ihre volle Stärke aus. MongoDB kann durch Sharding auf mehrere virtuelle Maschinen und Memory-Mapping theoretisch unbegrenzt skalieren. Durch Verarbeitungsgeschwindigkeiten, die mit einem In-Memory-System vergleichbar sind, ermöglicht die nicht-relationale Datenbank die Auswertung von Daten in Echtzeit. Dadurch ist es vergleichsweise einfach möglich, inhaltsreiche Anwendungen zum Beispiel mit personalisiertem Inhalt und Layout aufzubauen.

Konsistente Datenmodelle auf einheitlicher Basis

Große Datenmengen aus unterschiedlichsten Quellen in einer gemeinsamen Plattform zu konsolidieren ist nur eine Seite von Analytics-Anwendungen. Um diese Daten in kurzen Intervallen auswerten zu können, bedarf es einer geeigneten Analysesoftware. Pentaho Business Analytics ist solch eine Datenanalysesoftware. Sie besteht aus verschiedenen Modulen und deckt unterschiedliche Bereiche der Business Intelligence ab. Dazu zählen unter anderem der ETL-Bereich, Reporting, OLAP und Data Mining. Diese Module bedienen das gesamte Spektrum von Operational Intelligence bis hin zu Self-Service-BI.