Grundlagenserie Business Intelligence

BI-Datenmanagement (Teil 3): Metadaten-Verwaltung

21.03.2008 von Klaus Manhart
Metadaten dienen zur Steuerung der Nutzerzugriffe sowie zur Dokumentation sämtlicher BI-Prozesse wie der Überführung operativer in dispositive Daten. Ein gutes Metadaten-Management ist Voraussetzung für alle BI-Phasen.

Eine besondere Bedeutung beim Data Warehousing und bei analytischen Systemen kommt dem Meta-Datenmanagement zu. Grob gesprochen sind Metadaten „Daten über Daten“. Sie dienen dazu, die Daten aus den operativen und dispositiven Datensystemen zu beschreiben.

Hierzu ein einfaches Beispiel: Stellen Sie sich vor, die Datenfelder in den operativen Datenbanken werden geändert. In diesem Fall muss nachvollziehbar sein, welche Data Warehouse-Datenfelder davon betroffen sind. Auch die im ETL-Artikel beschriebenen Transformationsregeln sind als Metadaten abgelegt und stehen so den ETL-Werkzeugen zur Verfügung.

Neben diesen technischen Metadaten für die Administration der Data Warehouse-Umgebung gibt es fachliche Metadaten, die unmittelbar den Anwender betreffen. Beispiele hierfür sind Informationen über existierende Standardberichte und Berichtsvorlagen, fachliche Berechnungsvorschriften und Begriffslexika.

Aus Benutzersicht sorgen Metadaten vor allem für höhere Datenqualität und ein besseres Verständnis der Begriffe. So erhöhen die in den Metadaten festgehaltenen Informationen über die Daten die Transparenz der gesamten Datenkette von der Datenquelle bis zur Datenverwendung. Auch wird die Bedeutung, Herkunft und Verwendung der betriebswirtschaftlichen Kennziffern mit Metadaten dokumentiert.

Wichtig sind Metadaten beispielsweise konkret für die Interpretation der Daten. Semantische Beschreibungen und Views sind entscheidend für Zugriffs- und Navigationswege im Data Warehouse. Durch eine semantische Beschreibung der Daten wird außerdem die umgangssprachliche Navigation im System ermöglicht.

Große Rolle: Metadaten begleiten den gesamten BI-Prozess. (Quelle: HTWK Leipzig)

Alles in allem beschreiben Metadaten somit die verschiedensten Arten von Daten und dienen den verschiedensten Nutzergruppen: Sie geben Auskunft über die Herkunft der Daten, ihre Zusammensetzung, kodieren Regeln für die Transformation der Daten aus den Quelldatenbeständen und liefern Information über verdichtete Daten und deren Hierarchien.

Bedeutung von Metadaten

Die herausragende Bedeutung der Metadaten in der BI liegt daran, dass hier weitaus mehr Informationen vorgehalten werden als in klassischen operativen Systemen. So sind in der BI auf fast jeder Systemebene Metadaten unerlässlich.

Beispiel ETL-Prozess: Bei der Übernahme operativer Daten werden diese extrahiert und bereinigt. Dies wird mit Metadaten dokumentiert, so dass sie leicht modifiziert und erweitert werden können. Bei der Harmonisierung der Daten findet eine syntaktische und semantische Anpassung statt, die bei entsprechender Dokumentation der Quellsysteme leichter durchzuführen ist.

Praktisch auf allen Ebenen der BI sind Metadaten relevant.

Repository: Metadaten werden in einer eigenen Datenbank gespeichert und über den Metadaten-Manager verwaltet. (Quelle: HTWK Leipzig)

Metadaten erleichtern zusammengefasst also die Navigation und stellen detaillierte Informationen über Systemkomponenten und Prozesse zur Verfügung. Ein zentraler Vorteil von Metadaten ist, dass sie für den Anwender deutlich machen, aus welchen Quellen Daten zusammengesetzt werden, welche betriebswirtschaftlichen Kennzahlen verwendet werden und wie diese Kennzahlen zu interpretieren sind.

Klassifikation von Metadaten

Metadaten können nach unterschiedlichen Kriterien klassifiziert werden. Eine erste Unterteilung unterscheidet technische und betriebswirtschaftliche Metadaten. Technische Metadaten beziehen sich auf IT-Aspekte, betriebswirtschaftliche auf Metadaten wie etwa Kennziffern.

Eine andere Klassifizierung unterscheidet operationale und DSS-Metadaten. Operationale Metadaten beinhalten Informationen über die Quellsysteme, Originaldatenquellen, Datenstrukturen, Feldbezeichnungen sowie Informationen über den Transformationsprozess und die angesprochenen Zieldatenquellen.

DSS-Metadaten verbinden die physischen Daten mit den Modellen der Geschäftsprozesse und den Endbenutzerwerkzeugen und umfassen Angaben über die Speicherorte und –strukturen etwa im Data Warehouse, über die Objekte des Business Modells sowie zu den Navigationsmöglichkeiten.

Weiter können Metadaten in passive und aktive unterschieden werden. Passive Metadaten dienen zur Dokumentation der Struktur und der Verwendung von Daten in einem BI-System. Solche passive Daten können alle nutzen, die mit diesen Systemen umgehen, vom Endanwender bis zum Systementwickler.

Aktive Metadaten sind Bestandteil der dispositiven Datensysteme und werden dort abgelegt. Sie enthalten Strukturinformationen und Transformationsregeln, die zu einer direkten Prüfung der Datenstruktur herangezogen werden können. Weiter lassen sie sich zur unmittelbaren Ausführung von Transformations- und Analyseprozessen nutzen.

Metadaten im Data Warehouse

Ein Metadatenbankensystem ist wesentlicher Bestandteil der Data Warehouse Architektur. In dieser Datenbank werden die Metainformationen gespeichert und verwaltet. Die Informationen im Data Warehouse können damit schnell und sicher aufgefunden und weitgehend autonom verwendet werden.

Metadaten für ein Data Warehouse haben vor allem drei Hauptzwecke: Die Administration des Systems, die Bedeutungsspezifikation gespeicherter Inhalte und die Navigationskomponente.

Entwickler und Administratoren eines Data Warehouses benötigen vor allem technisch orientierte Metadaten. Hierzu gehören Angaben über die Datenquellen, Regeln zur Verbesserung der Datenqualität, Regeln für Transformations- und Konsolidierungsschritte, Zuordnungs-Informationen zwischen den Datenquellen und den Data Warehouse Modellen sowie die Metadaten der Datenmodelle des Data Warehouse selbst.

Data Warehouse Anwender brauchen vor allem Metadaten, um die dort enthaltenen Daten zu verstehen und zu bewerten. Wichtig sind vor allem Metadaten, die eine semantische Interpretation der Inhalte des Data Warehouse ermöglichen. Dies sind beispielsweise Definitionen der verwendeten Geschäftsbegriffe oder die Verbindung des Fachvokabulars mit den Datenobjekten. Auch Beschreibungen von erzeugbaren Berichten, zuständige Ansprechpartner und Voraussetzungen für Zugangsberechtigungen auf bestimmte Datenbereiche sind wichtige Metadaten.

Für einen autonomen Zugang zu den Daten im Data Warehouse ist eine endbenutzergeeignete Navigationskomponente notwendig, die ebenfalls auf Metadaten basiert. Diese bietet beispielsweise Funktionen für die freie Abfrageformulierung, für die Navigation, die elektronische Berichtsverteilung sowie den Durchgriff auf Daten in operativen Vorsystemen.

Architekturvarianten

Die notwendigen Abstimmprozesse bedürfen neben den Werkzeugen zur Metadaten-Verwaltung eines organisatorischen Rahmens, einer Architektur. In der Praxis haben sich verschiedene Architekturen durchgesetzt.

Grundsätzlich kann das Metadaten-Management zentral oder dezentral betrieben werden. Ein zentrales Metadaten-Management hat eine zentrale physische Datenbank zur Verwaltung der Metadaten als Basis, ein Repository. Dabei werden sowohl die gemeinsam genutzten und die spezifischen Metadaten aller Komponenten der dispositiven Datenhaltung zusammen gespeichert.

Zentrale Lösungen haben den Vorteil, dass die Metadaten redundanzfrei und konsistent sind. Zudem lässt sich auf einfache Weise global auf die Daten zugreifen. Nachteilig sind die oft nicht optimale Performance, die komplexe zentrale Wartung und die Abhängigkeit von den zentralen Datenhaltungskomponenten.

Häufiger eingesetzt wird das dezentrale Metadaten-Management. Beim dezentralen Metadaten-Management verfügen alle Komponenten eines BI-Anwendungssystems über ein eigenes lokales Repository. Zum Austausch kommunizieren alle Komponenten miteinander. Der Vorteil dieses Ansatzes liegt darin, dass schnell auf die lokalen Metadaten zugegriffen werden kann und die Anwendungen autonom sind. Nachteilig bemerkbar machen sich die zahlreichen Schnittstellen zwischen den verschiedenen Datenbanken sowie die redundante, nur mit großem Aufwand synchronisierbaren Metadaten.

Ein dritter Ansatz, das föderierte oder shared Metadaten-Management, versucht die Vorteile beider Ansätze zu kombinieren und die Nachteile zu minimieren. Dabei verwaltet jede Komponente eines BI-Systems ihre eigene Metadaten in einem lokalen Repository. Daneben gibt es ein zentrales Metadaten-Repository, in dem gemeinsam genutzte Medadaten verwaltet werden.

Metadaten-Management Architekturen: Zentral (oben), dezentral (Mitte) und föderiert (shared, unten). (Quelle: Uni Leipzig, DB-Abteilung)

Das föderierte Metadaten-Management hat den Vorteil der einheitlichen Darstellung der gemeinsam genutzten Metadaten, den wenigen erforderlichen Schnittstellen zwischen den Repositorys sowie in der sparsamen Redundanz der Metadatenhaltung.

Zum Austausch der Metadaten zwischen den BI-Komponenten und dem zentralen Repository dient eine Schnittstelle auf Basis eines standardisierten Metadaten-Modells. Ein Beispiel ist das Common Warehouse Metamodel (CWM).

Austauschformat Common Warehouse Metamodel

Um Metadaten kontrolliert und schnell austauschen zu können sind Austauschstandards notwendig. Bei der Metadaten-Verwaltung hat ein solcher Standard die Aufgabe, den Transfer von Metadaten zwischen BI-Anwendungen und einzelnen Repositorys herstellerunabhängig, flexibel und formal definiert zu ermöglichen.

Weit verbreitet ist der seit 2001 gültige Standard „Common Warehouse Metamodel“ (CWM). Das von der Object Management Group (OMG) entwickelte CWM hat sich als industrieweiter Standard zur Modellierung, Beschreibung und zum Austausch von Metadaten in Data Warehouse-Systemen etabliert. Es soll Interoperabilität zwischen verschiedenen Data-Warehouse-Systemen und -Werkzeugen ermöglichen.

Metamodell: Das Common Warehouse Metamodel der Object Management Group ist in eine Metamodel-Architektur eingebunden. (Quelle: Cundus AG)

Mithilfe des CWM lassen sich beispielsweise die im ETL-Prozess verwendeten Datenschemata von Quell- und Zieldatenbanken und die zwischen diesen stattfindenden Transformationen beschreiben. Es erlaubt zudem die Definition von Abbildungsvorschriften zwischen dem physischen Modell eines Data Warehouses und darauf aufsetzenden logischen Modellen wie etwa des eines OLAP-Werkzeuges.

Das Common Warehouse Metamodel nutzt die Unified Modeling Language als Notationssprache und Kern des eigenen Metamodells. Erstellte Metadaten-Beschreibungen lassen sich mit der XML-Sprache XML Metadata Interchange (XMI) austauschen, oder können über den Zwischenschritt einer Interface Definition Language (IDL) verschiedenen Programmiersprachen zugänglich gemacht werden.

Zugriffsberechtigungen und Administrations-Schnittstellen

Zugriffsrechte werden in der BI in der Regel zentral vergeben. Eine zentrale Berechtigungsverwaltung erlaubt es, Zugriffsrechte für alle Analysesysteme einheitlich abzulegen. Damit entfallen Redundanzen und Widersprüchlichkeiten im Vergleich zu verteilten Berechtigungsverwaltungen.

Weit verbreitet sind heute rollenbasierte Zugriffskontrollen. Dabei werden Nutzern und Nutzergruppen aufgrund ihrer Aufgaben bestimmte Rollen zugeschrieben. Rechte wie zum Beispiel das Lesen, Schreiben und Modifizieren von Daten werden dabei zusammengefasst. Analog lassen sich beispielsweise verschiedenen Führungsebenen unterschiedliche Rechte und damit Rollen zuschreiben. So lässt sich etwa definieren, dass jeder Ebene nur bestimmte Ausschnitte aus Daten oder Tabellen zugänglich sind.

Umgesetzt werden solche Limitierungen der Datensicht mit einer gezielten Begrenzung der vertikalen Recherchetiefe und der horizontalen Recherchebreite. Zusätzlich werden vertikale und horizontale Transferschichten festgelegt.

Neben einem bequemen Zugang zur Berechtigungsverwaltung müssen Administrations-Schnittstellen eingeplant werden. Administrations-Schnittstellen spielen bereits im Data Warehouse eine Rolle. Dort sind dies Zugänge für technische und betriebswirtschaftliche Experten, die Modifikationen, Einschränkungen und Erweiterungen im Data Warehouse umsetzen können.

Im Metadaten-Kontext werden über Administrations-Schnittstellen Transformationsregeln, dispositive Daten und Zugriffsberechtigungen generiert, modifiziert und gelöscht. Technische Administrations-Schnittstellen helfen dabei Spezialisten, alle Daten und Transformationsregeln zu pflegen. Den technischen Metadaten werden dabei vor allem zur Dokumentation und Steuerung eingesetzt.

Fachliche Administrations-Schnittstellen dienen vor allem der Datenpflege bei der Harmonisierung, Anreicherung und Aggregation. Betriebswirtschafltiche Experten bilden, bearbeiten und pflegen damit etwa die Harmonisierungsprozesse, Hierarchiebäume, Kennzahlen oder Zusammenfassungstabellen.

Fazit

Die Bedeutung von Metadaten für die gesamten BI-Phasen kann kaum unterschätzt werden. Technische und betriebswirtschaftliche Metadaten dienen zur Dokumentation aller Prozesse in den dispositiven Datensystemen und zur Steuerung der Nutzerzugriffe. Sie lassen sich nach verschiedenen Kriterien klassifizieren. Das Metadaten-Management kann in unterschiedlichen Architekturen realisiert werden.

Für die Pflege der Prozesse sind technische und fachliche Administrations-Schnittstellen notwendig. Über diese können Mitarbeiter den gesamten Transformationsprozess und die Berechtigungsstrukturen anlegen, ändern und löschen.

Das von der Object Management Group verabschiedete Common Warehouse Metamodel bietet losgelöst von proprietären Metadatenstrukturen eine solide Basis auf der Grundlage anerkannter Standards zur Modellierung umfangreicher Metadaten. Zur Erweiterung stehen flexible Möglichkeiten zur Verfügung, so dass auch systemspezifische Anforderungen mit berücksichtigt werden können. (ala)