Datenschutz in Big-Data-Projekten

Tools zur Anonymisierung von Daten

Datenmaskierung

Die IRI FieldShield-Software oder die Informatica-Data-Masking-Produkte können dazu genutzt werden, um Datenbankinhalte oder unstrukturierte Daten nach personenbezogenen Daten zu durchsuchen. Fundstellen lassen sich nach definierten Regeln maskieren.

Das bedeutet, dass die personenbezogenen Daten durch Daten ersetzt werden, die keinen echten Personenbezug mehr aufweisen. Das können frei definierbare Zeichenketten oder bestimmte Ersetzungswörter sein. Alternativ können Daten so verkürzt werden, dass sie ihre Aussagekraft über bestimmte Personen verlieren.

Anonym bleiben: Daten unerkannt zu belassen, aber trotzdem auswerten zu können, ist die hohe Kunst.
Anonym bleiben: Daten unerkannt zu belassen, aber trotzdem auswerten zu können, ist die hohe Kunst.
Foto: LogPoint, Andreas Kümmerling

Neben der statischen Datenmaskierung (Static Data Masking, SDM), die den Personenbezug von gespeicherten Daten entfernen kann, gibt es die dynamische Datenmaskierung (Dynamic Data Masking, DDM), die Daten nahezu in Echtzeit so abwandelt, dass erst gar keine personenbezogenen Daten gespeichert werden. Dabei machen leistungsfähige Lösungen zur Datenmaskierung vor großen Datenmengen nicht halt: Innovative Routines International (IRI) verspricht den Anwendern "Big Data Protection", wozu eine Maskierung von personenbezogenen Daten innerhalb großer Datenmengen gehört.

Webanalysen: IP-Adresse verkürzen

Wie die Verkürzung personenbezogener Daten bei der Anonymisierung hilft, zeigt das Beispiel der Webanalyse mit Google Analytics: Nach Bestimmungen des Telemediengesetzes (TMG) dürfen Nutzungsprofile nur bei Verwendung von Pseudonymen erstellt werden. Die IP-Adresse ist nach Ansicht der Datenschützer kein Pseudonym im Sinne des Telemediengesetzes.

Nachdem die Aufsichtsbehörden für den Datenschutz in Deutschland mit Google längere Zeit über die Datenschutzanforderungen an eine Webanalyse diskutiert hatten, stellte Google eine Lösung vor, mit der auch die Datenschützer einverstanden waren.

Die Lösung besteht unter anderem darin, Google mit der Kürzung der IP-Adressen zu beauftragen - durch entsprechende Einstellungen im Programmcode von Google Analytics. Dazu ist auf jeder Internetseite mit Google-Analytics-Einbindung der Trackingcode um die Funktion "_anonymizeIp()" zu ergänzen. Die Kürzung der IP-Adressen dient der Anonymisierung der Nutzungsdaten.