Datensicherheit 2.0

Cloud und Hadoop - Sicherheit ist nie absolut

12.06.2014 von Jörg Fritsch

Weil digitale Daten für vielen Unternehmen einen enormen Wert darstellen, bekommen auch das IT-Risiko-Management und die Datensicherheit ein besonderes Gewicht. Doch hundertprozentigen Schutz gibt es derzeit nicht.

Abhängig vom Industriesektor übersteigt für viele Unternehmen der Wert der immateriellen Assets und Daten den Wert der physikalischen Güter um ein Vielfaches. Genauso wie ein stromloses Rechenzentrum vor Hackern und Malware sicher, aber ansonsten nutzlos ist, sind Daten nur wertvoll, wenn man sie verarbeitet und die Erkenntnisse mit anderen Unternehmen teilt. Neue Technologien aus den Bereichen Cloud Computing und Big Data sind dafür geschaffen, dies überhaupt erst zu erreichen.

Die Cloud - ein zwischen Vertraulichkeit und Verfügbarkeit der Daten

Bei vielen Klienten existiert eine große Verunsicherung darüber, ob sensible Daten in der Cloud mit Verschlüsselung erfolgreich vor dem Zugriff Dritter geschützt werden können. Datenverschlüsselung ist jedoch kein Allheilmittel, gerade wenn man das Thema "Data at Rest"-Verschlüsselung betrachtet.

Die "Data at Rest"-Verschlüsselung in der Cloud ist eine starke Technologie mit einem Wermutstropfen: Die Vertraulichkeit und der Schutz der Daten, den Unternehmen in der Cloud letztendlich erreichen können, bleiben beim gegenwärtigen Stand der Technik immer ein Kompromiss zwischen der Vertraulichkeit und der Verfügbarkeit der Daten. Obwohl es anwendungs- und datenspezifische Ausnahmen gibt, können Computer gegenwärtig nur Daten verarbeiten, die nicht verschlüsselt sind. Teile der vertraulichen Daten müssen dabei immer unverschlüsselt im RAM gehalten werden - dies gilt auch für die notwendigen Schlüssel.

Noch am 1. April 2014 sind die meisten Entscheider und IT-Spezialisten davon ausgegangen, dass es sich dabei um eine rein theoretische Sicherheitslücke handelt. Nach dem Bekanntwerden von "Heartbleed" wurde deutlich vor Augen geführt, dass es unangenehme Konsequenzen mit sich bringt, wenn ein Angreifer sich Zugang zu den unverschlüsselten Daten im RAM verschaffen kann.

Aber es ist nicht alles verloren - mit dem richtigen Management der Schlüssel kann man in der Abwägung zwischen Vertraulichkeit und Verfügbarkeit bessere Entscheidungen treffen.

Sicherheit bei Hadoop 2.0 (YARN)

Die neue Hadoop-Architektur integriert zwar Sicherheitsfunktionen, doch viele Implementierungen sind unvollständig.
Foto: Gartner

Datensicherheit in Hadoop bleibt trotz Hadoop 2.0 (YARN) ein Flickwerk mit vielen beweglichen Teilen stark unterschiedlicher Qualität und Ursprungs.

Die gute Nachricht ist, dass die Entwickler von Hadoop einige High-end-Sicherheitsfeatures traditioneller Datenbanken (beispielsweise Cell-level RBAC, Datenbank- und Cell-Verschlüsselung) eingeführt und diese auf Hadoop übertragen haben. Man fängt also nicht bei null an.

Die schlechte Nachricht ist, dass die implementierten Sicherheitskontrollen auch bei traditionellen Datenbanken Nischenprodukte sind, die nur in Umgebungen mit höchstem Sicherheitsbedarf zum Einsatz kommen.

Viele Implementierungen sind zudem unvollständig. Zum Beispiel können sich Administratoren oder Root-Berechtigte oft zu allen Informationen Zugang verschaffen. Entwickler und Hersteller argumentieren hier, dass die zur Verfügung gestellten Mittel angemessen sind, um das eingangs bereits erwähnte Teilen der wertvollen Daten mit so vielen Unternehmen wie möglich und so sicher wie nötig überhaupt erst möglich zu machen.

Hadoop-Distributionen im Kurzprofil
Im Zuge von Big Data steigt in deutschen Unternehmen das Interesse an einem Framework für eine hoch skalierbare Infrastruktur zur Analyse großer Datenmengen. Die Open-Source-Variante Hadoop hat sich hier als Quasi-Standard etabliert. Mittlerweile sind jedoch auch Enterprise-Distributionen einiger Hersteller auf dem Markt, darunter auch IBM und Microsoft. Wir stellen sieben Anbieter und ihre Produkte vor.

Amazon Elastic MapReduce (EMR)
Amazons Cloud-basierter Service "Elastic MapReduce" (EMR) nutzt Hadoop für die Verteilung der Daten und die Verarbeitung auf einem skalierbaren Cluster. Dieses Cluster besteht aus Server-Instanzen, die Amazon EC2 (Elastic Compute Cloud) bereitstellt, sowie aus Speicherkapazitäten von Amazon S3. Ein Vorteil ist, dass der User ein EMR-Cluster in wenigen Minuten einrichten kann. Er muss sich weder um die Bereitstellung von Knoten noch um das Konfigurieren von Clustern und Hadoop kümmern.

Cloudera
Die US-Firma Cloudera zählt zu den bekanntesten Anbietern von Hadoop-Distributionen. Im März 2014 beteiligte sich Intel mit angeblich 720 Millionen Dollar an dem Unternehmen und brachte seine eigene Hadoop-Technik in die Partnerschaft ein.

Hortonworks
Die aktuelle Version 2.1 der "Hortonworks Data Platform" steht seit Kurzem zur Verfügung. Eine Besonderheit ist, dass Hortonworks nicht nur Linux, sondern auch Windows unterstützt. Die Hadoop-Distribution enthält unter anderem die Tools Stinger Solr und Storm, aber auch Lösungen für Sicherheit sowie IT- und Daten-Governance.

IBM mit InfoSphere BigInsights
IBMs Distribution "InfoSphere-BigInsights" wird von Forrester Research in einer Studie zu Hadoop-Distributionen von Anfang 2014 gut bewertet. Das überrascht ein wenig, weil das Unternehmen nicht unbedingt als Open-Source-Spezialist bekannt ist. Allerdings verfügt IBM über alle Tools und Kenntnisse, die für Big Data vonnöten sind: Datenbanken, Analysewerkzeuge, Erfahrung im Bereich Cluster und High-Performance-Computing, Datenmodellierungs-Tools etc.

Intel
Seinen Ausflug in Hadoop-Regionen hat Intel im März 2014 nach einem Jahr bereits wieder beendet. Mit der "Intel Distribution for Hadoop Software" hatte das Unternehmen eine Big-Data-Software-Plattform auf Basis von Hadoop entwickelt. Sie setzte weitgehend auf der Software von Apache auf, inklusive YARN.

MapR
MapR stellt laut einem Test von Flux7 eine Hadoop-Distribution zur Verfügung, die sich durch besonders hohe Performance auszeichnet. Dazu trägt das hauseigene File-System MapR-FS bei, das anstelle des Original-Dateisystems HDFS von Hadoop zum Zuge kommt. Weitere Besonderheiten sind die Unterstützung von NFS (Network File System), Änderungen an HBase, die sich in kürzeren Antwortzeiten niederschlagen, sowie die Option, unterschiedlichen Programmcode im Cluster laufen zu lassen.

Microsoft HDInsight
Mit "HDInsight Hadoop" stellt Microsoft eine Apache-Hadoop-Distribution über seine Cloud-Plattform Azure bereit. Auf der Entwicklerkonferenz "Build" gab Microsoft Anfang April 2014 in San Francisco bekannt, dass der Hadoop-Cloud-Service HDInsight Hadoop auf die aktuelle Version 2.2 upgedatet wurde. Zudem steht den Nutzern nun auch "Hadoop YARN" (Yet Another Resource Negotiator) zur Verfügung. Damit lassen sich auch Streaming-Daten verarbeiten.

Pivotal HD
Als Hadoop-Distribution, die im Gegensatz zur Standardversion der Software auch SQL-Datenbanken als Datenquellen nutzen kann, positioniert sich "Pivotal HD". Die Distribution basiert auf Hadoop 2.0 und verbindet EMCs Greenplum-Datenbank mit der Open-Source-Software. Die engen Bande zu EMC kommen nicht von ungefähr, weil Pivotal eine Ausgründung des Storage-Spezialisten ist.

"Mitdenken" bei BigData

Auch im Bereich Big Data ist eine Realitätsprüfung sinnvoll. Man sollte auf keinen Fall über das Ziel hinausschießen und Big Data mehr (eventuell unnötiger) Sicherheit aussetzen als den Daten in traditionellen Datenbanken. Zusammengefasst ist "mitdenken" für alle wichtig, die von neuen Technologien profitieren wollen oder müssen. Es gibt Kompromisse, die viele Anforderungen erfüllen. Bei der Definition eines tolerierbaren Rahmens für die Erfassung und Verarbeitung von Daten in der Cloud und in Hadoop sollten aber politische Empörung, überzogene Anforderungen und die Angst vor dem Unbekannten keine Rolle spielen.