Vier neue Berufsbilder
Big Data Jobs: Wer macht was?
Getrieben durch neue Speichertechnologien basierend auf neuen Verfahren wie In-Memory Computing, spaltenorientierte Datenbanken oder verteilten Programmiermodellen (Map Reduce) hat das Big-Data-Thema gerade in größeren Unternehmen an Relevanz gewonnen. Topmanager der Großkonzerne auf Fach- und IT-Seite müssen sich mit den Megatrend auseinandersetzen und bewerten, wie die neuen technologischen Möglichkeiten am besten für ihren Aufgabenbereich einzusetzen sind.
- Big Data
Unternehmen sollten sich im Klaren sein, welche Daten sie erfassen und welche Ergebnisse sie erzielen wollen. Für Big Data sollten möglichst viele bis alle Daten erfasst werden können. Im Gegensatz zu BI-Lösungen sollten sich Verantwortliche nicht in Nebensächlichkeiten verstricken, sondern immer das große Ganze sehen. - Big Data
Der Branchenverband BITKOM bietet eine kostenlose PDF-Datei, die als Leitfaden für Big Data-Projekte verwendet werden kann. - Big Data
Mit Hadoop und HDInsight in Microsoft Azure können Sie Big Data auch in der Microsoft Cloud betreiben. - Big Data
Um sich mit Hadoop und Big Data zu beschäftigen, ist HDInsight der schnellste Weg. Microsoft stellt für Entwickler eine Offline-Testumgebung für HDInsight zur Verfügung. - Big Data
Um Big Data-Lösungen zu nutzen, benötigen Sie in den meisten Fällen eine NoSQL-Datenbank, zusätzlich zu vorhandenen Datenbanken, beispielsweise MongoDB. - Big Data
Wer sich etwas mit Big Data bereits auseinandergesetzt hat und Lösungen in diesem Bereich einsetzt, kann die Umgebung mit weiteren Möglichkeiten erweitern. Auch hier steht eine Vielzahl an Opensource-Pridukten zur Verfügung, zum Beispiel Apache Giraph. - Big Data
Microsoft noch das kostenlose ebook „Introducing Microsoft Azure HDInsight“ zur Verfügung. Diese bietet einen idealen Einstieg in die Möglichkeiten von Big Data, HDInsight und Hadoop, auch für andere Plattformen. - Big Data
HBase kann als Datenbank für Big Data-Lösungen genutzt werden. Diese Technologie baut auf Google Big Table auf und kann sehr große Datenmengen speichern. - Big Data
Die meisten Unternehmen nutzen für die Verarbeitung von Big Data vor allem Hadoop-Distributionen oder Cloud-Lösungen. Die meisten Tools und Distributionen gehören zum Apache Projekt. Apache Mahout erlaubt eine bessere Verwaltung der Daten in Hadoop. - Big Data
Cloudlösungen bei Microsoft Azure, Google Cloud Platform oder Amazon Web Services, werden oft nach Datenvolumen berechnet und Berechnungsdauer. Entwickler sollten in die Abfragen und die Big Data-Anwendungen daher auch das Herunterfahren und Ausschalten von Big Data-Umgebungen einbeziehen.
Haben Unternehmen früher fast ausschließlich Daten der eigenen Anwendungen genutzt, sind in den vergangenen Jahren eine Vielzahl extern Quellen wie Social Media oder vernetzte Geräte im Internet der Dinge hinzugekommen. Das führt dann auch zu neuen Berufsbildern - so taucht der Begriff des "Data Scientist" in der letzten Zeit vermehrt auf. Hier scheint es sich um die Art "Zauberer" zu handeln, den jedes Unternehmen braucht, um das Wunderwerk Big Data zum Leben zu erwecken. Wie eine vielköpfige Hydra scheint er die Lösung aller Probleme zu sein - für jeden etwas anders, aber immer passend. Neue Studiengänge entstehen, die ihre Studenten zum "Master of Data Science" ausbilden und das nicht erst seitdem die Harvard Business Review ihn zum "Sexiest Job of the 21st Century" gekürt hat. Doch wer ist dieser Held der Gegenwart, dessen Berufsbild gar nicht so neu ist?
Um ein wenig Einblick und ein diversifizierteres Bild zu liefern, werden im Folgenden einige Begriffe und Rollen innerhalb von Unternehmen beschrieben, die häufig im Zusammenhang mit dem Berufsfeld des Data Scientists in Verbindung gebracht werden.
(Big) Data Engineer
Der Data Engineer ist im Wesentlichen für das Zusammenführen von Daten verantwortlich. Er kreiert aus den zur Verfügung stehenden Daten und Technologien eine Landschaft, in der sich der Data Scientist ausleben kann. Sein Wissen beschränkt sich nicht nur auf die im Unternehmen vorhanden Daten und ihre Speicherorte, er kennt sich auch damit aus, wie man diese Daten am besten in eine zentrale Analyseinfrastruktur integriert, welche Technolgien sich dazu eignen und welche zusätzlichen externen Daten zur Anreicherung genutzt werden können.
Zum Big Data Engineer wird er, wenn er mit großen Datenmengen arbeitet, die zur Speicherung und Verarbeitung Big-Data-Technologien benötigen. Dabei ist die Abgrenzung von Big Data nicht strikt definiert - große Datenmengen können aber beispielsweise eine Millionen Verkaufstransaktionen eines Onlinehändlers oder eine Millionen gehostete Telefonate eines Telekommunikationsanbieters sein. Aber auch ein Sensor, der alle zwei Nanosekunden 50 Megabyte Daten produziert. Seine Leistung beginnt bei dem Verständnis der fachlichen Anforderungen und der Planung und Entwicklung einer robusten und flexiblen Big-Data-Infrastruktur (auch bezeichnet als Big Data Architekt), geht über das Anschließen von internen und externen Datenquellen über Batch-, Echtzeit- und Streaming-Schnittstellen bis hin zur Sicherung eines reibungslosen Betriebs und Aktualität der Daten. Er ist quasi der Stadionarchitekt, Greenkeeper und Zeugwart für die Fußballmannschaft. Der (Big) Data Engineer ist der Herr der Datenversorgung.
Management Scientist
Der Management Scientist hingegen ist eher der Manager oder Teamchef, um im Bild der Fußballmannschaft zu bleiben. Er ist als Erster vor Ort, analysiert die Lage und diskutiert die fachlichen Problemstellungen, die mit Hilfe von Datenanalysen gelöst werden sollen. Mit wachsendem Anklang an datengetriebener Entscheidungsunterstützung gibt es heute kaum noch einen fachlichen Bereich oder eine Branche, in der Datenanalysen nicht eingesetzt werden.
Die Leistung des Management Scientist besteht darin, die Sprache des technisch- und datenunversierten Fachmitarbeiters in die des Data Scientists zu übersetzen. Es beginnt bei der Spezifizierung der eigentlichen fachlichen Problemdefinition, der Übersetzung und des Schärfens der dahinterliegenden analytischen Fragestellung, geht über die Identifikation von benötigten Daten, dem Management der operativen Analyse bis hin zur Kommunikation von analytischen Ergebnissen und Handlungsempfehlungen. Für seine Aufgabe benötigt der Management Scientist ein gutes Verständnis sowohl von analytischen Methoden und Vorgängen als auch fachlichen Prozessen und Auswirkungen. Er benötigt ein gewisses Verständnis der Fachbereiche, um den Fachvertreter zu verstehen und dem Data Scientist das Problem zu erklären, als auch die Möglichkeit analytische Ergebnisse zu bewerten sowie Vorgehen und Ergebnisse dem Fachvertreter in seiner Sprache schmackhaft zu machen. Der Management Scientist ist der Vermittler zwischen zwei Welten.