Web of Data

NSA zum Selberbauen

14.03.2014 von Dirk Stähler
Das Internet zu überwachen wird immer einfacher. Jeder kann Inhalte auswerten und für sich arbeiten lassen. Die Kombination kostenfrei verfügbarer Werkzeuge macht es beispielsweise möglich, automatisch Flugtickets zum Nulltarif aufzuspüren oder das eigene Unternehmen zu überwachen.

Als Edward Snowden im Juni 2013 gegenüber der britischen Tageszeitung The Guardian die Überwachung des weltweiten Internetverkehrs durch die NSA enthüllte, waren viele von dem Ausmaß überrascht. Grundsätzlich verwundert das Ganze aber nicht: Dass staatliche Organisationen und Konzerne mit großem IT-Budget die Inhalte im Netz auswerten, ist lange bekannt. Weniger bekannt ist, dass auch Nutzer ohne Programmierkenntnisse die Inhalte weitaus intensiver nutzen können als erwartet.

Das Internet stellt - für viele immer noch unbemerkt - Werkzeuge bereit, die ein "mitdenkendes" Netz für jeden schaffen. Sie helfen, gewinnbringend Entscheidungen zu treffen und Geld beim Einkauf von Produkten und Dienstleistungen zu sparen. Aber sie ermöglichen auch Ausspähung und Überwachung. Sie sind einfach zu bedienen und stehen jedem kostenfrei zur Verfügung. Das ist Bereicherung und Gefahr zugleich.

Fliegen für lau? Kein Problem!

Eine Bereicherung - im wahrsten Sinn des Wortes - erlebten einige Nutzer am 12. September 2013. An diesem Tag ermöglichte ein Fehler im Buchungssystem von United Airlines eine Stunde lang, über die Website der Airline Flüge für 0 (in Worten: null!) Dollar zu buchen. Die Nachricht über das "Sonderangebot" verbreitete sich in kürzester Zeit auf Twitter und Facebook. Haben auch Sie eines der "günstigen" Tickets gebucht? Nein? Wäre es nicht toll gewesen, das Netz hätte Sie rechtzeitig und automatisch über diese Gelegenheit informiert? Der Flug nach Hawaii wäre eine ganze Stunde lang nur einen Klick entfernt gewesen.

Ich bin sicher, viele denken jetzt, das sei ein Einzelfall gewesen. Weit gefehlt: Am 26. Dezember 2013 gerieten die Preise im Buchungssystem von Delta Airlines in "Unordnung". Zwei Stunden wurden Tickets für null US-Dollar verkauft. Auch in diesem Fall gab es bereits Berichte im Netz, während die Tickets noch verfügbar waren.

In beiden genannten Fällen war die Voraussetzung dafür, eines der "günstigen" Tickets zu erhalten, im richtigen Moment den richtigen "Online-Ort" zu überwachen oder rechtzeitig informiert zu werden. Einigen Nutzern ist das gelungen. Suchen Sie selbst einmal nach "Error Fares". Sie werden erstaunt sein, wie häufig solche Fehler auftreten.

Mit den Fehlern anderer selbst Kasse machen: Das gilt nicht nur für Flugreisende, sondern besonders für Portale, die nichts anderes tun, als auf fehlerhafte Buchungssysteme hinzuweisen.

Das Beispiel ist auf beliebige Produkte und Dienstleistungen im Internet übertragbar. Es steht exemplarisch für die Tatsache, dass im Netz für jeden Nutzer interessante Informationen stecken. Im Jahr 2012 wurden 43,5 Exabyte an Daten über das Netz transportiert. Mehr als 13 Milliarden Websites versorgen uns aktuell mit Inhalten. Da ist für jeden etwas dabei - ganz sicher. Die Frage ist allerdings: Wie schaffen es einige Nutzer, gezielt und wiederholbar die für sie individuell wertvollen Informationen zu gewinnen? Hilft ihnen dabei vielleicht das Netz selbst?

Web of Data

Mit dem Versuch, auf diese Frage eine technische Antwort zu finden, befassen sich Forscher seit langem. Das World Wide Web Consortium (W3C) - das Gremium zur Standardisierung der Technologien im World Wide Web - versucht den Schatz der im Internet "versteckten" Informationen mit dem Aufbau eines semantischen Netzes zu heben. Die Kernidee ist, Inhalte für Computer "verständlich" aufzubereiten, damit sie selbstständig darauf reagieren können. Zur Umsetzung möchte das W3C dem bestehenden Netz, das sich über das Web of Documents (Web 1.0) zum Web auf Content (Web 2.0) entwickelt hat, eine dritte für Maschinen lesbare Ebene hinzufügen. Ihr Name: Web of Data (Web 3.0).

Web 1.0: Als "Web of Documents" wird die erste Phase der Entwicklung des World Wide Web zwischen 1990 und 2000 bezeichnet. Es beschreibt eine rein statische Ansammlung, hauptsächlich über Hyperlinks verbundener Dokumente. Im Grunde war das Web 1.0 nichts anderes als eine große Bibliothek. Wer über einen Zugang verfügte, konnte Inhalte aufrufen, betrachten und mit etwas Mühe auch kopieren. Viel mehr aber auch nicht. Maschinen konnten mit den Inhalten im Web 1.0 nahezu nichts anfangen.

Web 2.0: In der Phase des "Web of Content", die rund um das Jahr 2000 begann, war die Erzeugung von Inhalten nicht mehr auf wenige Website-Betreiber beschränkt. Jeder konnte sich ohne umfassendes technisches Wissen an deren Erstellung und Bearbeitung beteiligen (z.B. in sozialen Netzwerken). Das Web 2.0 demokratisierte die Erstellung, Bearbeitung und Verwendung von Inhalten. Es ermöglichte Beteiligung.

Web 3.0: Seit dem Jahr 2010 ist das Internet in die nächste Phase der Entwicklung eingetreten: das "Web of Data" respektive das "semantische Netz". Noch kann keiner genau sagen, was es ist oder wie es final aussehen wird. Sicher ist aber, das sich entscheidende Veränderungen ergeben haben, die eine Abgrenzung zum Web 2.0 erforderlich machen. Das Web 3.0 wird zum "mitdenkenden Netz". Es wird uns individuell und automatisch bei der Bewältigung alltäglicher Fragen unterstützen. Es bringt Intelligenz (ins Netz).

Die Agenten kommen

Schon 2001 schrieb WWW-Erfinder und W3C-Direktor Tim Berners-Lee: "Der Nutzen eines semantischen Netzes wird erst freigesetzt, wenn Menschen beginnen, Software-Agenten (Programme) zu bauen, die Inhalte aus diversen Quellen sammeln, verarbeiten und mit anderen Programmen austauschen. Der Effekt solcher Software-Agenten wird exponentiell wachsen, je mehr maschinenlesbare Inhalte und automatische Dienste zu deren Verarbeitung bereitstehen."

Die Vision des W3C für ein Web of Data ist aber nicht auf breiter Basis umsetzbar. Wie zum Beweis ist seit der Vorstellung der Idee durch Berners-Lee wenig passiert. Die Praxis hat gezeigt, dass der Ansatz in großem Maßstab nicht funktioniert. Berners-Lee hat mit seiner Aussage aber grundsätzlich Recht. Nur erfolgt die Umsetzung anders als von ihm erwartet. Wir müssen akzeptieren, dass es keine umfassend geschlossene Struktur geben kann, die alle Inhalte im Netz miteinander in maschinenlesbare Beziehungen setzt.

In der Praxis sehen wir vielmehr individuelle Lösungen, die jeder selber zusammenstellt. Dies sind indes Lösungen, die funktionieren - für den einzelnen Nutzer vollkommen ausreichend und in jedem Fall besser als nichts. Die erforderlichen Werkzeuge entstehen seit ein paar Jahren im Netz. In den letzten 24 Monaten hat sich deren Entwicklung fast unbemerkt beschleunigt. Jeder von uns hat heute Zugriff auf Werkzeuge, die eine Vielfalt individueller Möglichkeiten zur Auswertung und Überwachung des Netzes bieten.

Spion & Spion

Wo Chancen liegen, lauern auch Risiken. Wer sich darüber freut, dass das Netz automatisch über Fehler in den Buchungssystemen von Fluggesellschaften informiert, muss auch damit leben, mit simplen und allgemein zugänglichen Werkzeugen ausspioniert zu werden.

Stellen Sie sich vor, jemand möchte ihr Unternehmen kontinuierlich bezüglich der Personalwechsel im Management und der Mitarbeiterentwicklung an bestimmten Standorten überwachen. Auf den ersten Blick erscheint es, dass sich Informationen dazu im Internet ohne technische Kenntnisse nur sehr schwer kontinuierlich ermitteln lassen. Denn was würden Sie sagen, wenn Ihr Wettbewerber diese Informationen automatisch im Internet sammelt und auf diesem Weg ein genaues Bild über ihre zentralen Schlüsselmitarbeiter, die regionale Personalentwicklung und vielleicht auch die Stimmung in Ihrem Unternehmen erhält? Und weiter, wenn dafür kein zusätzliches Personal erforderlich ist, keine Unterstützung der IT-Abteilung benötigt wird und er die Werkzeuge auch noch kostenfrei erhält?

Utopie? Leider nein. Um ein gutes Bild über die Mitarbeiterentwicklung Ihrer ersten und zweiten Leitungsebene zu erhalten, genügt häufig bereits der regelmäßige Blick in soziale Netze. Geben Sie doch einmal bei einer großen Suchmaschine die folgende Zeile für Ihr Unternehmen ein:

site:<URL eines bekannten beruflichen Online-Netzwerk inklusive .com oder .de> intitle:"<Ihr Unternehmensname>"

Sie erhalten eine Liste aller registrierten Mitarbeiter des gesuchten Unternehmens. Meistens handelt es sich dabei um genau den interessanten Personenkreis. Die Entwicklung auf diesen Positionen ist für Ihre Wettbewerber natürlich besonders spannend.

Jetzt stellt sich nur noch die Frage, wie sich diese Ergebnisse kontinuierlich automatisiert auswerten lassen. Schließlich möchte niemand möchte per Hand eine Excel-Liste pflegen und regelmäßig mit den neusten Daten abgleichen. Die Lösung für dieses Problem liegt erneut im Netz. Ihr Wettbewerber verwendet dazu zum Beispiel den Dienst Yahoo Pipes. Der erlaubt es, Inhalte aus Feeds, Websites und anderen strukturierten Datenquellen zu lesen und auf vielfältige Weise miteinander zu verbinden. Die Daten können gefiltert, ergänzt, verändert und kombiniert werden. Pipes stellt dafür eine Vielzahl von Funktionen bereit. Auch komplizierte Bearbeitungsschritte werden einfach in einem graphischen Editor zusammengestellt. Umfangreiche Informatik-Kenntnisse sind nicht erforderlich. Als Ergebnis erhält Ihr Konkurrent eine maschinenlesbare Ausgabe der Schlüsselpositionen in Ihrem Unternehmen, deren Veränderungen und auf Wunsch weitere Informationen. Alles jederzeit aktuell.

Was ist Big Data? -
Was ist Big Data?
Nur 14 Prozent der Bundesbürger wissen, was mit dem Schlagwort „Big Data! gemeint ist, so hat der Bitkom herausgefunden. Experton-Advisor Carlo Velten fasst das Phänomen in fünf Thesen zusammen.
Big Data ist mehr ...
... als IT.
Eigentums- und Verwertungsrechte ...
... über Datenbestände werden zum entscheidenen Wettbewerbs- und Innovationsfaktor.
Der Markt steckt noch ...
... in den Kinderschuhen. Bis sich klar definierte Marktkategorien herausbilden, wird Jahre dauern.
In den kommenden zwei bis drei Jahren ...
... werden die Infrastrukturanbieter, die Analytics-Spezialisten und die Berater das große Geschäft machen.
Erfolg oder Misserfolg ...
... hängen nicht nur von rechtlichen Rahmenbedingungen und öffent¬lichen Investitionen, sondern auch vom vertrauensbildenden Umgang mit den Kundendaten ab.

Gefährliche Jobportale

Als nächstes betrachtet Ihr Konkurrent Ihre regionale Planung. Dazu reicht es häufig, wichtige Jobportale zu untersuchen. Viele dieser Angebote informieren per Email über neu geschaltete Anzeigen. Das ist aufwändig, da die E-Mails nicht direkt automatisiert verarbeitet werden können. Viel besser wäre es, wenn die aktuellen Stellenangebote direkt in einer maschinenlesbaren Form verfügbar wären. Auch dazu findet sich im Netz ein kostenfreies Werkzeug: Yahoo Dapper. Das macht es möglich, Inhalte aus vielen Webseiten zu extrahieren und in maschinenlesbaren Formaten bereitzustellen. Auf diesem Weg wertet ihr Mitbewerber regelmäßig große Jobportale nach den geschalteten Arbeitsangeboten aus. Auch hier werden keine Programmierkenntnisse benötigt. Heißt: Die Lösung baut der Vorstand oder Geschäftsführer abends auf dem Sofa.

Stellen Sie sich das wie ein Spiel mit Steckbausteinen vor. Zur Herstellung und Verarbeitung gibt es zwei Gruppen von Werkzeugen. In der ersten Gruppe finden Sie Dapper. Es ist das Werkzeug, um Bausteine aus den Inhalten des Netzes zu erzeugen. In der zweiten Gruppe finden Sie Pipes. Es sortiert und verteilt die Bausteine nach bestimmten Kriterien.

Auf die Verknüpfung kommt es an

Einige unter Ihnen werden jetzt anmerken, dass beide Werkzeuge bereits seit mehreren Jahren im Netz zur Verfügung stehen, und es sich deshalb nicht um eine neue Entwicklung handelt. Das ist richtig. Neu ist aber - und dadurch wird die einfache Automatisierung des Netzes für jeden überhaupt erst möglich - die Entwicklung einer dritten Gruppe von Werkzeugen. Werkzeuge, die es jedem erlauben, Dienste im Internet individuell zu verknüpfen. Exemplarisch sind hier Angebote wie IFTTT (If this then that) oder Zapier zu nennen. Mit ihrer Hilfe ist es für jeden Anwender möglich, eine Vielzahl von Online-Tools zu verknüpfen. Sie sind so etwas wie digitales Klebeband. Beispielsweise nutzt ihr Wettbewerber IFTTT um die von Pipes gesammelten Daten automatisch in einem Cloud-Speicher abzulegen. Neue Daten zur Mitarbeiterentwicklung und den von Ihnen geschalteten Job-Angeboten werden regelmäßig ausgelesen und bei Google Drive oder Dropbox gespeichert. Sämtliche Informationen stehen sofort für strategische Wettbewerbsanalysen bereit. Es ist nur ein kleiner Schritt zu weiteren interessanten Auswertungen über Ihr Unternehmen, die sich noch im Netz finden.

Wo bleibt der Datenschutz?

Natürlich darf Ihr Wettbewerber nur Inhalte von Web-Seiten beziehen, die das automatische Auslesen erlauben. Auch muss er sich an die geltenden Gesetze zum Datenschutz und die Geschäftsbedingungen der Werkzeuge halten. Sicher sind Sie davon überzeugt, dass Ihre Wettbewerber immer korrekt handeln. Aber wer kann das schon genau wissen? Jedes Unternehmen muss verstehen, wie die eigenen Daten im Netz von Dritten verwertet werden können. Sensible Informationen im Internet besitzen einen wirtschaftlichen Wert. Das weckt natürlich Begehrlichkeiten. Begehrlichkeiten, die verstärkt werden durch die Tatsache, dass individuell und punktgenau erstellte Lösungen in vielen Fällen dem Aufbau großer Big-Data-Analysen überlegen sind. Sie sind preiswerter, durch jeden Anwender einsetzbar und liefern deutlich schneller relevante Informationen. Pragmatik pur. Nur wer deren Möglichkeiten kennt, kann diese Werkzeuge - wo erlaubt - für sich nutzen und sich bei Missbrauch gegen sie wehren.

Der praktische Einsatz

Und was ist jetzt mit den günstigen Flugtickets? Bei der Suche nach den besten Preisen für Produkte und Dienstleistungen kommen eben die genannten Werkzeuge zum Einsatz. Wer zum Beispiel die Inhalte von Reiseforen gezielt auf Beiträge zu Fehlern in den Buchungssystem von Airlines überwacht, kann sich durch die Dienste zur Automatisierung des Netzes rechtzeitig informieren lassen. Yahoo Pipes durchsucht die Beiträge kontinuierlich nach Stichwörtern und IFTTT schickt eine Nachricht auf Ihr Smartphone, sobald etwas gefunden wird. So lässt sich eine Menge Geld sparen.

Studien wie der Report "Consumers driving the digital uptake" des IAB Europe zeigen, dass erfahrene Internet-Nutzer gegenüber ungeübten Anwendern einen finanziellen Vorteil haben. Pro Haushalt liefern clever genutzte Internetdienste im Durchschnitt einen finanziellen Mehrwert von 480 Euro pro Jahr. Entscheidend ist nur, dass die Überwachung von Angeboten zu Produkten und Dienstleistungen immer eine sofortige Information erfordert. So erkennen Fluggesellschaften die Fehler in ihren Buchungssystemen sehr schnell. Deshalb kommt es in diesem Einsatzbereich auf jede Minute an. Die kontinuierliche Überwachung und Analyse von Unternehmensdaten wird dagegen umso besser, je länger Daten gesammelt werden.

Wer frei verfügbare Online-Dienste wie Yahoo Pipes, Dapper mit Analyse-Services wie IFTTT verknüpft, kann sich im Handumdrehen automatisierte Infos in Echtzeit kommen lassen. So werden Antworten auf Fragen gegeben, die vorher noch niemand gestellt hat.

Andere arbeiten lassen

Beide Ansätze basieren auf einem gemeinsamen Fundament: dem Wandel zu einem intelligenten Netz, das das aktive Arbeiten für uns Nutzer übernimmt. Diesen Wandel haben bisher nur wenige in vollem Umfang erkannt. Aktuell dreht sich die öffentliche Diskussion um die zunehmende Digitalisierung des täglichen Lebens und die immer mobiler werdende Nutzung des Netzes. Es wird zu wenig darüber gesprochen, was die Basis für diese Entwicklungen bildet: die Inhalte des World Wide Web und deren automatisierte Nutzung durch jeden Anwender.

Die Menge digitaler Daten wird in den kommenden Jahren durch Vernetzung nochmals wachsen. In diesen Daten stecken Schätze, an die viele heran wollen. Der Kauf von Nest durch Google ist ein aktuell sichtbares Zeichen. Der einzige Ansatz für einen demokratischen Umgang mit unseren Daten kann nur sein, jedem den Zugriff auf seine Inhalte zu ermöglichen. Nur, wenn wir unsere persönlichen Daten selber kontrollieren, können wir - halbwegs - sicher sein, was mit ihnen geschieht.

Die Werkzeuge zur Sammlung, Auswertung, Überwachung und Automatisierung unterstützen genau diese Idee. Aber selbstverständlich ermöglichen sie auch Missbrauch. Natürlich handelt es sich bei weitem nicht um eine Überwachung im Maßstab der NSA. Bedenken Sie aber, welche Fähigkeiten die kostenfreien Werkzeuge bereits heute jedem von uns bieten. Weder benötigen wir eigene Hard- noch Software noch Programmierer zum Aufbau von individuellen Analysen - die meisten Werkzeuge sind gar kostenfrei. Diese Entwicklung hat sich im Stillen vollzogen und wird weiter gehen. Tim Berners-Lee wird in diesem Punkt bestätigt: Jeder von uns kann heute eigene Software-Agenten bauen. Der Effekt wird exponentiell wachsen, je mehr Inhalte und Dienste bereitstehen. Darüber sollten wir uns freuen. Aber wir müssen auch wachsam bleiben. (sh)

Infos zum Buch

Der Text ist teilweise ein Auszug aus dem Buch "MehrWert aus dem Netz?" Es beschreibt die Entwicklung zum intelligenten Netz für jeden. Vorgestellt werden wichtige Werkzeuge sowie unbedenkliche und fragwürdige Einsatzszenarien. Der Autor wirft einen Blick in die Zukunft des "Web of Data" und identifiziert Unternehmen, die am meisten von der Entwicklung profitieren.