Blick in Labors

Morgen steuern Gesten, übermorgen Gedanken die IT

Von der Gestenerkennung zum Body Mass Index

Technisch basieren diese Systeme zur Erkennung von Gestik auf 3D-Kamera-Technologien. Die Grundlagen wurden im Umfeld des israelischen Militärs ungefähr im Jahr 2005 entwickelt. Dort gab es offenbar das erforderliche Expertenwissen, denn um einen solchen Sensor zu fertigen, benötigt man umfangreiche Kenntnisse in den Bereichen Video, Signal Optimierung, Elektrooptik, Ergonomie und kognitiver Psychologie.

Das Unternehmen Microsoft hat die Relevanz und die Möglichkeiten dieser Technologie früh erkannt und zur Marktreife gebracht. Die aktuelle Generation der xBox 360 ist kompatibel mit dem so genannten Kinect Sensor. Dieser Sensor wird seit November 2011 verkauft und hat eine kleine Revolution in punkto Interaktionsmöglichkeiten gestartet.

Es hat nicht lange gedauert bis findige Entwickler den Treiber gehackt haben und es somit möglich war, den Sensor an einen Computer anzuschließen und somit Zugang zu den Tracking Daten zu erhalten. Daraufhin entstand schnell eine Open Source Community, die Algorithmen zur Skelett- und Gestenerkennung für andere Entwickler verfügbar machte. Seitdem ist es grundsätzlich möglich Menschen und ihre Gliedmaßen zu erkennen. Diese Technologie ist mittlerweile soweit, dass sie innerhalb von Bruchteilen einer Sekunde die Konfektionsgröße eines Menschen erkennen kann. Es ist sogar möglich den Body Mass Index zu errechnen.

Maßgeschneiderte Angebote - je nach Stimmungslage

In zahlreichen Bereichen wurden diese oder ähnliche Technologien bereits in Systeme integriert. Sei es der Arzt, der während einer Operation durch 3D- Daten des Patienten navigiert, ein Fluglotse, der ein virtuelles Training absolviert, oder ein CEO auf der Jahreshauptversammlung, der die Folien seiner Powerpoint-Präsentation nur mit Gesten wechselt. Weiterklicken? War einmal.

Der Fortschritt der Technik schreitet zügig voran und beschäftigt sich heute bereits mit Anwenderschnittstellen, die nicht einmal mehr die Gestik benötigen. Das Fraunhofer Institut hat eine Software namens SHORE entwickelt. Diese Software registriert auf Basis eines 2D-Bildes oder Videos, ob ein Nutzer die Augen geöffnet hat. Sie erkennt recht zuverlässig das Geschlecht und das ungefähre Alter. Zusätzlich analysiert die Lösung Gesichtsausdrücke und kann Gefühlsregungen wie zum Beispiel fröhlich, erstaunt, wütend und traurig zuordnen. Je nach dem wie sich der Gesichtsausdruck des Nutzers ändert, erhält er andere Angebote, Hinweise oder Informationen. Software kann nun auch auf Emotionen reagieren.

Wie wird all dies morgen sein? Welche Fähigkeiten werden wir benötigen? Welche Interaktionen sind notwendig? Passiert künftig alles nur noch intuitiv? Benötigen wir in der Zukunft überhaupt technische Kompetenz, um Geräte zu steuern? All diese Fragen beschäftigen die Programmierer, Entwickler, Designer, Technologisten und Trendforscher von heute. Die einzige Interaktion in einem fahrerlosen Taxi von Google ist, dem Fahrzeug zu sagen, wohin man möchte. Vielleicht muss man es in nicht allzu ferner Zukunft sogar nur denken.

Technologietrends ändern sich laufend. Die Gründe: Etwas, für das es einen Bedarf gibt, existiert nicht. Oder eine bestehende Technologie funktioniert nicht mehr. Oder muss verbessert werden. Lässt man die Trends auf der IFA 2013 Revue passieren, dann wird klar: Vorerst geht die Entwicklung in Richtung touchloser Interaktion und sehr, sehr großen Screens mit sehr, sehr hoher Auflösung. Technologie wird immer präsenter in den Städten. Interaktive Displays tauchen überall auf. Kommunikation mit Maschinen wird perzeptuell.

Analog zur zwischenmenschlichen Kommunikation werden wir künftig Arme, Beine, Posen, Gesten, Ausdrücke und möglicherweise sogar Gefühle verwenden, um zu interagieren. Bereits in wenigen Jahren werden Touchscreens, wie wir sie heute kennen, riesige Ausmaße annehmen. Dabei kann theoretisch alles zum Touchscreen werden. Auflösungen werden so hoch sein, das wir mit dem bloßen Auge keine Pixel mehr erkennen können. Denkbar ist: Eine nahtlose Interaktion. Eine Berührung, ein Ausdruck oder ein Gedanke reichen aus. (jha)