Worum es geht: Gesten ohne Hilfsmittel
Der Mensch nutzt die Hände nicht nur zum Greifen, sondern auch zum Kommunizieren. Gesten begleiten unsere Sprache, und in Form von Gebärdensprachen können sie sie vollständig ersetzen. Meine Dissertation ging der Frage nach, wie ein Computer einzelne Gesten und Gebärden allein aus einem gewöhnlichen Kamerabild erkennen kann: nicht-intrusiv, also ohne Datenhandschuh, Magnetsensoren oder Markierungen am Körper. Zwei Anwendungsfelder standen im Blick: natürlichere Mensch-Maschine-Schnittstellen und, längerfristig, die automatische Übersetzung von Gebärdensprache.
Warum das schwer ist
Die eigentliche Schwierigkeit liegt in den Händen. Sie ändern fortlaufend Form, Position und Orientierung, bieten kaum verlässliche Anhaltspunkte und sehen sich untereinander ähnlich. Sie überlappen sich gegenseitig oder mit dem Gesicht und sind dann im Einzelbild kaum abzugrenzen. Und dieselbe Geste wird nie zweimal exakt gleich ausgeführt. Jede dieser Eigenschaften arbeitet gegen eine zuverlässige Erkennung.
Schritt 1: Das Gesicht als Anker
Ausgangspunkt sind alle Bildbereiche, die zu einem Hautfarbmodell passen — dargestellt als Regionen mit Randkurven oder elliptischen Näherungen. Unter ihnen wird zuerst das Gesicht identifiziert und anschließend über die Zeit verfolgt. Dafür habe ich einen Mean-Shift-Tracker mit einem Active Shape Model kombiniert: Der eine ist robust gegen Störungen, das andere modelliert die Form. Zusammen bleibt die Verfolgung auch dann stabil und genau, wenn sich eine Hand vor das Gesicht schiebt.
Schritt 2: Die Hände finden und auseinanderhalten
Vom Gesicht ausgehend stelle ich Hypothesen auf, welche der übrigen hautfarbenen Regionen die Hände sind. Überlappungen werden mit einem Verfahren auf Basis des Expectation-Maximization-Algorithmus aufgelöst. Ein Kalman-Filter sagt die nächste Handposition voraus, und über eine Viterbi-Pfadsuche (dynamische Programmierung) wird aus allen Hypothesen über die Zeit der beste Weg bestimmt. Der eigentliche Kniff: Nach dem Prinzip multipler Hypothesen kann eine spätere Beobachtung eine frühere Fehlentscheidung wieder korrigieren.
Schritt 3: Von der Bewegung zur Bedeutung
Aus Position, Orientierung und Form der Hände entsteht ein Beobachtungsvektor. Indem ich alles auf Position und Größe des Gesichts beziehe, fallen Unterschiede im Standort der Person heraus, ob sie näher oder weiter entfernt steht. Diese Beobachtungsfolge geht an den Klassifikator, der sie mit einer Datenbank zuvor trainierter Gebärdenmodelle vergleicht (Hidden-Markov-Modelle) und das wahrscheinlichste Modell als Gewinner bestimmt.
Wozu das gut ist
Zwei Stoßrichtungen: erstens alternative, intuitivere Bedienkonzepte für technische Systeme, in denen Gestik Teil einer multimodalen Eingabe wird. Zweitens die Gebärdenspracherkennung. Seit der rechtlichen Anerkennung der Deutschen Gebärdensprache steigt der Bedarf an Übersetzung, gerade in Ämtern; menschliche Dolmetscher sind aber selten und kostenintensiv. Automatische Systeme wären hier ein echter Hebel.
Der rote Faden
Aus heutiger Sicht war das ein früher, kleiner Schritt mit den Mitteln von 2003. Aber es ist genau die Linie, die sich bis heute durchzieht: aus rohen Sensordaten verlässlich Bedeutung gewinnen, robust gegen das Rauschen der echten Welt. Die Werkzeuge sind heute ungleich mächtiger, die Grundfrage ist dieselbe geblieben. Sie begleitet mich von der Promotion bis in die heutige Mandatsarbeit mit KI.