Worum geht es in der Dissertation?

Um die nicht-intrusive Erkennung isolierter Gesten und Gebärden: Eine Videokamera nimmt eine Person auf, das System verfolgt Hände und Gesicht und ordnet die Bewegung einer Geste oder Gebärde zu. Entstanden ist die Arbeit 2003 an der RWTH Aachen.

Was bedeutet „nicht-intrusiv"?

Dass die Person nichts tragen oder anlegen muss. Keine Datenhandschuhe, keine Sensoren, keine Marker am Körper. Erkannt wird allein aus dem Kamerabild, was die Anwendung natürlicher und alltagstauglicher macht.

Wie wurden Hände und Gesicht verfolgt?

Über die Bewegung der Regionen im Bild, unter anderem anhand der Hautfarbe und farbbasiertem Tracking, das Kopf und Hände Bild für Bild nachführt. Das Gesicht wurde mit formbasierten Modellen stabilisiert, damit die Verfolgung robust bleibt.

Wie wurden die Gesten erkannt?

Aus den verfolgten Bewegungen wurden Merkmale gebildet (Position, Form, Verlauf der Hände) und diese zeitlichen Muster statistisch klassifiziert, um einzelne Gesten und Gebärden zu unterscheiden.

Welche Verfahren stecken dahinter?

Für das Tracking: Hautfarb-Segmentierung, ein Mean-Shift-Tracker kombiniert mit einem Active Shape Model, Expectation-Maximization bei Überlappungen, ein Kalman-Filter zur Vorhersage und eine Viterbi-Pfadsuche zur Mehrhypothesen-Verfolgung. Für die Erkennung: Hidden-Markov-Modelle gegen eine Datenbank von Gebärdenmodellen.

Wo und bei wem ist die Arbeit entstanden?

An der Fakultät für Elektrotechnik und Informationstechnik der RWTH Aachen, am Lehrstuhl für Technische Informatik (Professor Karl-Friedrich Kraiss). Die Arbeit wurde mit Auszeichnung abgeschlossen.

Was hat das mit heutiger KI zu tun?

Es ist dieselbe Grundfrage: aus rohen Sensordaten verlässlich Bedeutung gewinnen. Die Methoden sind heute weit mächtiger, doch die Linie von der Promotion bis zur heutigen KI-Praxis ist durchgehend.

Gesten und Gebärden mit der Kamera erkennen

Originalaufnahme aus der Dissertation (2003): Gesichts-Tracking in Echtzeit, während eine Geste ausgeführt wird.

Worum es geht: Gesten ohne Hilfsmittel

Der Mensch nutzt die Hände nicht nur zum Greifen, sondern auch zum Kommunizieren. Gesten begleiten unsere Sprache, und in Form von Gebärdensprachen können sie sie vollständig ersetzen. Meine Dissertation ging der Frage nach, wie ein Computer einzelne Gesten und Gebärden allein aus einem gewöhnlichen Kamerabild erkennen kann: nicht-intrusiv, also ohne Datenhandschuh, Magnetsensoren oder Markierungen am Körper. Zwei Anwendungsfelder standen im Blick: natürlichere Mensch-Maschine-Schnittstellen und, längerfristig, die automatische Übersetzung von Gebärdensprache.

Warum das schwer ist

Die eigentliche Schwierigkeit liegt in den Händen. Sie ändern fortlaufend Form, Position und Orientierung, bieten kaum verlässliche Anhaltspunkte und sehen sich untereinander ähnlich. Sie überlappen sich gegenseitig oder mit dem Gesicht und sind dann im Einzelbild kaum abzugrenzen. Und dieselbe Geste wird nie zweimal exakt gleich ausgeführt. Jede dieser Eigenschaften arbeitet gegen eine zuverlässige Erkennung.

Tracking-Visualisierung: Ellipsen verfolgen Kopf und beide Hände einer Person vor hellem Hintergrund. — Verfolgung von Kopf und Händen als hautfarbene Regionen — die Basis für die spätere Deutung der Bewegung.

Schritt 1: Das Gesicht als Anker

Ausgangspunkt sind alle Bildbereiche, die zu einem Hautfarbmodell passen — dargestellt als Regionen mit Randkurven oder elliptischen Näherungen. Unter ihnen wird zuerst das Gesicht identifiziert und anschließend über die Zeit verfolgt. Dafür habe ich einen Mean-Shift-Tracker mit einem Active Shape Model kombiniert: Der eine ist robust gegen Störungen, das andere modelliert die Form. Zusammen bleibt die Verfolgung auch dann stabil und genau, wenn sich eine Hand vor das Gesicht schiebt.

Gesicht mit der Kontur eines Active Shape Model als Umriss. — Das Gesicht als Bezugspunkt: Ein Active Shape Model hält die Kontur auch bei Bewegung stabil.

Schritt 2: Die Hände finden und auseinanderhalten

Vom Gesicht ausgehend stelle ich Hypothesen auf, welche der übrigen hautfarbenen Regionen die Hände sind. Überlappungen werden mit einem Verfahren auf Basis des Expectation-Maximization-Algorithmus aufgelöst. Ein Kalman-Filter sagt die nächste Handposition voraus, und über eine Viterbi-Pfadsuche (dynamische Programmierung) wird aus allen Hypothesen über die Zeit der beste Weg bestimmt. Der eigentliche Kniff: Nach dem Prinzip multipler Hypothesen kann eine spätere Beobachtung eine frühere Fehlentscheidung wieder korrigieren.

Drei verfolgte Regionen (Gesicht und beide Hände) mit Ellipsen während einer Geste. — Überlappen sich Hände und Gesicht, trennt ein Expectation-Maximization-Verfahren die Regionen.

Schritt 3: Von der Bewegung zur Bedeutung

Aus Position, Orientierung und Form der Hände entsteht ein Beobachtungsvektor. Indem ich alles auf Position und Größe des Gesichts beziehe, fallen Unterschiede im Standort der Person heraus, ob sie näher oder weiter entfernt steht. Diese Beobachtungsfolge geht an den Klassifikator, der sie mit einer Datenbank zuvor trainierter Gebärdenmodelle vergleicht (Hidden-Markov-Modelle) und das wahrscheinlichste Modell als Gewinner bestimmt.

Wozu das gut ist

Zwei Stoßrichtungen: erstens alternative, intuitivere Bedienkonzepte für technische Systeme, in denen Gestik Teil einer multimodalen Eingabe wird. Zweitens die Gebärdenspracherkennung. Seit der rechtlichen Anerkennung der Deutschen Gebärdensprache steigt der Bedarf an Übersetzung, gerade in Ämtern; menschliche Dolmetscher sind aber selten und kostenintensiv. Automatische Systeme wären hier ein echter Hebel.

Der rote Faden

Aus heutiger Sicht war das ein früher, kleiner Schritt mit den Mitteln von 2003. Aber es ist genau die Linie, die sich bis heute durchzieht: aus rohen Sensordaten verlässlich Bedeutung gewinnen, robust gegen das Rauschen der echten Welt. Die Werkzeuge sind heute ungleich mächtiger, die Grundfrage ist dieselbe geblieben. Sie begleitet mich von der Promotion bis in die heutige Mandatsarbeit mit KI.