Augmented Reality: Woher weiß ein Computer, wo wir hinschauen?

Man stelle sich folgendes Szenario einmal vor: Sie fahren ein Auto und benutzen eine Head-up-Display-Projektion auf der Windschutzscheibe, um sich durch eine Ihnen unbekannte Stadt navigieren zu lassen. Es handelt sich um ‚Erweiterte Realität‘ (Augmented Reality). Die Informationen werden nicht nur verwendet, um Sie entlang einer Route zu führen, sondern auch, um Sie auf hervorstechende Informationen in Ihrer Umgebung aufmerksam zu machen, wie beispielsweise Fahrradfahrer oder Fußgänger. Die korrekte Platzierung der virtuellen Inhalte ist nicht nur äußerst wichtig, sondern vielleicht eine Frage von Leben und Tod.

Die Information sollte keine anderen Materialien verdecken und lange genug angezeigt werden, so dass Sie verstehen, worum es geht, aber nicht sehr viel länger als das. Computersysteme müssen diese Entschlüsse in Echtzeit treffen, ohne von der Informationen abgelenkt oder gestört zu werden. Auf keinen Fall soll eine Warnung vor einem kreuzenden Fahrradfahrer den Fahrradfahrer selbst verdecken.

Als Forscher im AR-Bereich verbringe ich eine Menge Zeit damit, herauszufinden, wie man die richtige Information am richtigen Platz und im richtigen Moment auf den Bildschirm des Nutzers bekommt. Ich habe gelernt, dass das Anzeigen zu vieler Information den Nutzer verwirren kann, doch zu wenig anzuzeigen, kann die Applikation unnütz machen. Wir müssen die goldene Mitte finden.

Dabei ist es wichtig, zu wissen, wo die Benutzer hinschauen. Erst dann können wir die Informationen, die benötigt werden, an eine Stelle positioniert werden, an dem sie verarbeitet werden können. Ein Teil unserer Forschung beinhaltet also, zu messen, wohin der Benutzer in der Echtzeitszene schaut. Dies hilft uns dabei, zu entscheiden, wo wir den virtuellen Inhalt platzieren. Im Hinblick auf die Tatsache, dass AR bereit ist viele Bereiche unseres Lebens zu infiltrieren – von der Fahrt zur Arbeit bis hin zur Freizeitbeschäftigung – müssen wir dieses Problem lösen, bevor wir uns drauf verlassen können, dass die AR uns in schwierigen oder kritischen Situationen Hilfe bietet.

Die Positionierung der Informationen

Dabei ist es sinnvoll, Informationen dort anzeigen zu lassen, wo der Nutzer hinschaut. Beim Fahren könnte der Benutzer ein Gebäude, eine Straße oder bestimmte Objekte anschauen, um die entsprechenden virtuellen Informationen abzurufen. Das System verbirgt an dieser Stelle alle anderen Anzeigen, um die Szene nicht zu verdecken.

Doch wie wissen wir, wo jemand hinschaut? Es zeigte sich, dass die Nuancen menschlicher Sicht uns erlauben, die Augen einer Person zu untersuchen und zu berechnen, wo sie hinschaut. Indem wir diese Daten mit Kameras kombinieren, die das Sichtfeld einer Person anzeigen, können wir bestimmen, was die Person sieht und wo er oder sie hinschaut.

Eye-Tracking-Systeme entstanden im 19. Jahrhundert. Ursprünglich wurden sie hauptsächlich zur Untersuchung von Leseverhalten eingesetzt und einige konnten für den Leser ziemlich störend sein. In der jüngeren Vergangenheit hat das Echtzeit-Eye-Tracking sich aber weiterentwickelt und ist nun erschwinglicher, einfacher auszuführen und kleiner.

the-spectacles-for-eye-tracking-image-by-anatolich1-cc-by-sa-3-0-via-wikimedia
Eye-Tracking Spectacles; Image by Anatolich1 (CC BY-SA 3.0)

Eye-Tracker können an einen Bildschirm angebracht oder in eine Brille oder in ein auf dem Kopf getragenes, visuelles Ausgabegerät integriert werden. Die Augenbewegung wird verfolgt, indem eine Kombination aus Kameras, Projektionen und Bilderkennungsalgorithmen eingesetzt wird, um die Position der Augen und den Blickpunkt auf dem Monitor zu kalkulieren.

Wenn wir Eye-Tracking-Daten untersuchen, schauen wir generell auf zwei Messgrößen. Die erste ist die Fixierung und beschreibt das Innehalten unseres Blicks, häufig an einer interessanten Stelle, die unsere Aufmerksamkeit erregt. Die zweite ist eine Sakkade, eine schnelle Augenbewegung, um unseren Blick zu positionieren. Grundsätzlich bewegen sich unsere Augen schnell vom einen Punkt zum anderen und nehmen Informationen über Teile der Szene auf. Unsere Gehirne bringen die Informationen der einzelnen Fixationen anschließend zusammen, um vor unserem geistigen Auge ein Bild zu formen.

Eye-Tracking und AR kombinieren

Oft sind AR-Inhalte mit einem Objekt oder Ort in der realen Welt verankert. Zum Beispiel sollte ein virtuelles Schild mit einem Straßennahmen auf der entsprechenden Straße angezeigt werden. Ideal wäre es, wenn das AR-Schild direkt bei dem Objekt angezeigt wird, mit dem es assoziiert ist. Doch wir müssen auch darauf achten, dass nicht eine Vielzahl von AR-Schildern sich überlappen und so unleserlich werden. Es gibt viele Herangehensweisen, um das Platzieren von Schildern zu managen. Wir befassen uns mit einer Möglichkeit: man berechnet, wo die Person in der realen Szene hinschaut, und zeigt die AR-Schilder nur an dieser Stelle an.

Nehmen wir beispielsweise an, dass ein Benutzer mit einer mobilen Applikation interagiert, die ihm hilft, ein Müsli mit wenig Kalorien im Supermarkt zu finden. In der AR-Applikation ist jedes Müsli mit Kalorien-Informationen verbunden. Statt nun physisch jede Müslischachtel hochheben und die Nährwertangaben lesen zu müssen, kann der Benutzer sein mobiles Endgerät hochhalten und es auf eine bestimmte Müslischachtel richten, um die relevanten Informationen abzurufen.

Doch denken Sie einmal daran, wie vollgestopft mit unterschiedlichen Sorten das Müsliregal eines Supermarkts häufig ist. Ohne eine Möglichkeit, die Anzeige der AR-Etiketten irgendwie zu managen, würden die Kalorieninformationen für sämtliche Müslisorten angezeigt werden. Es wäre für den Benutzer unmöglich, die Kalorienangabe für das Müsli zu identifizieren, für das er sich interessiert.

Indem wir der Bewegung seiner Augen folgen, können wir genau bestimmen, welche Schachtel der Benutzer ansieht. Dann zeigen wir die Kalorieninformationen für dieses bestimmte Produkt an. Wenn er seinen Blick auf eine andere Schachtel richtet, dann zeigen wir die Angaben für die nächste Schachtel an. Sein Bildschirm ist übersichtlich, die Information, die er benötigt, ist direkt verfügbar und wenn er Zusatzinformationen benötigt, können wir auch diese anzeigen.

Diese Entwicklungen machen die jetzige Zeit für die AR-Forschung besonders spannend. Unsere Möglichkeiten, Szenen aus der realen Welt mit Computergrafiken auf mobilen Displays zu integrieren, machen Fortschritte. Dies befeuert die Aussicht darauf, fantastische neue Applikationen zu entwickeln, die unsere Möglichkeit, mit der Welt um uns herum zu interagieren, von ihr zu lernen und von ihr unterhalten zu werden, erweitern.

Dieser Artikel erschien zuerst auf “The Conversation” unter CC BY-ND 4.0. Übersetzung mit freundlicher Genehmigung der Redaktion.


Image „View AR BUTLERS Screenshot““ by Meximex (CC BY 3.0)


The Conversation

Schlagwörter: , , , , , , ,
Ann McNamara

Ann McNamara

ist Dozentin im Department Visualisierung an der Texas A&M Universität. Ihre Forschung konzentriert sich auf die Weiterentwicklung der Computergrafik und Visualisierung wissenschaftlicher Daten.

More Posts - Website