Stefan Heidenreich:
Verfolgte Objekte

erschienen in:
Neue Rundschau, 2002, Heft 4, S.95-99

zurück zum Index Paginierung durch voherige/folgende Seite

Bewegte Bilder und Verfolgungsjagden gehören zusammen, seit in der Verfolgungsjagd eines der ersten Genres des frühen Kinos entstand. Als Kameraleute gelernt hatten, Einstellungen zu verbinden und Handlungen über Schnitte hinweg zu verknüpfen, füllten sie die neuen Räume mit Kaskaden hintereinanderher hetzender Charaktere. Die ästhetische Selbstgenügsamkeit des Verfolgungsschemas löste sich in der Großform des langen Films auf und wurde eingebunden in größere narrative Bögen. Aber als eine feststehende Figur des Kinos blieb die Verfolgungsjagd bestehen und wurde in ungeheuer dichtenVerknüpfungen von Objekt, Zeit und Raum perfektioniert.
Auch in den neueren Medien vermag das Muster der Verfolgung eigene Genres zu begründen. Die als Ego-Shooter bezeichneten Computerspiele, die wegen ihrer Exzesse der Gewalt in Verruf geraten sind, führen nichts anderes als Jagden vor. An der Einstellung der Kamera wie auch des Betrachters hat sich dabei im Vergleich zum Film etwas wesentliches geändert. Im Gegensatz zu dem für das kommerzielle Kino typischen Modus der variablen Identifikation und der entsprechenden Kameraeinstellung des Point-of-view, verbinden Computerspiele Ereignisse auf dem Bildschirm mit den Handlungen des Betrachters. Jeder Spieler ordnet sich einer Figur zu und nimmt mit ihr aktiv an der Verfolgung Teil. Er muss sich nicht nur an ihre Stelle versetzen, sondern sich selbst in den Räumen orientieren und seine Ziele finden oder sich als Ziel anbieten, verfolgen und verfolgt werden und oft genug beides zugleich. Nur im kurzen Moment des ›Todes‹ kommt seine eigene Figur für einen Moment zur Ruhe, um gleich darauf neu initialisiert das Schießen und Rennen fortzusetzen.
Das Schlagwort »Interaktiv« wird seit geraumer Zeit gebraucht, um das Verhältnis zwischen Rechnern und Menschen als ein beiderseitig aktives zu beschreiben. Es ist eines der vielen Vokabeln, die im Durchlauf der Theorien zum Medium Computer und dessen Kulturtechniken Konjunktur hatten – dem Virtuellen und der Simulation folgend und die Euphorie des 95/96 Internets begleitend. Die Rede von der Interaktion lenkt die Aufmerksamkeit von jenen Instanzen ab, die hinter den Oberflächen miteinander agieren. Der Nutzer sieht einen Bildschirm und gebraucht seine Hände. Die Bilder zeigen ihm Räume und Figuren, seine Hände erzeugen Bewegungen. Die Situation scheint einfach: ein Mensch interagiert mit einer Maschine, und die Maschine arrangiert ihm dafür eine vertraute Umgebung. Was die Rede von der Interaktion übersieht, sind die Prozesse, die im Rechner ablaufen. Dort treffen ganz andere Figuren aufeinander und strukturieren das Spiel in seinen Regeln, bevor der erste Schuss überhaupt angezeigt oder ausgelöst werden kann. Hinter der Oberfläche der errechneten Bilder eines Spiels interagieren eine ganze Reihe von Datenprozessen auf verschiedenen Ebenen. Da die Geschwindigkeit der Kanäle und der Rechner dabei bis an die Grenze der Möglichkeiten beansprucht wird, wird die anfallende Rechenarbeit und der Fluss der Informationen ökonomisch verteilt. Den Bildaufbau übernimmt jeder einzelne Rechner für sich. Jede Maschine verfügt über die gleiche »Map«, eine Karte aller Wege, Tunnels, Gebäude und Landschaften, in der das Spiel stattfindet. Auch die Figuren sind aus Schablonen montiert, so daß sie nur einmal konfiguriert werden. Während das Spiel läuft, wird nur ein minimal notwendiger Kern an Information über die vergleichsweise langsamen Datenleitungen verteilt. Der Aufbau ganzer Bilder würde deren Bandbreite überlasten. Übermittelt wird wenig mehr als Positionen, Blickrichtungen, Schußlinien und Treffer. Trotz dieser Reduktion des Datenflusses sind oft genug wenige Millisekunden Differenz zwischen schnelleren und langsameren Schnittstellen für den Ausgang eines Duells entscheidend.
An den Datenströmen eines Spiels zeigen sich die Divergenzen hinter der Oberfläche. Zwei Spieler begegnen sich nicht nur an der Oberfläche eines Bildes, sondern schon zuvor in den Prozessen der ihnen zugeordneten Objekte, die ganz im Sinn der objektorientierten Programmiersprachen als Einheiten mit Eigenschaften und Funktionen definiert sind. Eine Figur verfügt über ein Aussehen, eine Position und mehrere Handlungen, darunter schießen und getroffen werden. Das Programm definiert streng, wie die Figur mit den an sie weitergeleiteten Daten kommuniziert, unter welchen Bedingungen etwa die Funktion »getötet werden« aktiviert wird, und wie sie sich auf die Fähigkeiten und Merkmale der Figur auswirken. Was in einem Spiel geschehen kann, ist von vornherein durch die Objekte und Protokolle, durch Datenformate und Funktionen festgelegt.
Was als Oberfläche erscheint, hebt sich damit ganz anders als im Kino von den Abläufen jenseits der Oberfläche ab. Die Szenen eines Films besitzen in dem 96/97 nicht gezeigten Raum ihr Außerhalb – im Off-Screen ebenso wie in den Aufbauten am Set. Das Außerhalb der Spiele ist dagegen nicht mehr räumlich zu denken. Es besteht in einer Hierarchie von Datenforma-ten und Prozessen. Die Instanzen, die dabei vorgegeben sind, kann man als hybride Objekte beschreiben: als Einheiten, die aus den ihnen eingeschriebenen Funktionalität einen Rahmen für Handlungen erzeugen. In dieser Hinsicht erscheinen die Computerspiele als Vorbilder künftiger visueller Oberflächen. Aber nicht in ihrer Beherrschung von Raum, Licht und Bewegung, sondern in der Perfektionierung ihrer Grafikmaschinen liegt ihre vorausschauende Qualität. Es gibt keine zweite Revolution der Perspektive. Was sie auszeichnet, sind die Wesen, die hinter der Oberfläche aufeinandertreffen.
Noch klafft in der Welt der digitalen Bilder die sogenannte »semantische Lücke«. Damit meint man die einfache Tatsache, daß es keinen Weg gibt, von den von Kameras aufgezeichneten Bildern auf die Bezeichnung von Dingen zu schließen. Vor wenigen Jahren sahen sich die bei einem Kongress zur Bilderkennung versammelten Forscher außer Stande, auch nur ein Programm zu schreiben, das die Figur eines Hundes, der in den Zeichnungen eines Kinderbuchs vorkam, in allen Fällen erkennen konnte. Von verschiedenen Seiten wird daran gearbeitet, diese Lücke wenn nicht zu schließen, so doch wenigstens zu verkleinern. Das Fußballspiel gilt als Modellfall einer visuell wenig variablen Oberfläche, aus der sich die entscheidenden Objekte leicht isolieren lassen – ein Spielfeld, ein Ball, dreiundzwanzig farblich gut unterscheidbare Figuren. Schon zur nächsten Fussball-Weltmeisterschaft wird man die Effekte bewundern können, die sich einstellen, wenn die semantische Lücke ein Stück weit geschlossen wird. Zuschauern, die das Spiel nicht bezahlen, könnte der Ball vorenthalten werden. Unmengen an Statistiken werden über Ballkontakte, Laufbereitschaft und strategisches Verhalten einzelner Spieler Aufschluss geben.
Beobachtet man ein wenig vorausschauend die Entwicklung neuer Bildstandards, so scheint in der näheren Zukunft eine erstaunliche Begegnung bevorzustehen: Gesichter werden Namen haben und die Namen lassen sich als Objekte verfolgen. Die beiden involvierten Techniken heißen »Object Tracking« und »Face Recognition«. Die eine erlaubt es, Objekte in Bildern zu verfolgen, die andere erkennt Gesichter. Mit verschärften Sicherheitsanforderungen ist der Bedarf an Verfahren zu Gesichtserkennung sprunghaft gestiegen. Auch wenn die Algorithmen noch nicht wirklich in allen Situationen funktionieren und nach wie vor auf kontrollierte Lichtverteilung und mehr oder weniger frontale Ausrichtung der Gesichter angewiesen sind, werden sie schon auf Flughäfen und in anderen videoüberwachten 97/98 Umfeldern eingesetzt. Zur Zeit taugen sie für wenig mehr als ein Placebo, das Sicherheit durch Sicherheitsgefühl ersetzt. Aber selbst wenn es noch lange dauern wird, bis die Techniken präzise und täuschungssicher sind, könnten sie für eine »schmutzige Kontrolle« der Videoüberwachungsbilder genügen.
Der Verfolgung von Subjekten in Bildern steht die Verfolgung von Objekten gegenüber. »Object tracking« heißt eine Technik, bewegte Dinge in bewegten Bildern zu markieren, um sie dann als Links auf andere Daten einzusetzen. Die Methode der Hypertext Markup Language HTML, der Standard, der 1994 begonnen hat, das Internet zu erobern, wird damit auf bewegte Bilder ausgedehnt. Ein Objekt in einem Film kann dann auf den nächsten Film verweisen, aber auch auf eine Datenbank, ein Stück Musik, einen Text oder ein Bankkonto. Mit einem Klick auf das bewegte Objekt springt der Datenstrom an die adressierte Stelle. Die künftigen Standards für digitales Video, MPEG-7 und MPEG-21, planen für derartige Objekte und die dazugehörigen Verweisstrukturen voraus. Das größte Problem dieser neuen Bildnormen besteht allerdings nicht darin, die Links und Objekte anzulegen, sondern darin, über die visuellen Objekte überhaupt zu verfügen. Noch existiert keine verlässliche Technik, die in einer Kameraeinstellung vollautomatisch ein beliebiges Objekt zu finden und über eine längere Dauer zu verfolgen vermag. Die Techniken scheitern an Lichtverhältnissen, an Überdeckungen, an perspektivischen Verzerrungen.
Die Zwecke, für die man die beiden Verfahren – die Objektverfolgung und die Gesichtserkennung – entwirft, werden sie in näherer Zukunft nur unzureichend erfüllen. Sie bleiben »schmutzige« Technologien, die ihr Planziel nicht erreichen, aber dennoch eingesetzt werden können. Mehrere alternative Möglichkeiten sind denkbar: Entweder es gelingt nie, die Problem zu lösen und Gesichter sowie Objekte bleiben hinter der semantischen Lücke verborgen. Oder es kommt wider Erwarten doch zu einem Durchbruch. Diese beiden Alternativen bleiben dem Modell des Problems und seiner Lösung verhaftet. Dabei übersieht man leicht, daß in der Geschichte der Programmierung zumeist die Lösungen im Nachhinein ihre Probleme erfunden haben und nicht umgekehrt. Daher läßt sich eine dritte Alternative denken: Gesicht und Objekt werden sich auf dem Standard begegnen, der in einer »schmutzige Technologie« verfügbar ist. Nicht das Scheitern an einer Aufgabe oder die Lösung eines Problems bestimmten dann, welche Bilder wir sehen werden, sondern der technische Standard erzeugt in einer Art von self-fullfilling-prophecy jene Bildermengen, die er zu verwalten vermag. Einmal mehr würden dann, der visuellen Gestaltung 98/99 des WWW vergleichbar, die Erscheinungsformen der Bildoberflächen von den zugrunde liegenden Standards vorherbestimmt – nicht deterministisch, sondern als ein ästhetischer Möglichkeitsraum, der durch Protokolle und Programme eingegrenzt ist. Unter diesem Bedingungen kommt es zu einer einfache Selektion: Die Bildermengen, die dem Standard verfügbar sind, werden zirkulieren, während all jene Bilder, die nicht zugänglich sind, schlicht und einfach nicht auftauchen.
Gelingt die Begegnung zwischen Objekt und Gesicht auch nur in Ansätzen, so könnte das ein Schritt auf dem Weg visuellen Oberflächen bedeuten, die sich von denen der Gegenwart deutlich unterscheiden. Man wird die Überwindung der semantischen Lücke kaum in den Begriffen einer Wende hin zu den Bildern diskutieren können, von der gerade in jüngster Zeit so viel die Rede ist. Mit der Floskel »iconic turn« findet lediglich eine Debatte über eine nahende oder bereits eingetroffene Bilderflut ihre affirmative Kehre. Man übersieht dabei, daß Bilder nicht einfach als eine amorphe Menge über uns hereinbrechen.
Die neuen Bilder der digitalen Kanäle sind eingebettet in die Strukturen des Datenaustauschs. Wenn alle Medien in digitalen Maschinen konvergieren, bedeutet das keineswegs, daß auch die Datenflüsse homogen werden. Der Begriff des Mediums hat in seiner distinktiven Funktion ausgedient, seit alle Informationen in digitalen Kanälen und Speichern zu Hause sind. Von viel größerer Bedeutung erscheinen heute die Prozesse der Standardisierung, die Formate und Funktionen, die innerhalb der digitalen Medien und hinter deren Oberflächen jene Einheiten in Kraft setzen, die dann in Bild und Ton auftauchen.
Wenn dem Bild eines Gesichtes in Zukunft der Name abgelesen werden kann, und wenn bewegliche Bildobjekte symbolisch zu adressieren sind, erreichen zwei Vorboten einer epochalen Wende die visuellen Oberflächen. Die vertraute Trennung zwischen Lesen und Sehen, zwischen einem diskreten Code und einem kontinuierlichen Raum von Ähnlichkeiten wird geschleift und zwar dort, wo der Mensch im Bild auftaucht. Welche Kulturtechniken, welche Exzesse der Kontrolle und des Spiels damit die Oberflächen der Bilder erreichen werden, lässt sich kaum prognostizieren und wird sich wohl einmal mehr nach der nun schon vertrauten Methode von trial and error herausstellen, die alle medientechnischen Innovationen der Gegenwart begleitet. Zu viele bislang getrennt laufende Datenflüsse werden von den neuen Einheiten Objekt und Adresse, von Name und Gesicht kurzgeschlossen, als dass man die über ihnen entstehenden Oberflächen vorausahnen könnte.