[Dieser Text basiert auf dem inzwischen schon ziemlich alten Artikel: Visuelle Textursegmentierung – elektrophysiologische und psychophysische Untersuchungen. In: Experimentelle und theoretische Hirnforschung. II. Sinneswahrnehmung, sensomotorische Koordination, neuronale Informationsverarbeitung. Freiburger Universitätsblätter, Heft 135, März 1997]
Abb. 1. “Pop-out”. In der Anordnung aus senkrechten Linien ist die verkippte Linie auf den ersten Blick, ohne Absuchen des Bildes sofort erkennbar. | Abb. 2. “Cirque Invisible” (Victoria Chaplin & Jean-Baptiste Thierrée; Foto: F. Simon, Hamburg 1994). Drei Gestalten (Clown, Zebra und Koffer) heben sich voneinander und vom schwarzen Hintergrund ab. Die Grenzen der Gestalten sind hier vor allem von Gradienten der Helligkeit, der Orientierung und der Ortsfrequenz definiert (Erklärung in Abb. 3). Zum Beispiel liegt zwischen dem Clown und seinem Zebra sowohl ein Orientierungsgradient (Streifen schräg auf dem Mantel, waagrecht auf dem Zebra), als auch ein Ortsfrequenzgradient (Streifen weit auseinander auf dem Mantel, eng zusammen auf dem Zebra). |
Mit dem Begriff Textursegmentierung (englisch: texture segregation) wird ein aktuelles Forschungsgebiet umrissen. Es befasst sich mit der Frage, unter welchen Umständen unser Sehsystem verschiedene Gesichtsfeldbereiche voneinander trennt (Segmentierung), zu einer Figur zusammenfasst, die sich vom Hintergrund abhebt (Gruppierung), oder einzelne Elemente “ins Auge springen” lässt (Pop-out, Abb. 1). Entscheidend dabei ist, dass unser Sehsystem von alleine im ganzen Gesichtsfeld nach bestimmten Merkmalen sucht, ohne dass wir das Bild nacheinander mit unserem Blick absuchen müssten. Definitionsgemäß tritt Textursegmentierung immer dann auf, wenn die Erkennung eines bestimmten Merkmals nicht von der Anzahl ablenkender Reize abhängt. Das bedeutet: Es liegt eine parallele Verarbeitung (gleichzeitig im gesamten Gesichtsfeld) vor, und nicht eine sequentielle Verarbeitung mit Absuchen von Ort zu Ort.
Unser Fernziel ist es, zu verstehen wie unser Sehsystem aus dem “flachen” Bild in unseren Augen “Sehdinge” erzeugt, Gestalten vom Hintergrund trennt und Objekte erkennt. Die Textursegmentierung ist ein wichtiger Zwischenschritt bei der Trennung von Gestalt und Hintergrund (Abb. 2).
Abb. 3. Textursegmentierung bei verschiedenen visuellen Basisdimensionen. Die 6 Quadrate zerfallen in 4 Segmente, wobei diese Segmentierung jeweils auf einer anderen visuellen Basisdimension beruht. Wenn ein geeigneter WWW-Browser eingesetzt wird, ist links unten Bewegung sichtbar. Die Basisdimension Stereo (=Entfernung, nähere Elemente sind durch Schatten angedeutet) bedürfen hier zusätzlicher Phantasie bei Betrachter. |
Auslöser für die Entdeckung der Textursegmentierung waren Beobachtungen von Parallelverarbeitung bei bestimmten Linienmustern (Beck 1972). Darauf baute Julesz seine “Textontheorie” auf (Julesz 1981). Inzwischen weiß man, dass nicht die An- oder Abwesenheit bestimmter Merkmale entscheidend ist, sondern die Veränderung der Ausprägung einer bestimmten visuellen Basisdimension von Ort zu Ort, es muss ein Gradient vorliegen (Treisman 1985, Treisman & Sato 1990, Nothdurft 1990, Bach & Meigen 1992b). Mit visueller Basisdimension (englisch: visual dimension) sind jene Eigenschaften der visuellen Umwelt gemeint, für die in unserem Sehsystem spezifische neuronale Filter (rezeptive Felder) vorhanden sind. Es zählen dazu: Helligkeit, Orientierung, Ortsfrequenz, Bewegung, Stereo, Farbe (Abb. 3).
Psychophysik beschreibt den Zusammenhang zwischen objektiven Eigenschaften eines Sinnesreizes und den dadurch ausgelösten subjektiven Wahrnehmungen. Mit Elektrophysiologie ist in hier vor allem die Messung von Hirnströmen, des Elektroenzephalogramms und der darin versteckten “visuell evozierten Potentiale” (VEP) gemeint. Das VEP ist ein Bindglied zwischen psychophysischen Resultaten, gemessen am Menschen, und elektrophysiologischen Ergebnissen aus Tierexperimenten (z.B. Einzellzellableitungen). Damit bietet sich die faszinierende Möglichkeit, die neuronalen Mechanismen der Bildverarbeitung im menschlichen Sehsystem zu analysieren.
Abb. 4. Ein "Orientierungs-Schachbrett". An jeder Karogrenze liegt ein Orientierungsgradient vor. Die davon angestoßenen neuronalen Erkennungsmechanismen lösen messbare Hirnströme, "visuell evozierte Potentiale" (VEP), aus. Die kleinen zufälligen Verschiebungen der Linien gegenüber der regelmäßigen Rasterposition dienen zur Unterdrückung von Helligkeitsartefakten. |
Die Textursegmentierung tritt spontan ohne Absuchen des Gesichtsfeldes auf, da sie auf Parallelverarbeitung beruht. Ein solch massiver Verabeitungsmechanismus sollte im EEG, und damit im VEP, messbar sein. Damit an vielen Stellen des Reizmusters ein Orientierungskontrast auftritt, wählten wir als Reizmuster ein “globales Orientierungs-Schachbrett” (Abb. 4). Die Versuchsperson schaut auf einen Bildschirm, der zunächst homogen grau ist, dann erscheint plötzlich das Muster. Etwa 100 ms später sind im EEG über dem visuellen Cortex (am Hinterkopf) kleine Potentiale versteckt, die die Verarbeitung im Sehsystem widerspiegeln. Diese Potentiale sind zu klein, um sie direkt vom überlagernden EEG trennen zu können. Da sie jedoch immer in festem Zeitabstand nach dem Reiz erscheinen, können sie durch “reizsynchronisierte Mittelung” nach ca. 100 Darbietungen vom EEG getrennt werden, es entsteht das VEP.
Das auf Darbietung des Reizmusters von Abb. 4 gemessene VEP (Abb. 5) stellt aber noch keine reine Textursegmentierungs-Antwort dar. Allein die Tatsache, dass Linien plötzlich erscheinen, oder noch elementarer, dass einzelne Bildpunkte heller oder dunkler werden, löst ja schon visuelle Verarbeitung aus. Diese elementare Verarbeitung des Bildes sei “low-level-VEP” genannt. Die Annahme, dass das VEP eine lineare Überlagerung vom low-level-VEP und dem Textursegmentierungs-assoziierten VEP “tsVEP”) sei, führte zu folgendem Reizparadigma: Im “globalen Orientierungs-Schachbrett” sind horizontale und vertikale Linienelemente verborgen, also wird auch ein Muster “nur vertikale Linien” und eines “nur horizontale Linien” angeboten (Abb. 5 links). Da im “globalen Orientierungs-Schachbrett” horizontale- und vertikale Linien je zur Hälfte vertreten sind, wird vom “VEP-Gemisch”, der Antwort auf das Orientierungs-Schachbrett, je zur Hälfte die des vertikalen und die des horizontalen Musters abgezogen, es wird die Linearkombination gebildet:
tsVEP = (VEPOr.Schachbrett-(VEPvert. Linien + VEPhoriz. Linien))/2.
Das low-level-VEP hob sich damit auf, und es wurde ein negatives Potential kurz vor 200 ms sichtbar (Bach & Meigen 1990, 1992a). Das war eine ‘interessante’ Verzögerungs- bzw. Verarbeitungszeit: Deutlich nach dem low-level-VEP, aber vor den typischen Zeiten für kognitive Potentiale von ca. 300 ms. Diese Ergebnisse wurden von Lamme et al. (1992, 1993a, 1993b) bestätigt und erweitert.
Abb. 5. Isolierung des segmentierungs-assoziierten VEP (tsVEP). Links sind schematisch die Reizmuster erkennbar (siehe Abb. 4). In der Mitte sind als Spannungs-Zeit-Diagramm die resultierenden VEPs, rechts die Isolation des tsVEP als Linearkombination dargestellt (Mittelwert von 7 Versuchspersonen). |
Abb. 6. Quantitativer Zusammenhang von Wahrnehmungsstärke und elektrophysiologischem Signal. Die Versuchspersonen schätzten die "Stärke des globalen Schachbretts" bei vier Mustern ein. Der Schätzwert ist auf der Abszisse abgetragen, die Amplitude des tsVEPs (Mittelwert von 7 Versuchspersonen) auf der Ordinate. Wahrnehmungsstärke und tsVEP sind offenbar eng korreliert. |
Wie genau hängen das tsVEP und die Wahrnehmung zusammen? In einen Experiment verglichen wir die subjektiv wahrgenommene Segmentierungsstärke (englisch: saliency) und die Amplitude des tsVEPs (Meigen & Bach 1993). Dies wurde bei vier Mustern durchgeführt, die von den Juleszschen’ Textonmustern inspiriert waren.
Alle Muster waren aus denselben Linienelementen aufgebaut (in Abb. 6 unten vereinfacht, die Muster ähnelten denen in Abb. 4). Wenn die Linien ‘U’s bilden, die gruppenweise um 90Í gedreht sind, so sieht man deutlich das globale Schachbrett (orientierungsbasierte Textursegmentierung, da “2 waagrecht, 1 senkrecht” mit “1 senkrecht, 2 waagrecht” kontrastieren; Abb. 6 unten, zweites Muster). Bei ‘U’s, die um 180Í gedreht angeordnet sind, ist das globale Schachbrett kaum zu erkennen (Abb. 6 unten links). Die wahrgenommene Segmentierungsstärke wurde psychophysisch in einem mehrstufigen Größenschätzungsprozess bestimmt. Dieses psychophysische Maß korreliert sehr eng mit der entsprechenden tsVEP-Amplitude, was die Hypothese stützt, dass das tsVEP tatsächlich mit Segmentierungsprozessen assoziiert ist.
Abb. 7. Modellschema der Textursegmentierung. Das Bild (links), das durch eine von drei Basisdimensionen in vier Felder gegliedert ist, wird durch lokale Filter in eine "Aktivitätskarte" gewandelt (dritte Spalte). Die lokalen Filter entsprechen bekannten bekannten neuronalen rezeptiven Feldern, ihre Wirkungsgröße ist relativ zu den visuellen Reizen links sehr viel kleiner zu denken. Aus der Aktivitätskarte wird nach vielen Zwischenschritten schließlich das Perzept "Schachbrett" erzeugt, unabhängig von der Basisdimension. |
Es ist bekannt, dass Textursegmentierung bei verschiedenen Basisdimensionen auftreten kann. Es erscheint ineffizient, wenn für jede visuelle Basisdimension Gradientendetektoren neuronale Erkennungsmechanismen vorhanden sind. Als Alternative schlagen wir zur Erklärung für die Unabhängigkeit von der Basisdimension folgendes Modell vor (Abb. 7): Die Verteilung der lokalen Ausprägungen jeder Basisdimension (z.B. horizontale Orientierung) wird in neuronalen Filtern in eine Intensitätskarte umgewandelt. Die den verschiedenen Basisdimensionen entsprechenden Filter projizieren dabei in ein und dieselbe Aktivitätskarte. Innerhalb dieser Aktivitätskarte laufen Kantenerkennungsprozesse ab, die letztlich zur Figur-Hintergrundtrennung führen. Dieses Modell macht verschiedene Vorhersagen, die experimentell geprüft werden können. In der Sprache des VEPs entsprechen die Filter im weiteren Sinne dem low-level-VEP, und die Segmentierungsmechanismen innerhalb der Intensitätskarte dem tsVEP.
Abb. 8. Textursegmentierung durch die Basisdimensionen 'Helligkeit', 'Orientierung', 'Bewegung' und 'Stereo' (Entfernung). Links oben ist schematisch die Sequenz der Reizbilder für die Isolation der tsVEPs zu sehen, in der Mitte und rechts einfachere Reizsequenzen zur isolierten Aktivierung des "low-level-VEPs". Die tsVEPs in der zweiten Spalte unterscheiden sich zwischen den vier Basisdimensionen zwar in Details, aber sie haben auch große Ähnlichkeiten (ähnlich negative Amplitude und Latenz). Die Unterschiede zwischen den Basisdimensionen sind viel ausgeprägter bei den low-level-VEPs, die den "lokalen Filtern" aus Abb. 7 entsprechen. Die relative Ähnlichkeit der tsVEPs spricht dafür, dass sie einen Mechanismus unabhängig von der Basisdimension widerspiegeln, etwa die Gradientenerkennung in der "Aktivitätskarte" aus Abb. 7. |
Zur Prüfung des Modells wurden das tsVEP und das low-level-VEP über vier Basisdimensionen hinweg verglichen (Helligkeit, Orientierung, Bewegung und Stereo; Abb. 8). Die komplexen Ergebnisse seien folgendermaßen zusammengefasst (Meigen & Bach 1992; Bach & Meigen, im Druck): Das low-level-VEP variiert sehr stark zwischen den Basisdimensionen. Damit verglichen, ist das tsVEP zwischen den Basisdimensionen relativ ähnlich (es ist z.B. immer negativ, von ähnlicher Amplitude und Latenz). Dieses Ergebnis unterstützt die oben skizzierte Hypothese. Es erscheint auch ökonomisch, dass ein computationell aufwendiger Vorgang wie die Textursegmentierung nicht für jede Basisdimension wiederholt wird. Die zugrundeliegenden Details der neuronalen Verschaltung sind natürlich noch zu klären. Es kann z.B. ohne weiteres möglich sein, dass die im Schema (Abb. 8) getrennten Stufen in einigen Neuronen integriert sind; es sprechen dafür einige Einzelzellergebnisse (Orientierungsgradienten beim Affen: Knierim & van Essen 1992, Lamme 1995; bei der Katze: Blakemore & Tobin 1972, Kastner et al. 1995; Bewegungsgradienten beim Affen: Allman et al. 1991, Lamme 1995; bei der Katze: Kastner et al. 1995).
Abb. 9. Überlagerung zweier Basisdimensionen. Im oberen Teil sind Beispiele für Muster gezeigt, bei denen das globale Schachbrett auf Ortsfrequenzgradienten (links), Orientierungsgradienten (Mitte) oder einer Kombination der beiden beruht (rechts). Die tsVEPs (Mittelwert von 6 Versuchspersonen) in der Kombinationsbedingung entsprechen etwa der Summe der tsVEPs auf die einzelnen Basisdimensionen. Dieses Ergebnis spricht für eine weitgehend lineare Superposition in der "Aktivitätskarte" von Abb. 7. |
Ein aktuelles Experiment befasst sich mit der Interaktion der verschiedenen visuellen Basisdimensionen bei der Textursegmentierung. Was passiert, wenn die Segmentierung gleichzeitig auf mehreren Basisdimensionen beruht? Das ist sicherlich die typische Situation im Leben. Es wäre anzunehmen, dass die Evolution dafür Sorge getragen hat, dass sich die visuellen Basisdimensionen nicht gegenseitig behindern. Als Basisdimension wählten wir ‘Orientierung’ und ‘Ortsfrequenz’, da wir vermuteten, dass diese beiden Dimensionen mit ähnlicher Latenz verarbeitet werden, was die Interpretation der Ergebnisse vereinfacht. Abb. 9 zeigt im oberen Teil die verwendeten Reizmuster. Diese auf den ersten Blick etwas merkwürdigen Muster (nach Landy & Bergen 1991) sind besonders gut geeignet, weil sich damit Ortsfrequenz und Orientierung ohne Störartefakte kontinuierlich variieren lassen. Die ersten Ergebnisse bei bislang 6 Versuchspersonen lassen erkennen, dass das tsVEP bei kombinierter Segmentierung (Abb. 9, unten rechts) der Summe aus den tsVEPs bei Segmentierung über Ortsfrequenz oder Orientierung einzeln (Abb. 9, unten links und Mitte) entspricht. Ein solches Ergebnis wäre nach der oben skizzierten ‘Aktivitätskarten-Hypothese’ zu erwarten.
Die Textursegmentierung stellt eine beeindruckende Leistung des Sehsystems dar. Die geschilderten Experimente sind ein Bindeglied zwischen psychophysischen Untersuchungen am Menschen und tierexperimentellen Einzelzelldaten. Sie offenbaren, dass in unserem Sehzentrum sehr ähnliche neuronale Prozesse ablaufen und ermöglichen den Test von Modellvorstellungen zur visuellen Verarbeitung.
Danksagung: Vor allen anderen möchte ich Dr. Thomas Meigen, jetzt Univ.-Augenklinik Würzburg, für seine Mitarbeit bei den geschilderten Projekten danken.