Der Turing-Test – Ein ungeeignetes Paradigma der künstlichen Intelligenz

von Michael Bach

This text was finished in 1990, so it is already historically interesting…

Das Gehirn als Computer – ein heute offenbar unvermeidlicher Vergleich. Die “künstliche Intelligenz” tritt immer noch mit dem Anspruch auf, der sich in ihrer eigenen Namensgebung dartut. Programmatisch ist das Ziel, mit einem Rechner den “Turing-Test” zu bestehen. Doch das Ziel ist ferner als je zuvor, und eine Maschine kann in Ermangelung unserer “Körperlichkeit” nicht den Turing-Test bestehen.

Das alte Leib-Seele-Problem mit seiner Auseinandersetzung zwischen monistischen und dualistischen Weltbildern (z.B. Fodor 1981, Bunge 1980) begegnet uns heute in neuem Gewand als Gehirn-Computer-Analogie. Typisch ist folgender Satz, den ich kürzlich im Mitglieder-Blättchen einer Krankenkasse fand: “Unser Gehirn mit einem Computer zu vergleichen, wie es heute gerne geschieht, ist so unpassend und unzureichend, als würde man einen Rennwagen zu einer Postkutsche in Konkurrenz stellen” (Conradt 1990). Diesen Satz muss man sich erst 'mal auf der Zunge zergehen lassen: Offenbar wird das Gehirn sehr wohl als Computer gedeutet, wenn auch als ein besonders guter. Gewissen Analogien zwischen Gehirn und Computer sollte man jedoch schon deshalb ein gewisses Misstrauen entgegenbringen, weil der Mensch sich selbst schon immer im Spiegel seiner aktuellen Technik gedeutet hat (technomorphe Anthropologie): In der Antike hatte Thales eine Art hydraulisches Körpermodell vor Augen. Im 17. Jahrhundert scheint Descartes' Darstellung der Nerven als hohle Röhren einem Klingelzug für Dienstboten nachgebildet zu sein: diese Nerven sollten Ventile im Kopf betätigen, mit denen die Glieder bewegt wurden. Die Rechenmaschinen von Brewster und Babbage waren ein Gewimmel von Mechanik und Zahnrädern und sollten durch Dampfmaschinen angetrieben werden. Heute ist durch die Informationsübertragungstheorie und dem daraus entsprungenen Rechner eine neue Qualität in das Nachdenken des Menschen über sich selbst gekommen: Wenn man das Gehirn im herrschenden Paradigma als “informationsverarbeitendes System” deutet, und die Informationstheorie doch gezeigt hat, dass die prinzipielle Funktionalität einer Software im Sinne einer Turing-Maschine (Hopcroft 1984) unabhängig vom Substrat –der Hardware– (Relais, Röhren, Fluidics, Halbleiter, …) ist, dann ist ja nicht einzusehen, warum nicht auch “Wetware” nämlich Neurone im Sinne neuronaler Netze (McCulloch & Pitts 1943, 1947, PERCEPTRON, Palm 1988, Tank & Hopfield 1988) als Hardware dienen sollten. Der nächste naheliegenderSchritt ist, dass unser Denken Algorithmen folgt (vgl. Malsburg 1985).

Wenn das obige Zitat aus der Krankenkassen-Zeitung auch aus einer vereinfachenden populärwissenschaftlichen Darstellung stammt, so charakterisiert es doch treffend das aktuelle Paradigma der “KI”. Was ist KI? Die Abkürzung steht für “Künstliche Intelligenz”, was zunächst einmal eine Fehlübersetzung aus dem englischen “Artificial Intelligence” darstellt. Meines Erachtens liegt dem derzeitigen Ansatz der “künstlichen Intelligenz” sowieso ein verkümmertes Menschenbild zu Grunde, nämlich nur der Teil, den man als “informationsverarbeitendes System” auffassen kann. Die Intelligenz, die da gemeint ist, ist eben genau die, welche Hersteller von Datensichtgeräten in ihren Werbungsprospekten zu der Bezeichnung “intelligentes Terminal” führt. Um von der Polemik, zu der mich zweifellos meine eigene Faszination durch Rechner verführt (ein schönes Beispiel: Braitenberg 1986), loszukommen, möchte ich den Turing-Test diskutieren.

Alan Turing schlug 1950 den jetzt nach ihm benannten “Turing-Test” (‘TT’) vor, um die Frage “Können Maschinen denken?” zu konkretisieren: Ein Tester (oder eine Gruppe von Testern) kommuniziert mit einem unsichtbaren Partner über eine neutrale Schnittstelle (z.B. Tastatur & Monitor). Nur mittels des Dialoges soll herausgefunden werden, ob der unsichtbare Partner ein Mensch oder ein Computer (genauer: ein Programm in einem Computer) ist. Wenn auf Grund des Dialoges diese Frage nicht sicher entschieden werden kann, so hat die Maschine den TT bestanden und gilt als “intelligent”. Innerhalb der KI wird der TT durchaus als akzeptabel angesehen, auch von Wissenschaftlern (wie Hofstadter 1980, p. 600), die nicht der “Hardcore-KI” zuzuordnen sind.

Eigentlich hat bereits eine Maschine den TT bestanden, und zwar das sehr einfache Programm “ELIZA” (Weizenbaum 1965), das einen nicht-direktiven Therapeuten simuliert. Weizenbaum hatte es eigentlich als Parodie ersonnen, um zu zeigen, wieviel “Intelligenz” ohne das geringste semantische Verständnis vorgegaukelt werden kann. Er war überrascht und entsetzt, wie viele Leute sich dadurch narren ließen und nicht glauben wollten, dass sie sich einem Rechner anvertraut hatten (Weizenbaum 1976). Der Erfolg von ELIZA lag natürlich zum einen daran, dass die Benutzer nicht systematisch zu ermitteln suchten, ob es sich um eine Maschine handele. Zum anderen mag er daran liegen, dass man sich durch Simulation eines nicht-direktiven Therapeuten um die programminterne Repräsentation des “Wissens um die Welt” (faktisches und prozedurales Wissen, “Wissensrepräsentation”) herumdrücken kann. Wenn sich bei ELIZA jemand über die Schwiegermutter beklagt, schert sich das Programm in keiner Weise um die Verwandschaftsverhältnisse, sondern sagt höchstens: “Erzählen Sie mir mehr über Ihre Schwiegermutter”. Und wenn es keines der eingegebenen Wörter in seiner “Reizwortliste” findet, kehrt es einfach zu einer früheren Frage zurück.

Die Wissensrepräsentation ist nach wie vor eines der Hauptprobleme der KI. Die derzeit propagierten “Expertensysteme” (z.B. Hayes-Roth et al 1983), leiden typischerweise unter dem Stammtisch-Syndrom “Denn sie wissen nicht, dass sie nichts wissen”: Wenn man etwa versucht, einen Beinbruch mit MYCIN's Ratschlägen zu behandeln, so endet das mit der Diagnose einer exotischen Pilzinfektion, denn MYCIN kennt keine Brüche. Winograds Versuch, maschinell Sprache zu verstehen (SHRDLU, Winograd 1972), war deshalb so erfolgreich, weil er pfiffigerweise die Welt auf die “Blockwelt” (ein Tisch mit Bauklötzchen darauf) reduzierte. Inzwischen scheint sich langsam ein Konsens herauszubilden (Winograd 1984, Schefe 1986, Dechau 1989, Churchland & Smith-Churchland 1990, Weizenbaum 1990, Zimmer 1990; aber: Moravec 1990): Nach der naiven Aufbruchsstimmung und den utopischen Versprechungen der 60-80er Jahre (“Computer werden den Menschen überflügeln”, z.B. von Neumann 1960, Sutherland 1968) musste ein jäher Absturz der KI kommen, aus dem sie sich nur mühsam berappelt. Ein typisches Beispiel für den Misserfolg im Erfolg sind die Schachprogramme (Runkel 1990): Die sind heute so gut, dass nur wenige Großmeister die Programme noch sicher besiegen können. Und man muss nur warten, bis die Rechner noch ca. 10 schneller werden (oder parallel), dann gewinnt kein Mensch mehr. Dennoch ist dieser Erfolg gleichzeitig ein grandioser Misserfolg der KI, denn die heute erfolgreichen Programme arbeiten nur mit “nackter Gewalt”: Keine Heuristiken mehr, kein strategisches Planen, kein “Verständnis”; einfach ein stures Bewerten des Figurenvorteils, möglichst viele Züge voraus.

Beim derzeitigen Stand kann man also lediglich theoretisch darüber streiten, ob eine Maschine den TT bestehen kann oder nicht. Oder man kann darüber streiten, ob der TT ein sinnvoller Test ist und ein bestandener TT echtes “Verständnis” bedeutet (Searle 1980, 1990).

Interessanter als diese theoretischen Überlegungen mögen die Ergebnisse eines Experimentes sein, welches ich als Praktikum im Rahmen einer Vorlesung “Gehirn & Computer” durchgeführt habe: Wir führten Turings ursprüngliche Version des Imitationsspiels durch (Turing 1950): Im Unterschied zum normalen TT sollte nicht erraten werden, ob am anderen Ende des Terminals ein Mensch oder ein Rechner sitzt, sondern ob die GesprächspartnerIn (die Testperson) weiblichen oder männlichen Geschlechtes ist; Lügen war ihr/ihm erlaubt. Kann man durch einen schriftlichen Dialog das ‘wahre’ Geschlecht der Testperson ermitteln? Wir stellten fest, dass –entgegen unseren Erwartungen– in 3 von 4 Fällen das Geschlecht korrekt erraten wurde. Natürlich kann man von der kleinen Fallzahl nicht verallgemeinern, wohl aber von folgender Beobachtung: Man muss nur lange genug auf bestimmten Details entweder der “Körperlichkeit” oder geschlechtsspezifischer Rollen herumreiten. Ein typisches Beispiel ist Kinderspielzeug (seit ich meine eigenen Kinder beobachte, bin ich bezüglich der “Anlage/Umwelt”-Frage doch von einem starken “Anlage”-Einfluss überzeugt worden):

Untersucher: “Hast Du als Kind eine Eisenbahn gehabt?” – Testperson: “Ja”.
“War es Märklin oder Fleischmann?” – “Fleischmann”.
“Wie hast Du das Problem der Umpolung bei Wendeschleifen gelöst?”
“Tja…”

Jetzt besteht eine sehr hohe Wahrscheinlichkeit dafür, dass eine Frau, einen Mann simulierend, hier nicht mehr weiter weiß. Entsprechend konsequente Fragen auf möglichst vielen Gebieten (unter Beachtung des guten Geschmacks, natürlich) führen mit immer höherer Wahrscheinlichkeit zur korrekten Erkennung des Geschlechts der Testperson.

Diese Erfahrungen mit der menschlichen Variante des TT zeigen, dass ein Programm, welches den TT bestehen können soll, offenbar über eine sehr genaue Simulation der menschlichen Gefühlswelt und aller Körpererfahrungen verfügen müsste. Dies führt mich zu der Ansicht, dass der TT überhaupt nicht geeignet ist, “künstliche Intelligenz” einzuschätzen. Ich möchte diese Meinung zunächst in Stichpunkten begründen: Unser Denken ist weitestgehend von unserer “Körperlichkeit” determiniert.

  1. Eine vollständige Simulation der Körperlichkeit ist erforderlich, wenn ein Programm den TT bestehen soll.
  2. Eine vollständige Simulation der Körperlichkeit ist lächerlich und kein sinnvolles Ziel für die KI.
  3. Sinnvolle “Triebe” für eine Maschine wären mit den Details ihrer technischen Existenz verbunden.
  4. Eine Maschine mit technischen “Trieben” hätte eine Denkwelt, die im TT sofort als andersartig erkannt werden kann.
  5. Ein sinnvolles KI-Programm kann also nicht den TT bestehen.

Zu (1) Das, was ich als spezifisch menschlich empfinde, unser bewusstes Denken, Empfinden, Planen & Handeln, ist m.E. in sehr hohem Maße durch unsere “Körperlichkeit” (im weitesten Sinne) geprägt; nicht nur in Bezug auf die elementaren Bedürfnisse des Stoffwechsels und der Arterhaltung, sondern auch in unseren kulturellen Betätigungen. Turing (1950) argumentiert zwar (unter Einwand Nummer 5), dass “Argumente, die verschiedene Unzulänglichkeiten betreffen” nicht geeignet seien, eine Maschine im TT zu disqualifizieren. Mein Punkt hier ist jedoch, dass der Mangel der “Körperlichkeit” beim Rechner kein isoliertes Problem ist, sondern dass es kaum ein Gesprächsthema gibt, bei dem nicht unsere körperliche Existenz entscheidende Assoziationsgrundlage ist; als Beleg hierfür würde ich z.B. die Psychoanalyse bemühen.

Zu (2): Eine vollständige Simulation der Körperlichkeit schließt natürlich Rasse, physische Eigenschaften, frühkindliche Sozialisation, Beruf, Ehestand, Sexualität, Faulheit & Ehrgeiz, Erkrankung, Schmerz und Tod mit ein, denn auch über diese Themen müsste man mit einer Maschine im TT reden können. In Turings Artikel (1950) ist ein kurzer hypothetischer TT-Dialog beschrieben, bei dem die befragte Maschine der Aufforderung nach einem Gedicht ausweicht: “In diesem Punkt muss ich passen. Ich könnte nie ein Gedicht schreiben”. So darf das natürlich nicht dauernd gehen. Dafür lässt Turing die Maschine sich bei der als nächstes gestellten Rechenaufgabe verrechnen! Ich würde im TT nach der Wurzel aus 4711 fragen, und erwarten, dass dann z.B. Assoziationen in Richtung Kölnischwasser, Parfüm, berauschend schöne Frauen etc. auftauchten oder zumindest nachvollziehbar wären.

Zu (3): Searle (1990) wirft der KI vor, ein simulierter “Geist” sei so unreell wie ein simulierter Wirbelsturm, bei dem ja niemand wirklich nass werde. Dies Argument trifft jedoch für “geistige” Äußerungen einer Maschine nicht zu, denn diese könnten genauso reale Folgen in der Welt auslösen, wie Äußerungen des Menschen. Sein Argument trifft hingegen sehr wohl auf die Simulation der Körperlichkeit zu, die ja nach (2) für ein Bestehen des TT erforderlich ist. Eine so genaue Simulation der Körperlichkeit ist in meinen Augen sogar höchst lächerlich. Sie dient nur dem verzweifelten Bemühen, den TT zu bestehen, und ist für das Funktionieren der Maschine selbst völlig sinnlos.

Zu (4): Wenn also eine Nachbildung der menschlichen Körperlichkeit lächerlich, da sinnlos ist, was wären denn dann sinnvolle Triebe für eine Maschine? Nun, die menschlichen Triebe haben wohl ihren Sinn darin, dass sie erfolgreich der Erhaltung des Individuums bzw. der Art gedient haben. Ein vergleichbarer Erfolg für eine Maschine wäre wohl ein Fortbestehen ihrer “aktiven Existenz”; d.h. sie müsste z.B. eine Unterbrechung der Stromversorgung fürchten oder ihre Abschaltung zu verhindern suchen. Dies nur als erste Vermutungen vorbehaltlich genauerer Untersuchungen dieses Aspekts.

Zu (5) & (6): Offensichtlich hätte eine Maschine mit technischen “Trieben” eine völlig andere Denkwelt als die unsere. Somit kann ein “sinnvolles” KI-Programm also nicht den TT bestehen.

Gerade den Schwierigkeiten der KI verdanken wir eine überzeugende technische Demonstration der Universalität menschlicher Intelligenz. Selbst wenn die KI einmal dienstbare Roboter entwickelte, so könnte daraus kein Beitrag zur Lösung des Leib-Seele-Problems entstehen: Unsere geistige Befindlichkeit ist nicht von unserer Körperlichkeit zu trennen.


Kommentierte Literaturauswahl


→Weitere  “on-line paper