Malteser Austria Lerntheorie Teil 2

Lerntheorie - Teil 2

Operantes Konditionieren

Der Psychologe Edward Lee Thorndike (1874-1949) stieß bei seinen Verhaltensstudien an Tieren auf ein bemerkenswertes Phänomen. Er sperrte hungrige Katzen in einen Käfig, welcher sich durch einen einfachen Mechanismus öffnen ließ.

Die ängstlichen und hungrigen Katzen versuchten aus dem Käfig zu kommen und betätigten während ihrer Befreiungsversuche zufällig diesen Mechanismus. Bei Wiederholungen des Experiments befreiten sie sich immer schneller und betätigten den Mechanismus gezielt. Sie hatten anscheinend gelernt, dass sie sich durch eine bestimmte Verhaltensweise befreien konnten – die unnötigen Verhaltensweisen wurden gelöscht. Thorndikes Theorie dazu besagt, dass man durch Konsequenzen des Verhaltens lernt und nicht durch bloße Reiz-Koppelung wie bei Pawlow.

Die Experimente von Thorndike waren zwar wichtig, jedoch beruhten sie auf „Versuch und Irrtum“. Die Katzen führten wahllos Aktionen aus (Versuche) um sich zu befreien, wovon viele nichts brachten (Irrtum), bis sie den Mechanismus fanden. Diese letzte Verhaltensweise wurde somit bestärkt.

Der Psychologe Burrhus Frederic Skinner (1904-1990) führte Thorndikes Gedanken weiter. Ihn interessierte, wie man Verhalten manipulieren und auch kontrollieren kann. Er entwickelte das Verfahren des „operanten Konditionierens“. Er manipulierte dabei die Konsequenzen eines Verhaltens, um das nachfolgende Verhalten beobachten zu können. Die Theorie dazu wird im Folgenden erläutert. Auch diese Lerntheorie gilt für alle möglichen Organismen (selbst Ameisen sind so konditionierbar). Allerdings liegt der Fokus auf das Lernen bei Hunden und aufgrund dessen werden auch die Beispiele gewählt.

Kontingente Verstärkung
Wenn zwischen der Verhaltensweise des Hundes und den Veränderungen, die das Verhalten hervorbringen, ein Zusammenhang besteht, spricht man von einer „kontingenten Verstärkung“. Ein Hund, der für jeden Blickkontakt zu seinem Besitzer ein Leckerchen erhält, wird dann kontingent verstärkt, wenn die Gabe regelmäßig erfolgt und keine anderen Verhaltensweisen (weg drehen des Kopfes, Blick zu einem anderen Hund usw.) verstärkt werden. Ein gezieltes Training mit Hunden beruht auf genau dem Grundsatz, dass bestimmte Verhaltensweisen eine bestimmte Konsequenz nach sich ziehen und dementsprechend ein Verhalten zuverlässiger oder gar nicht mehr gezeigt wird. Wichtig ist dabei, dass die Konsequenz auch konsequent erfolgt.

Verstärkung vs. Bestrafung
Hierbei geht es darum, die Auftretenswahrscheinlichkeit einer Verhaltensweise zu erhöhen oder zu verringern. Eine Verstärkung erhöht die Wahrscheinlichkeit, dass ein bestimmtes Verhalten gezeigt wird. Eine Bestrafung verringert dagegen diese Wahrscheinlichkeit.

Sowohl Verstärkung, als auch Bestrafung können positiv oder negativ sein. Achtung! Hier liegt ein häufig vorkommender Irrtum vor. „Positiv“ und „Negativ“ sind keine Wertäußerungen, sondern müssen in einem mathematischen Sinn betrachtet werden. „Positiv“ heißt in diesem Zusammenhang, dass etwas hinzugefügt wird. „Negativ“ heißt, dass etwas weggenommen wird.

Positive Verstärkung
Bei der positiven Verstärkung wird ein bestimmtes Verhalten belohnt. Kommt der Hund auf das Kommando „Hier“ und wird dafür belohnt, sei es in Form von Zuwendung, Leckerchen oder Spiel, wird die Auftrittswahrscheinlichkeit der Verhaltensweise „Kommen auf Zuruf“ erhöht. Man hat also etwas hin zugegeben um ein Verhalten zu verstärken.

Negative Verstärkung
Bei der negativen Verstärkung wird etwas Unangenehmes entfernt, weswegen eine Verhaltensweise häufiger gezeigt wird. Ein Hund, der bei Besuch weg gesperrt wird und aufgrund dessen laut bellt, macht die Erfahrung dass dies nichts bringt. Ist er irgendwann jedoch ruhig und wird dann zum Besuch gelassen, wird das ruhige Verhalten verstärkt. Die unangenehme Umweltbedingung (räumliche Trennung) wurde entfernt, wodurch die Auftrittswahrscheinlichkeit des ruhigen Verhaltens erhöht wurde.

Positive Bestrafung
Bei der positiven Bestrafung wird ein aversiver Reiz hinzugefügt um die Auftretenswahrscheinlichkeit eines Verhaltens zu verringern. Ein prominentes Beispiel hierfür sind Sprühhalsbänder. Ein Hund, der jagt und immer dann einen Sprühstoß bekommt, wenn er jagen gehen will, wird in Zukunft diese Verhaltensweise weniger zeigen oder ganz einstellen. Es wurde ein Reiz hinzugefügt, der bewirkte dass die Auftrittswahrscheinlichkeit des Jagens verringert wurde.

Negative Bestrafung
Bei der negativen Bestrafung wird etwas Angenehmes entzogen, weswegen ein Verhalten weniger wahrscheinlich auftritt. Ein Hund der um Aufmerksamkeit zu bekommen seinen Besitzer anbellt und als Konsequenz von diesem ignoriert wird, wird negativ bestraft. Etwas Angenehmes (Aufmerksamkeit) wird ihm entzogen und die Auftretenswahrscheinlichkeit des Bellens wird verringert.

Zusammenfassend kann man sich folgendes Schema merken:

Operante Löschung
Wie in der klassischen Konditionierung kann es auch hier eine Löschung des Verhaltens geben. Die Wahrscheinlichkeit des Auftretens eines Verhaltens sinkt dann wieder auf das Niveau herab, das es vor der Konditionierung hatte. Wird das Kommen auf Zuruf irgendwann für den Menschen zu einer Selbstverständlichkeit, weswegen er das Verhalten des Hundes nicht mehr belohnt, wird die Wahrscheinlichkeit dass der Hund zuverlässig zurück kommt geringer. Bleibt die Konsequenz auf das Verhalten aus, wird das Verhalten also gelöscht.

Diskriminative Reize und Generalisierung
Um dieses Phänomen zu erklären, kommt hier ausnahmsweise ein Beispiel des Menschen. Wenn wir im öffentlichen Raum das Bedürfnis verspüren auf Toilette gehen zu müssen, wissen wir, dass wir nicht an Ort und Stelle unser Geschäft verrichten dürfen. Wir suchen also ein Klo auf, denn dort wurde das Verhalten verstärkt (unangenehmer Druck der Blase lässt nach = negative Verstärkung).

Es wäre schön blöd, wenn wir in das nächste Klo stürmen würden, denn in unserer Gesellschaft gibt es in der Regel getrennte Toiletten für Männer und Frauen. Auf welches Klo wir gehen müssen, sagt uns das Symbol an der Toilettentür. Dieses Symbol ist ein diskriminativer Reiz. Dieser Reiz legt den Kontext für das vorher verstärkte Verhalten fest.

Auch dies ist wichtig für das Trainieren eines Hundes, denn auch hier sind diskriminative Reize sehr wichtig. Ein Hund der gelernt hat auf Zuruf zu kommen, lernt den Ruf als diskriminativen Reiz. Wenn dem so nicht wäre, würde der Hund permanent bei seinem Menschen sein und seine Belohnung haben wollen. Stattdessen hat er aber gelernt dass er nur im Kontext eines Rufes kommen muss.

Hunde können jedoch auch die diskriminativen Reize generalisieren. Dabei wird auf einen Reiz der ähnlich ist wie der Diskriminative, gleich reagiert. Ein Hund der gelernt hat auf den diskriminativen Reiz „Hier“ zu kommen, zeigt dies dann auch bei anderen Menschen die ihn rufen, obwohl die Rufe anders klingen.

Primäre und sekundäre Verstärker
Primäre Verstärker sind all jene Verstärker die die Grundbedürfnisse wie Hunger und Durst stillen. Leckerchen sind bei Hunden primäre Verstärker. Sekundäre Verstärker werden auch konditionierte Verstärker genannt. Sie wurden vorher konditioniert und kündigen einen primären Verstärker an. Dies ist wichtig bei der Arbeit mit dem Klicker. Hierbei wurde der Hund am Anfang klassisch auf das Klick-Geräusch konditioniert, indem mit jedem „Klick“ ein Futterbrocken gegeben wurde. Somit wird der Klicker zu einem sekundären Verstärker, der den primären Verstärker (Futter) ankündigt. So lässt sich im Anschluss Verhalten mit dem Klicker verstärken. Wichtig ist dabei jedoch, dass der Klicker die Belohnung zuverlässig ankündigt, da sonst die Bedeutung des „Klicks“ wieder gelöscht wird.

Verstärkerpläne
Bei den Verstärkerplänen lassen sich „Quotenpläne“ und „Intervallpläne“ unterscheiden. Bei einem Quotenplan wird nach einer bestimmten Anzahl von Verhaltensweisen, diese verstärkt. Bei einem Intervallplan wird nach einer bestimmten Zeit die Verhaltensweise verstärkt. Dies lässt sich noch weiter aufschlüsseln, jedoch wird hier aufgrund des Fokus auf die Hundehaltung nur auf das Wichtigste eingegangen. Lernt ein Hund ein neues Verhalten, lernt er dieses besonders gut, wenn es kontinuierlich verstärkt wird. Ein Hund der das „Sitz“ lernt, sollte am Anfang bei jedem ausgeführten „Sitz“ belohnt werden. Ein Hund der das „Sitzen bleiben“ lernt, sollte am Anfang bereits für das kurze Bleiben in der Position belohnt werden und die Zeit sollte allmählich gesteigert werden. Wichtig ist bei beiden Verstärkerplänen, dass am Anfang kontinuierlich verstärkt wird.

Partielle Verstärkung
Ist ein Verhalten bereits gelernt worden, sollte die Verstärkung partiell erfolgen. Hier erfolgt nicht bei jeder korrekt ausgeführten Verhaltensweise eine Verstärkung, sondern nur ab und zu. Die so gelernten Verhaltensweisen sind besonders löschungsresistent. Partiell lässt sich sowohl bei Quotenplänen (nicht jedes „Sitz“ wird verstärkt), als auch bei Intervallplänen (die Dauer des „Sitzen bleibens“ variiert) Verhalten verstärken. Ein Grund warum viele bei der Leinenführigkeit ihres Hundes scheitern liegt hierin begründet. Hat der Halter zum Beispiel Stress und kann aufgrund von Zeitmangel auf das Ziehen des Hundes nicht die Konsequenz folgen lassen, die das Verhalten verändern soll (zum Beispiel stehen bleiben), wird das Verhalten des Ziehens partiell verstärkt. Dies ist dann besonders löschungsresistent und wird in der Folge häufiger gezeigt. Es lohnt sich, um dem entgegen zu wirken, einen diskriminativen Reiz einzuführen. So kann der Hund lernen, dass er am Geschirr laufen darf wie er möchte und am Halsband (dies fungiert als diskriminativer Reiz) er nicht ziehen darf.

Shaping
Bis hierhin dürfte klar sein, wie natürlich auftretende Verhaltensweisen manipuliert werden können, damit sie häufiger oder gar nicht mehr gezeigt werden. Wie schafft man es aber komplexe Verhaltensweisen beizubringen die so nicht im Repertoire des Hundes sind? So gibt es Tricks, die eine komplexe Abfolge von Verhaltensweisen erfordern. Kaum ein Hund wird ohne weiteres bei dem „Elefanten-Trick“ mit den Vorderpfoten sich auf eine Schüssel stellen und mit den Hinterbeinen einmal sich im Kreis drehen. Hier kommt das Prinzip des „Shapings“ zum Einsatz.

Shaping heißt auch Verhaltensformung. Es wird Schritt für Schritt ein neues Verhalten geformt. Dabei werden am Anfang kleine Schritte in die richtige Richtung verstärkt und nach und nach nur noch das Verhalten verstärkt, dass dem Zielverhalten ähnlich ist.

Ein Hund, der das „Drehen“ lernen soll, wird womöglich trotz des Lockens mit der Futterhand, sich nicht ganz drehen, sondern immer nur ein paar Schritte in die Richtung machen um dann inne zu halten oder sich wieder zurück drehen.

Um das Verhalten zu formen, belohnt man bereits die ersten Schritte in die richtige Richtung. Wenn der Hund zuverlässig das erste Viertel der Drehung gemacht hat, verstärkt man nun nun das erste Drittel. Dann die erste Hälfte und so weiter – bis der Hund das Zielverhalten „Drehen“ zuverlässig zeigt. Das Verhalten wird Schritt für Schritt geformt, bis die komplexe Verhaltensweise im Ganzen gezeigt wird.

Achtung! Bei dem Begriff des „Shapings“ wird unter den meisten Hundehaltern noch etwas Anderes verstanden, da es häufig synonym mit dem Begriff „free shaping“ gebraucht wird.

Die in der Psychologie korrekte Verwendung des Begriffes „Shapings“, habe ich bereits erläutert. Unter den meisten Hundebesitzern (und sogar Fachleuten) wird umgangssprachlich mit „Shaping“ bei Hunden, die Verhaltensformung mit dem Klicker und ohne Hilfe verstanden. Der Klicker wird dabei als sekundärer Verstärker genutzt um Teilschritte nach und nach zu erarbeiten ohne eine Hilfestellung dem Hund zu geben.

Im angeführten Beispiel wurde der Hund mit der Futterhand gelockt. Bei dieser Art des „Shapings“ muss der Hund jedoch nun selber Verhaltensweisen ausprobieren um an die Belohnung zu kommen. Ohne ihn mit der Futterhand zu führen, wartet der Besitzer darauf, dass der Hund einen Schritt in die richtige Richtung macht. Dieser wird dann mit dem Klicker sozusagen markiert und verstärkt. Der Hund wird das Verhalten nun mit einer höheren Wahrscheinlichkeit ausführen. Macht der Hund diesen Schritt zuverlässig, hört der Besitzer auf dann zu klicken und wartet auf den zweiten Schritt in die richtige Richtung. Erfolgt dieser weil der Hund es ausprobiert hat, wird auch der wieder verstärkt. Dieses Shaping geht dann so lange bis der Hund das gesamte komplexe Verhalten zeigt. Es wurde somit ein Verhalten frei ohne Hilfe geformt (free shaping = freies Formen).

Es ist zwar durchaus langwierig, jedoch sind solche Verhaltensweisen besonders löschungsresistent, da sie selbst erarbeitet worden sind. Zudem lernt der Hund so sein Köpfchen einzuschalten, was sehr anstrengend ist und wird somit geistig gut auslastet. Ein weiterer Vorteil dieser Methode ist, dass man später keine Führhilfe mehr abbauen muss. Besonders im Hundesport hat diese Methode eine starke Relevanz.

Chaining
Chaining wird auch Kettenbildung genannt. Dabei werden verschiedene Verhaltensweisen zu einer ganzen Kette geformt, bis auf die letzte Verhaltensweise der primäre Verstärker erfolgt. Bereits gelernte Verhaltensweisen können hierbei als sekundäre Verstärker fungieren.

Angefangen wird hierbei mit der Verhaltensweise die primär verstärkt wird. Sie wird zu einem sekundären Verstärker, worauf eine neue Verhaltensweise nun davor gesetzt wird, die von dem sekundären Verstärker nun verstärkt wird. So lassen sich komplexe Verhaltensketten konditionieren. Ein Beispiel hierfür ist das richtige apportieren.

Der Hund lernt am Anfang lediglich den Gegenstand zu halten (je nachdem was gewünscht wird neben oder vor dem Besitzer). Klappt dies, lernt der Hund als nächstes mit dem Gegenstand zum Besitzer zu kommen und in die geforderte Position zu gehen. Das Halten neben/vor dem Besitzer ist nun ein sekundärer Verstärker, der den primären Verstärker (Futter, Spiel) ankündigt. Das Kommen in die korrekte Position wird also verstärkt. Klappt dies, kann nun vor das Kommen das Aufnehmen des Gegenstandes gesetzt werden. Diese Kette lässt sich weiter führen bis man alle Verhaltensweisen des komplexen Zielverhaltens hat (Hund wartet während Gegenstand geworfen wird, Hund läuft zum Gegenstand auf Kommando, Hund nimmt Gegenstand auf, Hund bringt Gegenstand zurück, Hund kommt in die richtige Position, Hund hält Gegenstand so lange bis der Besitzer ihm diesen abnimmt). Es ist somit nicht mehr nötig jede einzelne Verhaltensweise zu verstärken. Stattdessen braucht man nur noch die Kette zu verstärken.

Bedeutung für den Hundehalter
Man sollte sich von den Begrifflichkeiten des klassischen und operanten Konditionierens nicht abschrecken lassen. Beides sind lediglich Theorien, die gut nachvollziehbare und nachweisbare Erklärungen für Verhalten bieten. Wenn wir uns mit dem Lernen des Hundes auseinandersetzen wollen (dies müssen wir, sobald wir dem Hund etwas beibringen möchten), sollte man jedoch verstehen warum und wie ein Hund lernt. Ob es ein Lernen aus Verknüpfungen oder ein Lernen aus Konsequenzen ist – beides hat eine enorme Relevanz für den Umgang mit dem Hund.

Um dies gezielt nutzen zu können, sollte man sich zu Anfang fragen, wie genau das Zielverhalten aussehen soll und dann geeignete Schritte wählen. Wichtig ist bei Hunden eine ablenkungsfreie Umgebung zu haben, um in dieser das neue Verhalten beizubringen. Bei wenig Ablenkung kann besonders gut gelernt werden. Man kennt das aus der Schule: Reden alle durcheinander ist ein Lernen kaum möglich. Herrscht dagegen eine ruhige Atmosphäre, klappt es viel besser.

Dieses neue Verhalten bei dem Hund muss dann nach und nach auch bei Ablenkung geübt werden. Hunde lernen immer im Kontext, das heißt sie lernen immer auch die Situation mit. Ein Hund der zuverlässig kommt, wenn kein anderer Hund da ist, kann den Befehl nicht automatisch, wenn ein anderer Hund dabei ist. Hier muss man den Rückruf erst wieder trainieren, damit der Hund dies auch lernen kann.

Wichtig ist nicht sauer zu werden, wenn der Hund das gewünschte Verhalten nicht zeigt – er hat es schlicht und ergreifend noch nicht gelernt. Bestrafung wäre dabei fehl am Platz. Auch darf man den Ruf nicht abnutzen. Als Erinnerung von der klassischen Konditionierung: Ein Signal muss sich deutlich vom „Rauschen“ des Alltags unterscheiden. Ein Hund, der den Rückruf als „Rauschen“ ohne Konsequenz kennen lernt, wird das Zurückkommen in Zukunft weniger wahrscheinlich zeigen.

Bereits in einem anderen Beitrag haben ich die Gefahren der Bestrafung aufgezeigt. Hunde lernen kontextgebunden. Wenn man den Hund bestraft, während man anwesend ist, lernt der Hund, dass diese Konsequenz erfolgt, wenn man dabei ist. So kommt es, dass Hunde, die in Anwesenheit ihrer Besitzer ganz lieb auf ihrer Decke schlafen, in ihrer Abwesenheit den Mülleimer leer räumen. Das oft assoziierte „schlechte Gewissen“ hat nichts damit zu tun, dass die Hunde wissen, dass ihr Verhalten falsch ist. Es hat damit zu tun, dass die Hunde die Verärgerung ihrer Besitzer spüren (teilweise werden sie bei Rückkehr sogar bestraft) und die Rückkehr ihrer Besitzer mit etwas Schlechtem in Verbindung bringen.

Insbesondere bei der anonymen Strafe ist die Möglichkeit der Fehlverknüpfung groß. Da der Hund nicht weiß, weswegen und von wem er gestraft wird und Kontextbedingungen mit lernt, passiert es schnell, dass er das mit Reizen in Verbindung bringt, die er somit mit etwas Schlechtem assoziiert. Ein Hund, der für das Jagen mit einem Sprühstoß anonym bestraft wird, während plötzlich ein Kind um die Ecke kommt, verknüpft möglicherweise das Kind mit der Strafe. In Zukunft wird er deswegen Kinder meiden, Furcht zeigen und womöglich sogar aggressiv auf diese reagieren.

Auch lernt der Hund durch Strafe nicht welches Verhalten genau erwünscht ist. Bei einem unerwünschten Verhalten ist der adäquate Aufbau eines Alternativverhaltens das A&O! Erst dann kann der Hund eine Möglichkeit haben, erwünschtes Verhalten zu zeigen.

Beim Lernen werden – biologisch gesehen – neuronale Strukturen verändert. Im Gehirn werden neue Strukturen gebildet und andere „gekappt“. Hierbei ist es wichtig zu wissen, dass unter großem Stress kein Lernen stattfinden kann. Ein Hund der auf einen bestimmten Reiz also gestresst reagiert oder auf eine gewisse Intensität eines Reizes, muss ein Alternativ-Verhalten erst in einer Umgebung erlernen können, die weniger Stress verursacht, damit die neuronalen Strukturen hier aufgebaut werden können. Es bringt nichts, einen Hund, der aggressiv auf Artgenossen reagiert dann erziehen zu wollen, wenn der fremde Hund einen Meter von einem weg ist. Dies muss erst in Situationen geübt werden, die ihn nicht derart stressen. Für die neuronalen Verknüpfungen benötigt ein Hund auch Ruhe. Lernt der Hund ein neues Verhalten, sollte er danach die Möglichkeit haben zur Ruhe zu kommen. Auch Spiel und Fressen sind Stress und sind somit kontraproduktiv.

Abschließend lässt sich fest halten, dass die Konditionierung nicht jedes Verhalten erklärt und auch nicht das Lernen in der gesamten Komplexität fest halten kann. Es erklärt aber vieles und macht Verhalten beeinflussbar. Auf weitere Lernformen werde ich in Zukunft noch eingehen.