Warum hat das Gehirn einen Belohnungsvorhersagefehler?

Dopamin und die Kunst des Feedbacks

Bildnachweis: Pixabay

Eine tiefe Erfolgsgeschichte der modernen Neurowissenschaften ist die Theorie, dass Dopamin-Neuronen einen Vorhersagefehler signalisieren, den Fehler zwischen der erwarteten Belohnung und der erhaltenen Belohnung.

Ihr Erfolg ist tiefgreifend. Es wurde durch konvergierende Beweise aus dem Abfeuern von Neuronen, der Freisetzung von Dopamin und dem Blutfluss, der in fMRT beobachtet wurde, gestützt. Diese Beweise wurden für verschiedene Arten gesammelt, von Menschen, Affen, Ratten und Bienen. Es gibt sogar kausale Beweise dafür, dass das Erzwingen des Feuers von Dopamin-Neuronen Fehlersignale im Gehirn sendet, was sich auf das Verhalten der Tiere auswirkt, mit denen Dopamin-Neuronen gespielt werden. Die Theorie überbrückt Daten von der Skala des menschlichen Verhaltens bis zur Ebene einzelner Neuronen. Im Gegensatz zu vielen Theorien für das Gehirn ist diese richtig berechnet und macht mehrere, nicht triviale Vorhersagen, die sich als wahr erwiesen haben. Dopamin und Prognosefehler sind eng miteinander verflochten.

Aber diese enge Verbindung wirft eine größere, aber selten artikulierte Frage auf. Es ist durchaus möglich, ein Gehirn aufzubauen, das aus Fehlern lernt, ohne dass dieser Fehler im Gehirn explizit dargestellt wird. Warum hat das Gehirn überhaupt ein Fehlersignal für Belohnungen?

Um diese Frage zu verstehen, müssen wir zuerst etwas über die Vorhersagefehlertheorie selbst wissen. Die Theorie besagt, dass Dopamin-Neuronen unerwartet gute Dinge abfeuern. Wenn ich dir plötzlich auf die Schulter klopfe und dir eine Süßigkeit reiche, pingen deine Dopamin-Neuronen! für die süßen.

Wenn ich dir weiter auf die Schulter klopfe und dir eine Süßigkeit gebe, hören deine Dopaminneuronen auf, nach der Süßigkeit zu pingen - eine Süßigkeit zu bekommen ist großartig, aber nicht länger unerwartet (und ehrlich gesagt, ich würde lieber deinen persönlichen Raum respektieren) bisschen mehr). Stattdessen pingen die Dopamin-Neuronen! für den Wasserhahn selbst. Das ist das Schlaue: Das Neuron pingt! Weil der Hahn auf der Schulter jetzt zuverlässig vorhersagt, dass ein Bonbon kommt (eine gute Sache), aber es ist unerwartet, weil Sie nicht wissen, wann der Hahn kommt - so wird der Hahn auf der Schulter zu einer unerwartet guten Sache.

Die Theorie besagt auch, dass Dopamin-Neuronen wie Menschen zutiefst verärgert sind, weil ihre Routinen verletzt werden. Nachdem ich dieses Vertrauensverhältnis aufgebaut habe - ich klopfe dir wiederholt auf die Schulter und du bekommst zumindest eine Reihe von Süßigkeiten aus dieser Verletzung sozialer Normen -, was passiert, wenn ich dir auf die Schulter klopfe und dir dann keine Süßigkeit gebe? Ihre Dopamin-Neuronen schalten sich dann vollständig aus und hören für kurze Zeit überhaupt nicht mehr auf zu feuern.

Kurz gesagt senden Dopamin-Neuronen ein schnelles Signal, das alle drei möglichen Fehler bei der Vorhersage einer Belohnung abdeckt: dass die Belohnung besser als erwartet war (ein positiver Fehler); dass die Belohnung genau wie erwartet war (kein Fehler); oder dass die Belohnung geringer als erwartet war (ein negativer Fehler). Wir können all dies mit einem der quälenden Substantive kennzeichnen, die Wissenschaftler geliebt haben: Dopamin-Neuronen senden einen Belohnungs-Vorhersagefehler.

Diese Entsprechung zwischen Dopamin und „Belohnungsvorhersagefehler“ hat ihre Wurzeln im Zweig des KI-Lernens (technisch gesehen ist es ein Zweig des maschinellen Lernens, aber da jetzt alles als KI bezeichnet wird, einschließlich eines FitBits, von dem ich mir ziemlich sicher bin ist nur ein Beschleunigungsmesser mit einem Gurt, dann ist es AI). Reinforcement Learning ist die Anhäufung von Algorithmen, mit denen ermittelt werden kann, wie falsch oder richtig die eigenen Vorhersagen waren.

Alle klassischen Algorithmen des Bestärkungslernens haben ein explizites Signal für den Fehler bei der Vorhersage, wie wertvoll eine Wahl sein wird (wobei die Algorithmen Banditen, zeitliches Differenzlernen, Q-Lernen, SARSA oder akteurskritisches Lernen umfassen). Dies ist das Signal zwischen dem prognostizierten Wert des nächsten Ereignisses und dem tatsächlichen Wert des nächsten Ereignisses - wobei der Wert an der erwarteten Höhe der zukünftigen Belohnung gemessen wird. Die Magie des Bestärkungslernens besteht darin, dass ein künstlicher Agent durch einfaches Minimieren dieses Fehlers zwischen dem vorhergesagten und dem tatsächlichen Wert der nächsten Dinge in der Welt bemerkenswert komplexe Abfolgen von Ereignissen wie das Navigieren durch eine Welt oder das Laufen lernen kann.

Und dies ist der rechnerische Teil der Dopamintheorie: Die schnellen Reaktionen von Dopaminneuronen sind nur der Vorhersagefehler von Algorithmen zum Lernen der Verstärkung. Dass sie der Fehler zwischen dem vorhergesagten und dem tatsächlichen Wert dessen sind, was als nächstes passiert. Und dass sie es gewohnt sind zu lernen. Der Schlüssel zu dieser Theorie liegt nicht nur darin, dass die Dopamin-Neuronen den Unterschied zwischen der Belohnung und den Erwartungen signalisieren. Es ist so, dass sie dieses Signal auch auf unerwartete Dinge übertragen, die die Belohnung vorhersagen, genau so, wie es die Algorithmen zum Lernen der Verstärkung vorschreiben.

Dies soll nicht heißen, dass Dopamin-Neurone nur diesen Vorhersagefehler codieren. Es gibt viele Nuancen, an denen Dopamin-Neuronen selbst interessiert sein könnten, eine Übermenge von Dingen, die über Vorhersagefehler hinausgehen. Und in der Tat sind Fehler bei der Vorhersage der Belohnung nur ein Teil der möglichen Fehler bei Vorhersagen über die Welt, die im Gehirn existieren könnten (eine Geschichte für das nächste Mal). Aber dass Dopamin-Neuronen einen Fehler bei der Vorhersage der Belohnung kodieren, scheint ein gut etablierter Teil dessen zu sein, was sie tun.

(Und diese vorgeschlagene Entsprechung zwischen der schnellen Reaktion von Dopamin-Neuronen und einem Vorhersagefehler gilt auch für ausgefeiltere Verstärkungs-Lernalgorithmen, wie die aufregende Wiederbelebung und Erweiterung von Peter Dayans Idee der „Nachfolge-Repräsentation“ von Sam Gershman, Ida Momennejad, Kim Stachenfeld und Kollegen: Im Bericht über die Nachfolgevertretung gibt es nicht einen einfachen Fehler zwischen Ihren Vorhersagen und Ihren Vorhersagen, sondern eine ganze Reihe von Fehlern in Bezug auf Vorhersagen für Änderungen an verschiedenen Merkmalen der Welt - eine davon ist Belohnung von Gershman und Kollegen zeigt, wie das Denken an die schnelle Reaktion von Dopamin-Neuronen als Summe dieser Fehler einige verwirrende Erkenntnisse über Dopamin-Neuronen erklären kann, die schnelle Signale an Veränderungen in der Welt senden, die nicht belohnt werden.)

Es bestand jedoch keine Notwendigkeit, dass diese Entsprechung zwischen Neuron und theoretischem Fehlersignal existierte. Die Algorithmen des Verstärkungslernens basieren auf Beobachtungen des Tierverhaltens. Und sie können sehr erfolgreich sein: Tiere, einschließlich Menschen, verhalten sich oft wirklich so, als würden sie einen Vorhersagefehler als Belohnung verwenden, um etwas über die Welt zu lernen. Aber nur weil wir das Verhalten mit einem Fehler in der Vorhersage über die Belohnung beschreiben können, folgt daraus nicht, dass es ein derart explizites Fehlersignal im Gehirn geben muss

Denn es ist durchaus möglich, ein System zu konstruieren, das mithilfe von Rückmeldungen etwas über die Welt lernt, ohne ein explizites Signal für den Fehler in seinen Vorhersagen zu haben. Ein Beispiel für diese Systeme ist ein Bayes-Agent, der mehr über die Wahrscheinlichkeiten der Dinge in der Zukunft als über Gewissheiten lernt.

Ein solcher Bayes-Agent könnte die Unsicherheit über den Wert von Aktion A darstellen. Diese Unsicherheit wird durch eine Wahrscheinlichkeitsverteilung - die wir P (Wert | Aktion A) schreiben können - für die möglichen Werte von Aktion A codiert. Beispielsweise besteht eine hohe Wahrscheinlichkeit, dass Aktion A einen niedrigen Wert hat, und eine geringe Wahrscheinlichkeit, dass es einen hohen Wert haben wird; oder umgekehrt; oder etwas weitaus Komplizierteres.

Wir stürzen unseren armen Bayesianer in die langweiligste Welt, die man sich vorstellen kann. Sein ganzes Leben besteht darin, immer wieder zu entscheiden, welchen der drei Hebel er ziehen soll, um eine Münze zu gewinnen. Da die Gewinnchancen für eine Münze bei den drei Hebeln unterschiedlich sind, muss der Agent herausfinden, an welchen Hebeln er ziehen muss, um auf lange Sicht die meisten Münzen zu erhalten. Drei Hebel, also drei mögliche Aktionen, also drei entsprechende Wahrscheinlichkeitsverteilungen für den Wert jedes Hebels. In jeder Runde wählt der Agent einen Hebel, der auf diesen Wahrscheinlichkeitsverteilungen basiert - vielleicht wählt er den Hebel, der derzeit die höchste Wahrscheinlichkeit für die größte Belohnung bietet - und achtet auf die Münze.

Münze oder nicht, der Agent verwendet das Ergebnis, um seine Wahrscheinlichkeitsverteilung zu aktualisieren. Eine Münze ist ein Beweis dafür, dass der Hebel gut ist. Daher erhöht der Agent die Wahrscheinlichkeit, dass das Ziehen des Hebels einen hohen Wert hat. Keine Münze ist ein Beweis dafür, dass der Hebel nicht gut ist. Daher erhöht der Agent die Wahrscheinlichkeit, dass das Ziehen des Hebels einen niedrigen Wert hat. In beiden Fällen verfügt der Agent nun über mehr Informationen zu der ausgewählten Aktion, unabhängig davon, ob es sich um ein gutes oder ein schlechtes Ergebnis handelt. Die Wahrscheinlichkeitsverteilung für diese Aktion wird aktualisiert, um diese Informationen widerzuspiegeln, indem die Parameter der Verteilung geändert werden.

Es liegt kein Fehlersignal vor. Der Agent lernt aus dem Feedback über die Welt und kann anhand seines Lernens Entscheidungen treffen, hat jedoch kein Vorhersagefehlersignal. Sicher, wir könnten eine erstellen - indem wir die Differenz zwischen den Wahrscheinlichkeitsverteilungen vor und nach dem Eintreffen der Münze berechnen - aber wir brauchen keine. Das Fehlersignal ist implizit.

Auch dies ist Verhalten, noch nicht das Gehirn. Viele glauben jedoch, dass das Gehirn die Welt mithilfe von Wahrscheinlichkeitsverteilungen darstellt. und es gibt plausible Theorien, wie Wahrscheinlichkeitsverteilungen unter Verwendung von Neuronen dargestellt und aktualisiert werden können. Diese laufen darauf hinaus, das Feuern der Population von Neuronen, die eine Wahrscheinlichkeitsverteilung darstellen, anzupassen. Und Sie tun dies, indem Sie die Stärke der Eingaben an diese Neuronen anpassen (unabhängig davon, ob diese Eingaben aus der Bevölkerung stammen oder nicht). Das Gehirn braucht also nur ein Signal, ob eine Belohnung stattgefunden hat oder nicht, und nutzt es, um Verbindungen anzupassen. Es ist kein kompliziertes Signal über den Fehler in den Vorhersagen erforderlich.

Ein Gehirn kann also aus der Verstärkung mit oder ohne ein explizites Signal für Fehler bei der Vorhersage dieser Verstärkung lernen. Das Gehirn hat jedoch ein explizites Fehlersignal, das von Dopamin-Neuronen codiert wird. Was sagt uns das?

Ich denke, es gibt drei interessante Ideen für die Funktionsweise des Gehirns. Ich denke, wir sind voll und ganz darauf vorbereitet, falsch zu liegen, und es gibt ein wasserdichtes Argument dafür, warum Sie kein Gehirn aufbauen können, ohne ein explizites Signal für Fehler bei der Vorhersage der Belohnung zu erhalten.

Die erste Idee ist, dass die Existenz eines expliziten Fehlersignals die Existenz einer einfachen Darstellung der Welt im Gehirn impliziert. Eine sogenannte „modellfreie“ Darstellung, die nicht jedes mögliche Ergebnis einer Handlung darstellt und wahrscheinlich auch keine Wahrscheinlichkeit verwendet. Eine schnell zugängliche Nachschlagetabelle der Werte von Aktionen, mit der Aktionen ausgewählt werden, wenn die Zeit drängt oder die Welt sich nicht ändert. Wir haben bereits einige gute Ideen, wo solche Darstellungen im Gehirn leben. Und alle Formen derart einfacher Darstellungen, die wir kennen, erfordern ein explizites Signal für den Fehler zwischen tatsächlichen und vorhergesagten Werten.

Eine zweite Idee ist, dass das eine Konzept beim verstärkenden Lernen eigentlich zwei Prozesse im Gehirn sind. Das eine Konzept beim Lernen mit Bestärkung ist, dass Sie den Fehler in Ihrer Vorhersage verwenden, um Ihre Schätzung des Werts einer Aktion zu ändern. Warum sind diese beiden Prozesse im Gehirn? Weil das Gehirn möglicherweise kurzfristige und langfristige Änderungen der Schätzungen des Werts einer Aktion getrennt steuern möchte. Und wenn ein explizites Fehlersignal von Dopamin übertragen wird, können beide mit einem Signal verarbeitet werden.

Um langfristige Änderungen zu erzielen, können wir unsere Schätzung des Werts einer Aktion anpassen, indem wir die Stärke der Verbindungen zu Neuronen, die diese Aktion darstellen, nach oben oder unten ändern. Wenn wir unsere Wertschätzung auf diese Weise anpassen, ändert sich das langfristige Verhalten. Und das schnelle Dopaminsignal soll in der Tat steuern, ob und in welche Richtung einige Verbindungen im Gehirn ihre Stärken ändern dürfen. Hier benötigen Sie das Vorzeichen des Fehlersignals, um den Verbindungen mitzuteilen, in welche Richtung sie wechseln sollen.

Das Gehirn möchte jedoch nicht unbedingt jedes Feedback, das es erhält, um eine Verbindung zwischen Neuronen zu ändern. Denn das sperrt es in einen Pfad, von dem es schwierig sein könnte, sich zu erholen. Wenn wir versuchen, die Stärken dieser Verbindungen selbst zu ändern, indem wir die Eingänge zu einem Neuron stimulieren, können sich einige von ihnen als bemerkenswert schwierig zu verschieben erweisen. Dies erhöht die Möglichkeit, dass das Gehirn kurzfristig seine Einsätze absichern möchte, indem es die Schätzungen des Aktionswerts ändert, ohne die Verbindungsstärken zu ändern. Und dies kann erreicht werden, indem stattdessen geändert wird, wie die Neuronen auf ihre Eingaben reagieren. Wenn Sie die Wahrscheinlichkeit erhöhen, dass das Neuron für Aktion A ausgelöst wird, haben Sie den vorhergesagten Wert erhöht. und umgekehrt. Ratet mal, welcher Sender im Gehirn hat Hunderte von Aufsätzen, die belegen, dass er die Reaktionsfähigkeit von Neuronen verändert, die die Handlung steuern? Ja, Dopamin.

Zusammenfassend ist das Argument hier, dass das explizite Fehlersignal existiert, um es dem Gehirn zu ermöglichen, Änderungen des vorhergesagten Werts auf zwei Zeitskalen zu kontrollieren. Und dies mit einem von Dopamin codierten Fehlersignal: Damit sich die Verbindungsstärken langfristig ändern können und sich die Reaktionsfähigkeit der Neuronen kurzfristig ändert.

Die dritte Idee ist, dass ein explizites Fehlersignal im Gehirn ein evolutionärer Zufall ist. Der Aufbau eines Systems zum Lernen aus Rückkopplungen ist mit einem expliziten Fehlersignal einfacher als mit Repräsentationen von Wahrscheinlichkeiten über eine Gruppe von Neuronen. Uralte Tiere hatten wahrscheinlich ein oder zwei Neuronen, die Dopamin oder etwas Ähnliches spritzen, um die Bewegung zu kontrollieren. Wir können viele Wirbellose mit nur ein paar tausend Neuronen finden, bei denen Dopamin die Bewegung verändert, indem es die Art und Weise ändert, wie Neuronen auf ihre Eingaben reagieren. Mit diesem Dopaminsystem bestand der Weg des geringsten Widerstands für die Evolution möglicherweise darin, dieses Rundfunksignal zu kooptieren, um die Kopplung zwischen Neuronen nach einem Fehler zu ändern. Dies scheint möglicherweise einfacher zu sein, als aus den gleichen groben Anfängen zunächst ein verteiltes System zur Darstellung von Informationen zu entwickeln, für das kein explizites Fehlersignal erforderlich ist.

Bei den Beiträgen der Theorie zur Neurowissenschaft geht es genauso darum, zu zeigen, was das Gehirn nicht oder nicht kann, wie was es kann. Ja, wenn wir eine beliebige Idee zulassen, ist dieser Raum praktisch unendlich: Theorien, die zeigen, dass das Gehirn kein Erdbeergelee als Neurotransmitter verwendet oder nicht mit der Rückseite eines Umschlags und einem stumpfen Stift rechnet, sind nicht nützlich.

Aber hier finden wir ein explizites Fehlersignal im Gehirn, das eine ganze Klasse von Möglichkeiten ausschließt, aus Rückkopplungen zu lernen, und einige davon einschränkt. Die Belohnungsvorhersage-Fehlertheorie von Dopamin sagt uns genau das, was sie nicht tut als was tut. Im Garten der Gabelpfade sollten wir uns über Hilfe freuen - und wenige Gartenpfade sind komplizierter als das Gehirn.

Mehr wollen? Folgen Sie uns bei The Spike

Twitter: @markdhumphries