Warum hat das Gehirn einen Belohnungsvorhersagefehler?

Dopamin und die Kunst des Feedbacks

Bildnachweis: Pixabay

Eine tiefe Erfolgsgeschichte der modernen Neurowissenschaften ist die Theorie, dass Dopamin-Neuronen einen Vorhersagefehler signalisieren, den Fehler zwischen der erwarteten Belohnung und der erhaltenen Belohnung.

Der Erfolg ist tiefgreifend. Es wurde durch konvergierende Beweise aus dem Abfeuern von Neuronen, der Freisetzung von Dopamin und dem bei fMRT beobachteten Blutfluss gestützt. Diese Beweise wurden für verschiedene Arten gesammelt, von Menschen, Affen, Ratten und Bienen. Es gibt sogar kausale Hinweise darauf, dass das Erzwingen des Feuers von Dopamin-Neuronen Fehlersignale im Gehirn sendet. Diese Auswirkungen können wir im Verhalten der Tiere sehen, mit deren Dopamin-Neuronen gespielt wird. Die Theorie überbrückt Daten von der Skala des menschlichen Verhaltens bis zur Ebene einzelner Neuronen. Im Gegensatz zu vielen Theorien für das Gehirn ist diese richtig rechnerisch und macht mehrere, nicht triviale Vorhersagen, die sich als wahr herausgestellt haben. Dopamin und Vorhersagefehler sind eng miteinander verbunden.

Diese enge Verbindung wirft jedoch eine größere, aber selten artikulierte Frage auf. Es ist durchaus möglich, ein Gehirn aufzubauen, das aus Fehlern lernt, ohne diesen Fehler im Gehirn explizit darzustellen. Warum hat das Gehirn überhaupt ein Fehlersignal für Belohnungen?

Um diese Frage zu verstehen, müssen wir zunächst ein wenig über die Vorhersagefehlertheorie selbst wissen. Die Theorie besagt, dass Dopamin-Neuronen auf unerwartet gute Dinge feuern. Wenn ich dir plötzlich auf die Schulter klopfe und dir eine Süßigkeit reiche, pingen deine Dopamin-Neuronen! für die süße.

Wenn ich Ihnen weiterhin auf die Schulter klopfe und Ihnen weiterhin eine Süßigkeit gebe, hören Ihre Dopamin-Neuronen auf, nach der Süßigkeit zu pingen - eine Süßigkeit zu bekommen ist großartig, aber es ist nicht länger unerwartet (und ehrlich gesagt möchten Sie lieber Ihren persönlichen Bereich respektieren a bisschen mehr). Stattdessen pingen die Dopamin-Neuronen! für den Wasserhahn selbst. Das ist das Schlaue: Das Neuron pingt! weil der Hahn auf der Schulter jetzt zuverlässig vorhersagt, dass eine Süßigkeit kommt (eine gute Sache), aber es ist unerwartet, weil Sie nicht wissen, wann der Hahn kommt - so wird der Hahn auf der Schulter die unerwartet gute Sache.

Die Theorie besagt auch, dass Dopamin-Neuronen wie Menschen zutiefst verärgert sind, wenn ihre Routinen verletzt werden. Nachdem ich dieses Vertrauensverhältnis aufgebaut habe - ich klopfe Ihnen wiederholt auf die Schulter und Sie bekommen zumindest eine Reihe von Süßigkeiten aus dieser Verletzung sozialer Normen -, was passiert, wenn ich Ihnen auf die Schulter klopfe und Ihnen dann keine Süßigkeit gebe? Ihre Dopamin-Neuronen werden dann vollständig abgeschaltet und hören für kurze Zeit auf zu feuern.

Kurz gesagt, Dopamin-Neuronen senden ein schnelles Signal, das alle drei möglichen Fehler bei der Vorhersage einer Belohnung abdeckt: dass die Belohnung besser als erwartet war (ein positiver Fehler); dass die Belohnung genau wie erwartet war (kein Fehler); oder dass die Belohnung geringer war als erwartet (ein negativer Fehler). Wir können all dies mit einem dieser von Wissenschaftlern geliebten quälenden Substantive kennzeichnen: Dopamin-Neuronen senden einen Belohnungsvorhersagefehler.

Diese Entsprechung zwischen Dopamin und „Belohnungsvorhersagefehler“ hat ihre Wurzeln im Zweig der KI, der als Verstärkungslernen bezeichnet wird (technisch gesehen ist es ein Zweig des maschinellen Lernens, aber da jetzt alles als KI bezeichnet wird, einschließlich eines FitBit, dessen ich mir ziemlich sicher bin ist nur ein Beschleunigungsmesser mit einem Riemen, dann ist es AI). Reinforcement Learning ist die Anhäufung von Algorithmen, mit denen gelernt werden kann, wie falsch oder richtig die eigenen Vorhersagen waren.

Alle klassischen Algorithmen des Verstärkungslernens haben ein explizites Signal für den Fehler bei der Vorhersage, wie wertvoll eine Wahl sein wird (wobei der Appell der Algorithmen Banditen, Lernen der zeitlichen Differenz, Q-Lernen, SARSA oder Schauspieler-Kritiker umfasst). Dies ist das Signal zwischen dem vorhergesagten Wert dessen, was als nächstes passiert, und dem tatsächlichen Wert dessen, was als nächstes passiert - wobei der Wert anhand des erwarteten Betrags der zukünftigen Belohnung gemessen wird. Die Magie des verstärkenden Lernens besteht darin, dass ein künstlicher Agent durch einfaches Minimieren dieses Fehlers zwischen dem vorhergesagten und dem tatsächlichen Wert jedes nächsten Dings auf der Welt bemerkenswert komplexe Abfolgen von Ereignissen lernen kann, z. B. das Navigieren durch eine Welt oder das Laufen.

Und dies ist der rechnerische Teil der Dopamin-Theorie: Die schnellen Reaktionen von Dopamin-Neuronen sind nur der Vorhersagefehler von Verstärkungslernalgorithmen. Dass sie der Fehler zwischen dem vorhergesagten und dem tatsächlichen Wert dessen sind, was als nächstes passiert. Und dass sie es gewohnt sind zu lernen. Der Schlüssel zu dieser Theorie ist nicht nur, dass die Dopamin-Neuronen den Unterschied zwischen der Belohnung und den Erwartungen signalisieren. Es ist so, dass sie dieses Signal auch auf unerwartete Dinge übertragen, die eine Belohnung vorhersagen, genau so, wie es Algorithmen für das Verstärkungslernen vorschreiben.

Dies bedeutet nicht, dass Dopamin-Neuronen nur diesen Vorhersagefehler codieren. Es gibt viele Nuancen, an denen Dopamin-Neuronen selbst interessiert sein könnten, eine Vielzahl von Dingen, die über Vorhersagefehler hinausgehen. Und tatsächlich sind Fehler bei der Vorhersage der Belohnung nur eine Teilmenge der möglichen Fehler bei der Vorhersage der Welt, die im Gehirn existieren könnten (eine Geschichte für das nächste Mal). Aber dass Dopamin-Neuronen einen Fehler bei der Vorhersage der Belohnung codieren, scheint ein fester Bestandteil ihrer Arbeit zu sein.

(Und diese vorgeschlagene Entsprechung zwischen der schnellen Reaktion von Dopamin-Neuronen und einem Vorhersagefehler gilt auch für ausgefeiltere Lernalgorithmen zur Verstärkung, wie die aufregende Wiederbelebung und Erweiterung von Peter Dayans Idee der „Nachfolgerdarstellung“ von Sam Gershman, Ida Momennejad, Kim Stachenfeld und Kollegen. Im Nachfolge-Repräsentationskonto gibt es nicht einen einfachen Fehler zwischen dem, was Sie vorhergesagt haben und dem, was Sie erhalten haben, sondern einen ganzen Fehlervektor über Vorhersagen für Änderungen an verschiedenen Merkmalen der Welt - einer davon ist Belohnung. Ein kürzlich veröffentlichtes Papier von Gershman und Kollegen zeigt, wie das Denken an die schnelle Reaktion von Dopamin-Neuronen als Summe dieser Fehler einige verwirrende jüngste Erkenntnisse über Dopamin-Neuronen erklären kann, die schnelle Signale an Veränderungen in der Welt senden, die nicht belohnt werden.)

Es bestand jedoch keine Notwendigkeit für diese Entsprechung zwischen Neuron und theoretischem Fehlersignal. Die Algorithmen des Verstärkungslernens basieren auf Beobachtungen des Tierverhaltens. Und sie können sehr erfolgreich sein: Tiere, einschließlich Menschen, verhalten sich oft wirklich so, als würden sie einen Vorhersagefehler als Belohnung verwenden, um etwas über die Welt zu lernen. Aber nur weil wir das Verhalten anhand eines Vorhersagefehlers über die Belohnung beschreiben können, folgt daraus nicht, dass es im Gehirn ein so explizites Fehlersignal geben muss

Denn es ist durchaus möglich, ein System zu konstruieren, das mithilfe von Feedback, das kein explizites Signal für den Fehler in seinen Vorhersagen enthält, etwas über die Welt lernt. Ein Beispiel für diese Systeme ist ein Bayes'scher Agent, der mehr über die Wahrscheinlichkeiten zukünftiger Dinge als über Gewissheiten erfährt.

Ein solcher Bayes'scher Agent könnte die Unsicherheit darüber darstellen, welchen Wert das Ergreifen von Maßnahme A haben wird. Diese Unsicherheit wird durch eine Wahrscheinlichkeitsverteilung - die wir P (Wert | Aktion A) schreiben könnten - für die möglichen Werte der Aktion A codiert. Beispielsweise besteht möglicherweise eine hohe Wahrscheinlichkeit, dass die Aktion A einen niedrigen Wert hat, und eine geringe Wahrscheinlichkeit, dass es einen hohen Wert haben wird; oder umgekehrt; oder etwas viel komplizierteres.

Wir versetzen unseren armen Bayesianischen Agenten in die langweiligste Welt, die man sich vorstellen kann. Sein ganzes Leben besteht darin, zu wählen, welchen von drei Hebeln er ziehen soll, um immer wieder eine Münze zu gewinnen. Da die Gewinnchancen für eine Münze zwischen den drei Hebeln unterschiedlich sind, muss der Agent herausfinden, welche er ziehen muss, um langfristig die meisten Münzen zu erhalten. Drei Hebel, also drei mögliche Aktionen, also drei entsprechende Wahrscheinlichkeitsverteilungen für den Wert jedes Hebels. In jeder Runde wählt der Agent einen Hebel, der auf diesen Wahrscheinlichkeitsverteilungen basiert - möglicherweise wählt er den Hebel aus, der derzeit die höchste Wahrscheinlichkeit für die größte Belohnung bietet - und sucht nach der Münze.

Münze oder nicht, der Agent verwendet das Ergebnis, um seine Wahrscheinlichkeitsverteilung zu aktualisieren. Eine Münze ist ein Beweis dafür, dass der Hebel gut ist, sodass der Agent die Wahrscheinlichkeit erhöht, dass das Ziehen des Hebels einen hohen Wert hat. Keine Münze ist ein Beweis dafür, dass der Hebel nicht gut ist, daher erhöht der Agent die Wahrscheinlichkeit, dass das Ziehen des Hebels einen niedrigen Wert hat. In beiden Fällen verfügt der Agent jetzt über mehr Informationen zu der von ihm ausgewählten Aktion, unabhängig davon, ob es sich um ein gutes oder ein schlechtes Ergebnis handelt. Die Wahrscheinlichkeitsverteilung für diese Aktion wird aktualisiert, um diese Informationen durch Ändern der Parameter der Verteilung widerzuspiegeln.

Es liegt kein Fehlersignal vor. Der Agent lernt aus dem Feedback über die Welt und kann sein Lernen verwenden, um Entscheidungen zu treffen, hat jedoch kein Vorhersagefehlersignal. Sicher, wir könnten eine konstruieren - indem wir die Differenz zwischen den Wahrscheinlichkeitsverteilungen vor und nach dem Eintreffen der Münze berechnen -, aber wir brauchen keine. Das Fehlersignal ist implizit.

Auch dies ist Verhalten, noch nicht das Gehirn. Aber viele glauben, dass das Gehirn die Welt mit Wahrscheinlichkeitsverteilungen repräsentiert; und es gibt plausible Theorien, wie Wahrscheinlichkeitsverteilungen unter Verwendung von Neuronen dargestellt und aktualisiert werden können. Diese laufen darauf hinaus, das Brennen der Population von Neuronen anzupassen, die eine Wahrscheinlichkeitsverteilung darstellen. Und Sie tun dies, indem Sie die Stärken der Eingaben an diese Neuronen anpassen (unabhängig davon, ob diese Eingaben innerhalb oder außerhalb der Bevölkerung stammen). Das Gehirn braucht also nur ein Signal darüber, ob eine Belohnung stattgefunden hat oder nicht, und verwendet dieses, um die Verbindungen anzupassen. Es wird kein kompliziertes Signal über den Fehler in Vorhersagen benötigt.

Ein Gehirn könnte also aus der Verstärkung mit oder ohne explizites Signal für Fehler bei der Vorhersage dieser Verstärkung lernen. Das Gehirn hat jedoch ein explizites Fehlersignal, das von Dopamin-Neuronen codiert wird. Was sagt uns das?

Ich denke, es sagt uns drei interessante Ideen, wie das Gehirn funktioniert. Ich denke - voll und ganz darauf vorbereitet, falsch zu liegen, und dass es ein wasserdichtes Argument dafür gibt, warum man kein Gehirn aufbauen kann, ohne ein explizites Signal für Fehler bei der Vorhersage der Belohnung.

Die erste Idee ist, dass die Existenz eines expliziten Fehlersignals die Existenz einer einfachen Darstellung der Welt im Gehirn impliziert. Eine sogenannte "modellfreie" Darstellung, die nicht jedes mögliche Ergebnis einer Aktion darstellt und wahrscheinlich auch nicht die Wahrscheinlichkeit verwendet. Eine schnell zugängliche Nachschlagetabelle mit den Werten von Aktionen, mit der Aktionen ausgewählt werden können, wenn die Zeit drängt oder die Welt sich nicht ändert. Wir haben bereits einige gute Ideen, wo solche Darstellungen im Gehirn leben. Und alle uns bekannten Formen solcher einfachen Darstellungen erfordern ein explizites Signal für den Fehler zwischen tatsächlichen und vorhergesagten Werten.

Eine zweite Idee ist, dass ein Konzept beim verstärkten Lernen tatsächlich zwei Prozesse im Gehirn sind. Das eine Konzept beim verstärkten Lernen besteht darin, dass Sie den Fehler in Ihrer Vorhersage verwenden, um Ihre Schätzung des Werts einer Aktion zu ändern. Warum sind diese beiden Prozesse im Gehirn? Weil das Gehirn möglicherweise kurzfristige und langfristige Änderungen der Schätzungen des Werts einer Aktion getrennt steuern möchte. Ein explizites Fehlersignal, das von Dopamin übertragen wird, ermöglicht beides mit einem Signal.

Um langfristige Änderungen zu erhalten, können wir unsere Schätzung des Werts einer Aktion anpassen, indem wir die Stärke der Verbindungen zu Neuronen, die diese Aktion darstellen, nach oben oder unten ändern. Wenn Sie unsere Wertschätzung auf diese Weise anpassen, ändert sich das langfristige Verhalten. Und es wird angenommen, dass das schnelle Dopaminsignal tatsächlich steuert, ob und in welche Richtung einige Verbindungen im Gehirn ihre Stärken ändern dürfen. Hier benötigen Sie das Vorzeichen des Fehlersignals, um den Verbindungen mitzuteilen, in welche Richtung sie sich ändern sollen.

Aber das Gehirn möchte nicht unbedingt jedes einzelne Feedback, das es erhält, um eine Verbindung zwischen Neuronen zu ändern. Das sperrt es in einen Pfad, von dem es schwierig sein könnte, sich zu erholen. Wenn wir versuchen, die Stärken dieser Verbindungen selbst zu ändern, indem wir die Eingaben in ein Neuron stimulieren, können sich einige von ihnen als bemerkenswert schwierig zu verschieben erweisen. Dies erhöht die Möglichkeit, dass das Gehirn kurzfristig seine Wetten absichern möchte, indem es seine Schätzungen des Werts einer Aktion ändert, ohne die Verbindungsstärken zu ändern. Und es kann dies tun, indem stattdessen geändert wird, wie die Neuronen auf ihre Eingaben reagieren. Wenn Sie die Wahrscheinlichkeit erhöhen, dass das Neuron für Aktion A feuert, haben Sie den vorhergesagten Wert erhöht. und umgekehrt. Ratet mal, welcher Sender im Gehirn hat viele hundert Artikel, die zeigen, dass er die Reaktionsfähigkeit von Neuronen verändert, die die Aktion steuern? Ja, Dopamin.

Zusammengenommen lautet das Argument hier, dass das explizite Fehlersignal existiert, damit das Gehirn Änderungen des vorhergesagten Werts auf zwei Zeitskalen steuern kann. Und tun Sie dies mit einem von Dopamin codierten Fehlersignal: um sowohl eine langfristige Änderung der Verbindungsstärken als auch eine kurzfristige Änderung der Reaktionsfähigkeit von Neuronen zu ermöglichen.

Die dritte Idee ist, dass ein explizites Fehlersignal im Gehirn ein evolutionärer Zufall ist. Der Aufbau eines Systems zum Lernen aus Rückmeldungen ist mit einem expliziten Fehlersignal einfacher als mit Darstellungen von Wahrscheinlichkeiten über eine Gruppe von Neuronen. Alte Tiere hatten wahrscheinlich ein oder zwei Neuronen, die Dopamin oder ähnliches als Teil ihrer Bewegungskontrolle spritzen. Wir können viele wirbellose Tiere mit nur wenigen tausend Neuronen finden, in denen Dopamin die Bewegung verändert, indem es die Art und Weise ändert, wie Neuronen auf ihre Eingaben reagieren. Mit diesem Dopaminsystem bestand der Weg des geringsten Widerstands für die Evolution möglicherweise darin, dieses Rundfunksignal zu kooptieren, um die Kopplung zwischen Neuronen nach einem Fehler zu ändern. Dies scheint möglicherweise einfacher zu sein, als aus den gleichen groben Anfängen heraus zuerst ein verteiltes System zur Darstellung von Informationen zu entwickeln, für die kein explizites Fehlersignal erforderlich ist.

In den Beiträgen der Theorie zur Neurowissenschaft geht es ebenso darum zu zeigen, was das Gehirn nicht kann oder nicht kann, wie was es kann. Ja, wenn wir eine willkürliche Idee zulassen, ist dieser Raum praktisch unendlich: Theorien, die zeigen, dass das Gehirn Erdbeergelee nicht als Neurotransmitter verwendet oder nicht mit der Rückseite eines Umschlags und einem stumpfen Stift berechnet, sind nicht nützlich.

Aber hier finden wir ein explizites Fehlersignal im Gehirn, das eine ganze Klasse von Methoden zum Lernen aus Rückmeldungen ausschließt und einige davon ausschließt. Die Belohnungsvorhersage-Fehlertheorie von Dopamin sagt uns ebenso viel darüber aus, was es nicht tut , wie was tut. Im Garten der Gabelpfade sollten wir uns über Hilfe freuen - und nur wenige Gartenpfade sind komplizierter als das Gehirn.

Mehr wollen? Folgen Sie uns bei The Spike

Twitter: @markdhumphries