OpenAIs neuer Ansatz für One-Shot-Imitationslernen, ein Blick in die Zukunft der KI

One-Shot-Imitation Lernen Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, Wojciech Zaremba

Am 16. Mai teilten OpenAI-Forscher ein Video eines ihrer Projekte zusammen mit zwei wichtigen Artikeln, in denen Lösungen für drei wichtige Engpässe der aktuellen KI-Entwicklung untersucht wurden: Meta-Learning, One-Shot-Learning und automatisierte Datengenerierung. In meinem vorherigen Beitrag habe ich einen Artikel versprochen, der sich dem faszinierenden Problem des One-Shot-Lernens widmet. Sie können beginnen, indem Sie sich das von ihnen veröffentlichte Video ansehen, das ihre erstaunliche Arbeit erklärt:

In diesem Video sehen Sie einen einarmigen physischen Roboter, der Würfel übereinander stapelt. Das Wissen um die komplexen Aufgaben, die Industrieroboter derzeit ausführen können, wäre in vielerlei Hinsicht sehr überwältigend, wenn der Forscher nicht versuchen würde zu erklären, was vor sich geht. In einer kontrollierten Umgebung ist die Aufgabe einfach, prozedurale (hartcodierte) Ansätze haben diese Probleme bereits gelöst. Vielversprechend und revolutionär ist, wie sehr sich der darunter liegende allgemeine Rahmen auf mehrere, komplexere und anpassungsfähigere Verhaltensweisen in lauteren Umgebungen skalieren lässt.

Der Unterschied zwischen dem Menschen und den höheren Tieren, so groß er auch ist, ist sicherlich gradueller und nicht gütiger Natur.
- Charles Darwin

In Analogie dazu ist dieser Artikel ein starker Beweis dafür, dass die Unterschiede in den kognitiven Systemen zwischen der derzeit verkörperten KI (künstliche Intelligenz physikalischer Systeme) und den Robotern des 22. Jahrhunderts maßstabsgetreu und nicht sachlich sein werden. Seit dem ImageNet-Wettbewerb 2012 * boomt die Deep-Learning-Forschung, nicht so sehr, um die Art der verteilten Berechnung eines neuronalen Netzwerks zu ändern, sondern um neue Wege zu finden, Netzwerke zu strukturieren, damit sie eine bestimmte Aufgabe lernen können. Für eine neuronale Netzwerkfunktion ist Struktur, diese Struktur ist nicht fest codiert (nicht von Hand entworfen), aber es sind die Ergebnisse von atomaren Recheneinheiten, die anfänglich zwischen Ein- und Ausgängen verbunden sind, die in der Lage sind, ihre Struktur und Verbindungen zu modifizieren. Durch Ändern der Gesamtstruktur des Netzwerks lernt es eine bestimmte Funktion.

In diesem Artikel bauten sie ein allgemeines Framework auf, mit dem ein Agent geschult werden kann, Aufgaben auf abstrakte Weise darzustellen, und lernen, dieses Wissen nach nur einer Demonstration der neuartigen Aufgabe (One-Shot-Imitation-Lernen) auf neue unsichtbare Aufgaben zu übertragen (Transfer-Lernen).

Die Aufgaben

Obwohl sich die genaue Implementierung der Architektur unterscheidet, nehmen sie zwei Aufgaben als Beispiele, um die Leistung des allgemeinen Ansatzes zu zeigen.

Partikel erreichen

Im ersten Beispiel empfängt das System Eingaben von farbigen Zielpositionen in einer Ebene und eine einzelne Videodemonstration des simulierten Agenten, der zum angegebenen Ziel geht.

Abbildung 2. Der Roboter ist eine Punktmasse, die mit zweidimensionaler Kraft gesteuert wird. Die Aufgabenfamilie besteht darin, eine Zielmarke zu erreichen. Die Identität des Orientierungspunkts unterscheidet sich von Aufgabe zu Aufgabe, und das Modell muss anhand der Demonstration herausfinden, welches Ziel verfolgt werden soll. (links) Darstellung des Roboters; (Mitte) Die Aufgabe besteht darin, das orangefarbene Kästchen zu erreichen. (Rechts) Die Aufgabe besteht darin, das grüne Dreieck zu erreichen.

Während des Trainings muss das System dieselbe Aufgabe reproduzieren (orange erreichen), jedoch aus einer anderen Konfiguration mit unterschiedlichen Startpositionen für den Roboter und die Ziele. Es ist nicht klar, ob der Agent während des Tests auf eine Aufgabe getestet wird, für die er geschult wurde (Reichweite orange) oder auf eine Aufgabe, die er noch nie zuvor gesehen hat (z. B. grün erreichen) oder auf beides.

Die trainierte Richtlinie wird anhand neuer Szenarien bewertet und von neuen Demonstrationsverläufen abhängig gemacht, die während des Trainings nicht sichtbar sind.

Es ist sicher, dass der Agent das Ziel aus einer eindeutigen Demonstration ableiten und erneut von einer anderen Konfiguration ausgehen muss. Dies impliziert, dass die genaue Motorsequenz vor dem Testen nicht gelernt werden konnte und durch Abstraktion (übergeordnete strukturierte Darstellung) der Aufgabe und Motorplanung abgeleitet werden muss.

Blockstapelung

Im zweiten Beispiel muss der Agent lernen, Würfel (gekennzeichnet durch verschiedene Farben) in derselben Reihenfolge zu stapeln, wie sie in einer einzelnen simulierten Demonstration gezeigt wurde. Diese simulierte Demonstration ist eine Reihe von 2D-Bildern, die von einer 3D-Physik-Engine erstellt wurden und in denen die Eigenschaften des Motors und der Sensorapparate der Roboter modelliert werden.

One-Shot-Politik. Eine einzige Richtlinie, die darauf trainiert ist, viele Aufgaben zu lösen. Obere Aufgabe: {abc, def}, Untere Aufgabe: {ab, cd, ef}

In beiden Beispielen sind die Anfangspositionen der Würfel in der Demonstration und im realen Test unterschiedlich. Jede Aufgabe beginnt an einer anderen Anfangsposition. Der Roboter versucht nicht, die Würfel zu ersetzen, um sie an die Ausgangsposition der Demonstration anzupassen, sondern überträgt die übergeordnete Aufgabe, den Würfel zu stapeln, unabhängig davon, in welchem ​​Zustand er beginnt.

Training mit Domain-Randomisierung

In beiden Fällen werden alle während des Trainings verwendeten Bilder durch Simulation unter Verwendung einer Domänen-Randomisierung erhalten, bei der die folgenden Aspekte der Stichproben randomisiert werden:

Anzahl und Form der Ablenkungsobjekte auf dem Tisch Position und Textur aller Objekte auf dem Tisch Texturen des Tisches, des Bodens, der Skybox und des Roboters Position, Ausrichtung und Sichtfeld der Kamera Anzahl der Lichter in der Szene Position, Ausrichtung, und Spiegeleigenschaften der Lichter Art und Menge des zufälligen Rauschens, das den Bildern hinzugefügt wird

Trainingsset für das Erreichen von Partikeln

Wir betrachten eine zunehmend schwierige Gruppe von Aufgabenfamilien, bei denen die Anzahl der Orientierungspunkte von 2 auf 10 steigt. Für jede Aufgabenfamilie sammeln wir 10000 Trajektorien für das Training, bei denen die Positionen der Orientierungspunkte und die Startposition des Punktroboters zufällig ausgewählt werden. Wir verwenden eine fest codierte Expertenrichtlinie, um Demonstrationen effizient zu generieren. Wir fügen den Trajektorien Rauschen hinzu, indem wir die berechneten Aktionen stören, bevor sie auf die Umgebung angewendet werden, und wir verwenden einfaches Klonen von Verhalten, um die Richtlinie für neuronale Netze zu trainieren

Trainingsset zum Blockstapeln

Konkret erfassen wir 140 Trainingsaufgaben und 43 Testaufgaben mit jeweils unterschiedlichem gewünschten Layout der Blöcke. Die Anzahl der Blöcke in jeder Aufgabe kann zwischen 2 und 10 variieren. Wir erfassen 1000 Trajektorien pro Aufgabe für das Training und verwalten einen separaten Satz von Trajektorien und Anfangskonfigurationen, die für die Bewertung verwendet werden sollen. Ähnlich wie bei der Partikelerreichungsaufgabe injizieren wir Rauschen in den Trajektorienerfassungsprozess. Die Trajektorien werden mithilfe einer fest codierten Richtlinie erfasst.

Erfolgreiche Demonstrationen werden mithilfe einer fest codierten Richtlinie gesammelt

Beachten Sie, dass beim Lernen die richtigen Trajektorien durch eine prozedurale „fest codierte“ Richtlinie generiert werden, die meiner Meinung nach auf klassischen Techniken zur Systemidentifizierung und -steuerung beruht. Während des Trainings und Testens hat der Agent zwei Eingaben: a) eine Demonstration in einer Konfiguration A und b) eine Startkonfiguration B. Nur während des Trainings hat der Lernalgorithmus auch Zugriff auf eine ideale Antwort: eine Trajektorie ab Konfiguration B, die beantwortet das Problem und mit dem die Antwort des Agenten während des Lernens verglichen wird - was es zu einem überwachten Lernproblem macht.

Für jede Schulungsaufgabe setzen wir die Verfügbarkeit einer Reihe erfolgreicher Demonstrationen voraus.

Wenn es nicht klar ist, werde ich im nächsten Abschnitt auf die Unterschiede zwischen den verschiedenen Arten von Lernparadigmen eingehen.

Optimierungsalgorithmus und Verlustfunktion

Überwachtes Lernen bezieht sich auf Trainingsparadigmen, bei denen das Netzwerk bei jeder Entscheidung Zugriff auf die richtige Wahl hat, die es hätte treffen sollen, und damit auf einen Fehlerbegriff. Beispielsweise ist bei einer Klassifizierungsaufgabe zwischen Hunden und Katzen die Beschriftung von Bildern von Hunden und Katzen während des Trainings im Voraus bekannt und die Fehler werden sofort erkannt. In diesem Sinne unterscheidet es sich vom unbeaufsichtigten Lernen, bei dem der Agent im Allgemeinen aufgefordert wird, eine zuvor unbekannte Struktur in den Eingaben zu finden, die er erhält, und ohne Kennzeichnungen von Katzen und Hunden feststellen müsste, dass es zwei Cluster unterschiedlicher Objekte gibt, die nur auf basieren die in den Daten enthaltenen Informationen. Es unterscheidet sich auch vom Reinforcement Learning, das häufig für Echtzeitsysteme gilt, bei denen die genaue Reihenfolge der Entscheidungen, die zu einem Ziel führen, unbekannt ist, aber nur eine endgültige „Belohnung“ entscheidet, ob die Reihenfolge korrekt war oder nicht. Durch Nachahmungslernen verwandeln sie ein klassisches Problem des verstärkten Lernens in ein überwachtes Lernproblem, bei dem der Fehler aus der Entfernung zu einer beobachteten Flugbahn berechnet wird.

Wie bei jedem überwachten Trainingsaufbau wird die vorliegende Aufgabe vollständig durch die Verlustfunktion definiert, mit der quantifiziert werden soll, wie weit der Agent vom beabsichtigten Verhalten entfernt war. Die Definition dieser Funktion ist häufig der entscheidende Schritt, da sie bestimmt, wie die Optimierungsalgorithmen die Parameter des Modells aktualisieren. Diese Algorithmen sind im Hinblick auf die Rechenzeit von Bedeutung und erfordern häufig einige Anpassungen, um, wenn überhaupt, konvergieren zu können. In der Tat befinden sich die Lösungen, die die Funktion in sehr hohen Dimensionen minimieren, in einer sehr kleinen Hülle des Parameterraums mit einem kleinen Hamming-Abstand zwischen ihnen, sobald Sie diesen kleinen Bereich verlassen, wächst der Abstand zwischen den Lösungen schnell. Es gibt eine Menge sehr interessanter Arbeiten zu diesem Thema, die unter anderem von der sehr erstaunlichen Jennifer Chayes gemacht wurden. Sie behandelt das Thema in einem sehr interessanten Interview über die letzte Episode von Talking Machines.

Während des Trainings der Richtliniennetzwerke (das gesamte Netzwerk kann anhand der Eingabe entscheiden, welche Maßnahmen ergriffen werden sollen) verarbeiten sie zunächst den erfolgreichen Demonstrationsverlauf. In diesem Teil werden zwei Ansätze verglichen, das klassische Klonen von Verhalten (nicht genau sicher, welche Implementierung sie verwendet haben) und die DAGGER-Algorithmen. Dies ermöglicht dann die iterative Minimierung der Verlustfunktion entweder durch 12 oder durch Kreuzentropieverlust, basierend darauf, ob Aktionen kontinuierlich oder diskret sind (basierend auf Verteilungen von Ereignissen in der Sequenz). Bei allen Experimenten verwendeten sie den Adamax-Algorithmus, um die Optimierung mit einer Lernrate von 0,001 durchzuführen.

Die Schrittgröße beginnt klein und nimmt exponentiell ab.

Der Algorithmus an sich erlaubt keine Übertragung. Auf diese Weise erstellen Sie Ihren Trainingssatz und Ihre Verlustfunktion, die eine Übertragung ermöglichen.

In den Aufgaben gibt es zwei Arten der Übertragung. Die erste Art wird als „Überbrückung der Realitätslücke“ bezeichnet. Sie ist eine Verallgemeinerung des Lernens, die den Transfer zwischen dem Training simulierter Eingaben und dem Testen natürlicher Reize ermöglicht. Simulationsdaten sind oft eine verarmte Annäherung an die reale Welt, zu perfekt, ohne die Komplexität des realen Objekts. In der realen Welt ist die Kamera möglicherweise fehlerhaft und lauter, die Motorsteuerung ist weniger präzise, ​​die Farben ändern sich, die Texturen sind reicher usw. Um diese erste Übertragung zu ermöglichen, verwenden sie eine Methode, die sie als "Domain Randomization" bezeichnen. : Durch Hinzufügen von Rauschen zu den Eingängen kann das Netzwerk die gemeinsame relevante Struktur lernen, die es ihm ermöglicht, sich angemessen auf die reale Welt zu verallgemeinern. Sie ändern beispielsweise den Winkel der Kamera zwischen Trainingsbeispielen, ändern die Texturen oder machen die Flugbahnen weniger perfekt. Durch Hinzufügen von Lärm während des Trainings erhöhen wir die Robustheit.

Die zweite hier getestete Übertragung ist die Fähigkeit, eine relevante Motorsequenz in einem zuvor nicht sichtbaren Satz von Konfiguration und Ziel zu erzeugen, basierend auf einer einzelnen Demonstration, die in einer anderen Anfangskonfiguration beginnt, aber ein ähnliches Endziel aufweist. Auch hier wird die Übertragung dadurch ermöglicht, wie wir den Trainingssatz konstruieren und die Verlustfunktion modellieren. Indem Sie während des Trainings Demonstrationen präsentieren, die nicht von derselben Ausgangsbedingung ausgehen, um ein ähnliches Ziel zu erreichen, ermöglichen Sie dem Netzwerk, zu lernen, eine übergeordnete Darstellung des Ziels einzubetten, ohne absolute Positionen zu verwenden, sowie eine Darstellung höherer Ordnung von die Motorsequenz, die keine einfache Nachahmung ist. Die naive Anfangsarchitektur ermöglicht es dem Training, die Struktur auf relevante Weise zu modifizieren, und diese trainierte Struktur impliziert die endgültige Funktion.

Ziele

Für das Blockstapel-Paradigma hatten sie mehrere Einschränkungen, die ihr Lernagent erfüllen sollte.

Es sollte einfach sein, auf Aufgabeninstanzen mit unterschiedlicher Anzahl von Blöcken anzuwenden.
Es sollte natürlich auf verschiedene Permutationen derselben Aufgabe verallgemeinern. Beispielsweise sollte die Richtlinie für Aufgabe {dcba} eine gute Leistung erbringen, selbst wenn sie nur für Aufgabe {abcd} trainiert wird.
Es sollte Demonstrationen mit variabler Länge aufnehmen.

Sie hatten mehrere Fragen, die sie für diese Aufgabe beantworten wollten.

Wie ist das Training mit Verhaltensklonen mit DAGGER zu vergleichen, da ausreichend Daten offline gesammelt werden können?
Wie ist die Konditionierung der gesamten Demonstration mit der Konditionierung der endgültigen gewünschten Konfiguration zu vergleichen, selbst wenn die endgültige Konfiguration über genügend Informationen verfügt, um die Aufgabe vollständig zu spezifizieren?
Wie lässt sich die Konditionierung der gesamten Demonstration mit der Konditionierung eines „Schnappschusses“ der Flugbahn vergleichen, bei der es sich um eine kleine Teilmenge von Frames handelt, die am aussagekräftigsten sind?
Kann unser Framework erfolgreich auf Arten von Aufgaben verallgemeinern, die es während des Trainings noch nie gesehen hat? (++)
Was sind die aktuellen Einschränkungen der Methode?

Die Architektur

Partikel erreichen

In diesem ersten Beispiel wurden drei Architekturen verglichen, die alle auf neuronalen LSTM-Netzen (Long Short Term Memory) basieren. Eine Beschreibung dieses Netzwerks wird in einem zukünftigen Beitrag über Gedächtnis und Aufmerksamkeit veröffentlicht, die sowohl in den Kognitions- als auch in den Computerwissenschaften absolut faszinierende Themen sind. Im Wesentlichen speist ein LSTM frühere Netzwerkausgaben (zeitlich) als Teil der Eingabe des Netzwerks zu jedem neuen Zeitpunkt ein, wodurch Informationen über vergangene Zustände die Gegenwart informieren können (daher der Name von Kurzzeitgedächtnisnetzwerken). Sie sind die Wurzel vieler modernster Technologien für Zeitreihen (Alexa, Siri usw.).

Hier verwenden sie diese drei spezifischen Bedingungen:

  1. Normales LSTM: Lernt, die Flugbahn und den aktuellen Zustand einzubetten, um sie einem mehrschichtigen Perzeptron zuzuführen, das die motorische Aktion erzeugt
  2. LSTM mit Aufmerksamkeit: Erstellen Sie eine gewichtete Darstellung über Orientierungspunkten der Flugbahn
  3. Endzustand mit Aufmerksamkeit: Verwenden Sie beim Training nur den Endzustand, um eine Gewichtung über Orientierungspunkten zu erzeugen, ähnlich wie bei der vorherigen Architektur

Blockstapelung

Während ein generisches neuronales Netzwerk im Prinzip die Zuordnung von Demonstration und aktueller Beobachtung zu geeigneten Maßnahmen lernen könnte, fanden wir es wichtig, eine geeignete Architektur zu verwenden. Unsere Architektur zum Lernen des Blockstapelns ist einer der Hauptbeiträge dieses Papiers, und wir glauben, dass sie repräsentativ dafür ist, wie Architekturen für das One-Shot-Imitationslernen komplexerer Aufgaben in Zukunft aussehen könnten.

Aufmerksamkeitsmodule

Der Artikel beschreibt die Struktur der Netzwerke, die zum Erlernen der Aufgabe verwendet werden, auf relativ hohem Niveau. Ein wesentlicher Bestandteil der Architektur ist ihr Aufmerksamkeitsmodul, aber ich glaube, dass dieses Thema einen bestimmten Beitrag benötigt, um sich eingehend mit seiner wesentlichen Rolle zu befassen. In Analogie zum kognitionswissenschaftlichen Konzept der anhaltenden Aufmerksamkeit werden Aufmerksamkeitsmodule verwendet, um relevante Informationen zu behalten und sich auf sie zu konzentrieren, die über verschiedene Bereiche von Raum und Zeit hinweg enthalten sind. Es wird eine Ausgabe mit fester Größe erstellt, die eine Einbettung eines Informationsinhalts enthält, der zeitlich und räumlich gestreckt wurde. In Analogie zur Topologie, einem Zweig der Mathematik, von dem ich glaube, dass er einen großen Einfluss darauf hat, wie wir verteilte Darstellungen in Zukunft verstehen, führt ein Aufmerksamkeitsnetzwerk einen topologischen Isomorphismus von Informationen durch, dieselbe Krümmung, unterschiedliche Form. Beachten Sie, dass diese Netzwerke keine Rolle als Ausprägungsdetektor spielen, der sich auf unerwartete oder seltene Ereignisse konzentrieren kann. Dies ist eine Funktion, die mit dem Begriff der Aufmerksamkeit in den Neurowissenschaften verbunden ist.

Hier verwenden sie zwei Arten von Aufmerksamkeitsnetzwerken: a) ein zeitliches Aufmerksamkeitsnetzwerk, das eine gewichtete Summe über den im Speicher gespeicherten Inhalt (Abfrage-, Kontext- und Speichervektoren) erzeugt, und b) ein Nachbarschaftsaufmerksamkeitsnetzwerk, das Informationen relativ zum Block wiederherstellen kann Positionen abhängig von der aktuellen Abfrage des Agenten.

Zeitliches Aufmerksamkeitsnetzwerk mit c: Kontextvektor, m: Speichervektor, q: Abfragevektor, v: erlerntes Vektorgewicht. Die Ausgabe hat die gleiche Größe wie der Speichervektor. Es ist eine lineare Kombination dieser Vektoren, die es einem Speichervektor ermöglicht, basierend auf den Kontext- und Abfragevektoren mehr Einfluss auf die Ausgabe zu haben.Die gleiche Idee hier ist, dass der Wettbewerb zwischen räumlichen Informationen durch das Aufmerksamkeitssystem dynamisch aufrechterhalten wird.

Das Richtliniennetzwerk

Das gesamte Netzwerk besteht aus drei verschiedenen Teilnetzwerken: dem Demonstrationsnetzwerk, dem Kontextnetzwerk und dem Manipulationsnetzwerk.

Das Demonstrationsnetzwerk empfängt eine Demonstrationstrajektorie als Eingabe und erstellt eine Einbettung der Demonstration, die von der Richtlinie verwendet werden soll. Die Größe dieser Einbettung wächst linear in Abhängigkeit von der Länge der Demonstration sowie der Anzahl der Blöcke in der Umgebung.

Wie hier gezeigt, kann das Demonstrationsnetzwerk Demonstrationen unterschiedlicher Komplexität und Größe in ein gemeinsames Format einbetten, das vom Kontextnetzwerk zur Darstellung der Aufgabe verwendet wird. Wahrscheinlich tritt bereits auf dieser Ebene eine Verallgemeinerung auf. Bei der Einbettung der Demonstration sollten Informationen über die genaue Flugbahn und die absoluten Würfelpositionen, die während der Demonstrationen gesehen wurden, weggelassen werden.

Wenn wir die Struktur des Kontextnetzwerks betrachten, sehen wir, obwohl von einer sehr hohen Ebene, die Schnittstelle zum Demonstrationsnetzwerk, die eine Einbettung der Demonstration in die zentralen zeitlichen Aufmerksamkeitsmodule einspeist. Wir sehen auch, dass frühere Aktionen (LSTM) und der aktuelle Status als Eingabe mit der Demonstrationseinbettung verknüpft werden, um eine globale Kontexteinbettung zu erzeugen, die an das Motornetzwerk gesendet wird.

Ihre Beschreibung der Netzwerkfunktion ist meiner Meinung nach der wichtigste Teil des Papiers:

Das Kontextnetzwerk beginnt mit der Berechnung eines Abfragevektors als Funktion des aktuellen Status, der dann verwendet wird, um die verschiedenen Zeitschritte in der Demonstrationseinbettung zu verfolgen. Die Aufmerksamkeitsgewichte über verschiedene Blöcke innerhalb desselben Zeitschritts werden summiert, um ein einzelnes Gewicht pro Zeitschritt zu erzeugen. Das Ergebnis dieser zeitlichen Aufmerksamkeit ist ein Vektor, dessen Größe proportional zur Anzahl der Blöcke in der Umgebung ist. Wir wenden dann die Aufmerksamkeit der Nachbarschaft an, um die Informationen über die Einbettungen jedes Blocks zu verbreiten. Dieser Vorgang wird mehrmals wiederholt, wobei der Status mithilfe einer LSTM-Zelle mit nicht gebundenen Gewichten erweitert wird.
Die vorherige Abfolge von Operationen erzeugt eine Einbettung, deren Größe unabhängig von der Länge der Demonstration ist, aber immer noch von der Anzahl der Blöcke abhängt. Wir wenden dann weiche Standardaufmerksamkeit an, um festdimensionale Vektoren zu erzeugen, bei denen der Speicherinhalt nur aus Positionen jedes Blocks besteht, die zusammen mit dem Zustand des Roboters die Eingabe bilden, die an das Manipulationsnetzwerk übergeben wird.
Obwohl die Anzahl der Objekte in der Umgebung variieren kann, ist die Anzahl der relevanten Objekte in jeder Phase des Manipulationsvorgangs intuitiv gering und normalerweise fest. Speziell für die Blockstapelumgebung sollte der Roboter nur auf die Position des Blocks achten müssen, den er aufnehmen möchte (den Quellblock), sowie auf die Position des Blocks, auf den er zu setzen versucht ( der Zielblock). Daher kann ein ordnungsgemäß trainiertes Netzwerk lernen, den aktuellen Status mit der entsprechenden Phase in der Demonstration abzugleichen und die Identitäten der Quell- und Zielblöcke, ausgedrückt als weiche Aufmerksamkeitsgewichte, über verschiedene Blöcke abzuleiten, die dann verwendet werden, um die entsprechenden Positionen zu extrahieren an das Manipulationsnetzwerk übergeben werden.

Die Art und Weise, wie sie ihre Beschreibung beenden, ist ein perfektes Beispiel für die derzeitige Abwanderung der KI-Forschung von einem Expertensystemansatz zu einem Lernsystemansatz und weist auch auf die Diskussion darüber hin, wie sich das Gehirn im Folgenden entwickelt hat.

Obwohl wir diese Interpretation im Training nicht durchsetzen, unterstützt unsere Experimentanalyse diese Interpretation der internen Funktionsweise der erlernten Richtlinie.

Sie wissen nicht, wie es funktioniert! Sie bauen eine Struktur auf, die in der Lage ist, bestimmte Berechnungen durchzuführen und bestimmte Informationen zu speichern, die wir für a priori nützlich halten, und geben ihr ein Trainingsset, in der Hoffnung, dass die gesamte Struktur lernen wird! Es gibt eine Art Forschungsvoodoo für künstliche Intelligenz auf dem Vormarsch, eine Kunst, eine Möglichkeit, die heuristische Suche in die richtige Richtung zu lenken. Und es scheint, dass viele dieser Zauberer jetzt für openAI arbeiten.

In ihren eigenen Worten ist das Manipulationsnetzwerk die einfachste Struktur. Aus der dem mehrschichtigen Perzeptron zugeführten Kontexteinbettung wird eine motorische Aktion erzeugt.

Ergebnisse

Ergebnisse sind oft ein Teil, für den ich wenig Interesse habe, insbesondere für diese Art von erstaunlich brillanten technischen Papieren. Ich werde schnell gehen, unter dem Strich funktioniert dieser Ansatz mit einer Genauigkeit, die den hartcodierten Expertenrichtlinien ähnelt, und ist im Gegensatz zu diesem spezifischen prozeduralen Ansatz auf eine Vielzahl von Aufgaben verallgemeinerbar.

Partikel erreichen

Blockstapelung

In diesen Experimenten testeten sie auch verschiedene Bedingungen. Mit DAGGER verglichen sie drei verschiedene Eingabebedingungen, indem sie die demonstrierte Trajektorie herunterabtasteten: vollständige Trajektorien, Momentaufnahme der Trajektorie oder nur unter Verwendung des Endzustands. Sie verglichen auch den Behavioral Cloning-Algorithmus mit der vollständigen Flugbahn der Demonstration.

Ein starker Beweis für die Fähigkeit des Systems, die Identität von Würfeln zu verallgemeinern

Diskussion

Wenn ich die schnellen Fortschritte von OpenAI in den letzten Monaten lese, verspüre ich einen wachsenden Drang, über ihre Arbeit zu sprechen und meine Gedanken darüber zu teilen, was ich für ihre Arbeit halte, und die Fortschritte auf dem Gebiet der KI als Ganzes, die unser Verständnis davon beeinflussen, wie biologische Gehirne arbeiten. Insbesondere diese wachsende Vorstellung, dass die scheinbar gemeinsamen kognitiven Funktionen zwischen Menschen nicht so sehr auf einer gemeinsamen Struktur beruhen, die von Natur aus weiß, wie man eine Aufgabe ausführt, sondern vielmehr auf relativ ähnlichen naiven Strukturen beruht, die mit derselben Umgebung konfrontiert sind. lernen, ähnliche Aufgaben auszuführen. Die Funktion ist das Ergebnis einer funktionslosen Struktur, die nur aufgrund einer bestimmten Umgebung eine bestimmte Aufgabe lernen kann, und nicht einer Struktur, die die Aufgabe nativ ausführen kann. Sie muss lediglich einige Parameter anpassen, um sie an die Umgebung anzupassen.

Aufgaben versus Konfigurationen: eine scheinbar willkürliche Definition

Ich muss zugeben, dass ich nicht verstehe, warum sie sich entschieden haben, über verschiedene Aufgaben so zu sprechen, wie sie es getan haben. Eine Aufgabe wird im Blockstapelexperiment als ein Satz von Zeichenfolgen definiert, die die Position von Blöcken relativ zueinander darstellen. Die Anzahl der Elemente in dem Satz definiert die Anzahl der Stapel und die Anzahl der Zeichen die Anzahl der Blöcke, die angeordnet werden müssen . Eine Aufgabe ist dann eine Anordnung von Blöcken in Stapeln unabhängig von der absoluten Position des Stapels.

Einige Blöcke befinden sich möglicherweise auf dem Tisch, sind jedoch nicht Teil der Aufgabe

Ihre Wahl, die relative Position und Anzahl der Stapel als Kriterien für eine separate Aufgabe zu definieren, scheint willkürlich. In der Tat könnte es auch sinnvoll sein, über verschiedene Aufgaben zu sprechen, die auf den absoluten Startpositionen der Blöcke basieren (was sie als Konfiguration bezeichnen). Ich glaube, die Gemeinsamkeit des Problems ist für sie offensichtlich, aber aus Gründen der Klarheit ziehen sie es vor, nicht auf die Details einzugehen. Es ist sinnvoller, das politische Lernen als zwei Arten von Verallgemeinerungen zu definieren, wie sie es später tun:

Beachten Sie, dass die Verallgemeinerung auf mehreren Ebenen bewertet wird: Die erlernte Richtlinie muss nicht nur auf neue Konfigurationen und neue Demonstrationen bereits gesehener Aufgaben verallgemeinern, sondern auch auf neue Aufgaben verallgemeinern.

Ersetzen Sie einfach "Aufgaben" durch "Stapelbestellungen". Um die Aufgabe richtig zu lernen, lernt der Agent eine Einbettung, die in der Lage ist, die Position der Würfel (Konfiguration), aber auch ihre Identität (Aufgabe), die Anzahl der Stapel (Aufgabe) und den Verlauf der Demonstration (kurz vorgestellt in) zu abstrahieren das Zitat), um eine relevante Motorreaktion zu erzeugen.

Diese Verallgemeinerungen scheinen widersprüchlich. Wie kann dasselbe Netzwerk die ursprüngliche Konfiguration des Würfels oder seine Identität abstrahieren und dennoch ihre absolute Position für die motorische Reaktion wiederherstellen?

Dies erklärt die Notwendigkeit unterschiedlicher kooperativer Teilnetze während des Lernens und des Empfangs unterschiedlicher Eingaben und erklärt, dass im Kontextnetzwerk eine abstrakte Darstellung der Aufgabe vor dem absteigenden Befehl Informationen niedrigerer Ordnung wie absolute Würfelpositionen eingespeist wird.

Sie mögen denken, dass es dumm ist, diese Unterscheidung zwischen Aufgabe und Konfiguration zu kommentieren, aber es ist wichtig zu verstehen, dass es sich im Wesentlichen um denselben Abstraktionsprozess handelt, der für verschiedene Objekte ausgeführt wird (und dies wird für den folgenden Abschnitt geöffnet).

Ohne Invarianz gibt es kein Lernen

Transferlernen ist vielleicht das faszinierendste Konzept der Erkenntnis, sei es in silico oder in vivo, es ist ein sehr heißes Thema sowohl für KI-Forscher als auch für Neurowissenschaftler und es ist zufällig Gegenstand meiner Doktorarbeit. Beachten Sie, dass eng verwandte Konzepte vor dem maschinellen Lernen in vielen Bereichen untersucht wurden und dieses abstrakte und immer teilweise definierte Konzept viele Namen hat. Philosophen, Anthropologen und Soziologen könnten es als (Post-) Strukturalismus bezeichnen (Claude Levi-Strauss, Michel Foucault), Linguist wird über Syntagma- und verschachtelte Baumstrukturen (Noam Chomsky) sprechen, Mathematiker werden wahrscheinlich an Homöomorphismus oder Invarianten denken, und Bildung Forscher oder Neurowissenschaftler können es als strukturelles Lernen bezeichnen. Möglicherweise sehen Sie auch verwandte Konzepte im Bereich des maschinellen Lernens wie Repräsentationslernen und Meta-Lernen, die sich je nach Autor auf das Transferlernen oder das Lernparadigma beziehen, das zur Durchführung des Transferlernens verwendet wird. Wenn es um tiefe neuronale Netze geht, verschwimmen diese Unterschiede, da ein neuronales Netz im Wesentlichen lernt, ein bestimmtes Problem einzubetten (Repräsentationslernen), indem es seine Struktur (Meta-Lernen) ändert, normalerweise in einer lauten Umgebung, die eine Form des Transferlernens impliziert.

KI-Forscher und Kognitionswissenschaftler haben oft eine sehr konkrete Definition des Transferlernens. Dieser Prozess ermöglicht es einem System, das in einer bestimmten Aufgabe erworbene Wissen zu verwenden, um eine andere Aufgabe auszuführen, die eine gemeinsame Kompositionsstruktur aufweist (wie im Artikel beschrieben). Die Kognitionswissenschaft hat diesen Begriff des Nah- und Ferntransfers, je nachdem, wie sich die beiden Aufgaben zu unterscheiden scheinen. Aus einer abstrakteren Perspektive ist in einer lauten und komplexen Umgebung alles Lernen eine Form des Transferlernens, und der Unterschied zwischen sehr nahem und sehr fernem Transfer ist nur eine Frage gemeinsamer Informationen - wiederum eine Frage des Maßstabs und nicht der Natur.

In einer kontrollierten Umgebung werden zuvor Anstrengungen unternommen, um eine hartcodierte Diskretisierung der Realität aufzubauen. Tatsächlich reproduziert diese Diskretisierung jedoch prozedural, was Transferlernen bewirkt, und vereint eine unendliche Menge von Zuständen, die in der Realität unter einer gemeinsamen umschließenden Struktur zu finden sind. Im Wesentlichen bezieht sich Transfer Learning direkt oder durch Erweiterung auf den Prozess, durch den Lernagenten Invarianten verwenden, um Modelle der Welt zu erstellen. Es ist ein Prozess, der Ähnlichkeiten, Wiederholungen und Variationen derselben verwendet, um eine zunehmend abstrakte und zusammengesetzte Darstellung zu bilden, die Ensembles über die Varianzspanne durch die Eingabe strukturiert. Im Allgemeinen erlaubt es, die grundlegenden Operationen zu erstellen, durch die wir Informationsgruppen manipulieren, ähnlich wie in der Mathematik, dass es Vereinigungen und Schnittpunkte ermöglicht. Es erlaubt Identitäten, es erklärt unsere Fähigkeit, Objekte zu kategorisieren. Josh Tenembaum gibt ein Beispiel, das mich wirklich angesprochen hat: Stellen Sie sich vor, Sie bringen einem zweijährigen Kind bei, ein Pferd zum ersten Mal zu erkennen, Sie zeigen ihm ein paar Bilder von verschiedenen Pferden und dann zeigen Sie ihm das Bild eines anderen Pferdes und das Bild eines Hauses und bitten Sie ihn, Ihnen zu sagen, welches das Pferd ist. Ein Kind wird diese Aufgabe recht einfach erledigen, aber es ist immer noch etwas, was ein Computer mit so wenigen Eingaben nicht gut kann (One-Shot-Lernen).

Wie hat das Kind das gemacht?

Die Erkennung von Tieren wurde bei Kindern untersucht und bezieht sich auf unsere Fähigkeit, Objekte in relevante Teile zu zerlegen, den Farbbereich des Pelzes, die Größe des Halses, die Gesamtform usw. Diese Fähigkeit ermöglicht es Ihnen auch, eine Tür zu öffnen noch nie gesehen haben, haben Sie eine motorische Sequenz gelernt, die sich auf jede Situation verallgemeinert (Domain Generalization). Es ist auch das, was Sie verwenden, um Erklärungsmodelle zu bauen, die die Welt vereinfachen. Sie werden zwar zunächst von der plötzlichen Erscheinung eines Kuckucks in einer berühmten Schweizer Uhr überrascht sein, aber nach dem zweiten Auftritt werden Sie es erwarten. Das Finden von Invarianz ist, wie ein neuronales Netzwerk lernt und diese Modelle unbewusst aufgebaut werden. Ein Beispiel ist, wie wir intuitiv etwas über Physik lernen, bevor wir von Mathematik und Zahlen gehört haben.

Man könnte zum Beispiel fragen, wie schnell sich ein in Mikrogravitation geborenes Kind an die Schwerkraft der Erde anpassen und intuitiv lernen würde, dass Objekte beim Fallen auf den Boden fallen?

Wir könnten die Hypothese aufstellen, dass Säuglinge und die meisten Tiere ihr Modell unbewusst überarbeiten, ähnlich wie wenn Sie einem Hund Socken auf die Pfoten legen und es einige Zeit dauert, bis er sich an die neuen Informationen angepasst hat.

Aber für ein kleines Kind wird eine bewusste Befragung und Überarbeitung seines intuitiven Modells von Neugier über Sprache, Symbole und Überzeugungen stattfinden. Unsere Fähigkeit, unsere Modelle bewusst zu befragen und zu ändern, ist faszinierend, und als Nebenbemerkung kann der Mensch die einzige Spezies sein, die den Prozess verbalisieren kann, aber andere Spezies können ähnliche bewusste Revisionen durchführen.

Invarianz ist eine obligatorische Eigenschaft der Zeit, wenn alles immer neu und in keiner Weise vorhersehbar wäre, würde es immer noch diese einzigartige Invariante geben, dass alles immer neu und unvorhersehbar ist. Es ist unmöglich, sich eine Welt ohne Invarianz vorzustellen, da es keine Welt geben könnte, auf die man sich beziehen könnte. Ohne Invarianz wäre das Leben unmöglich und unser Gehirn nutzlos. Das Leben ist eine Maschine, die nur durch die vorhersehbare Wiederholung von Ereignissen, die Wiederholung von Ursachen und Wirkungen, die zyklische Wiedereinführung von Energie in den Organismus funktioniert. Und in dem Bestreben des Lebens, die Nutzung dieser notwendigen Zyklen zu verbessern, ist unser Gehirn das ultimative Werkzeug. Es ist eine Vorhersagemaschine, ein adaptives Organ, das in der Lage ist, Wiederholungen dynamisch zu finden und damit besser mit der Welt zu interagieren.

Diese Methode, die das Leben gewählt hat, ist äußerst robust gegenüber geringfügigen Änderungen in der Struktur. Was gleich bleibt, ist die Welt, die statistischen Eigenschaften der Umgebung, aber die neuronale Struktur, auf die sie trifft, kann variieren, solange sie die relevanten Informationen einbetten kann, die sie zur Behandlung entwickelt hat. Dies erklärt, warum unser Gehirn von Individuum zu Individuum so unterschiedlich sein kann, sogar von primären Kortizes, und dennoch dieselben Funktionen hat.

Nervensysteme sind anpassungsfähig, sie benötigen keine Evolution und langsame genetische Mutationen, um das Verhalten auf relevante Weise zu verändern. Ein einfaches Nervensystem, wie es in C. Elegans zu finden ist, dient als angeborener interner Koordinator und externer Sensor: Nahrung wahrnehmen und darauf zugehen, vor Schmerzen fliehen, sich vermehren. Diese einfachen Systeme waren anfangs starr und führten eine extreme Annäherung an unsere stark verrauschte Welt durch, um sie in einem kleinen Satz möglicher Zustände (Lebensmittel links, Hitze unten usw.) zu diskretisieren. Unsere motorischen und sensorischen Fähigkeiten entwickelten sich Hand in Hand mit unseren Vorhersagefähigkeiten für das Nervensystem. Als unsere Sensoren präziser wurden, konnte das Nervensystem langsam seine Struktur ändern, um Informationen zu speichern und aus Erfahrungen zu lernen. Anfänglich konnte es lernen, bestimmte Kategorien von Eingaben zu erkennen, wie z. B. Geruchsarten oder Lichtmuster, und durch Versuch und Irrtum lernen, sein immer komplexer werdendes Motorsystem zu steuern. Beachten Sie, dass die Welt so komplex ist, dass sich unser Gehirn auf natürliche Weise eher zu einem Lernparadigma als zu einem angeborenen prozeduralen Ansatz entwickelt hat. Aus rechnerischer Sicht ist dies durchaus sinnvoll. Ein einfaches Go-Spiel hat einen Zustandsraum, der weitaus größer ist (2,10¹⁷⁰) als die Anzahl der Atome im Universum (10⁸⁰), und wenn Organismen komplexer werden und versuchen, Annäherungen aller möglichen Werte hart zu codieren Zustände, in denen es sich befinden könnte, werden aufgrund einer kombinatorischen Explosion schnell unlösbar.

Einige Leute glauben vielleicht, dass unser Gehirn so aufgebaut ist, dass es von Natur aus den Raum darstellt, in dem es sich entwickeln wird, dass in der DNA irgendwo ein Gen für das vorhanden ist, was ein Gesicht ausmacht, oder die zeitliche Organisation der Schallwellen, die es erzeugen Worte. Sie könnten glauben, dass dieses angeborene Wissen irgendwo bei der Geburt verschlüsselt ist. Andere mögen glauben, wie mein Philosophielehrer, als ich in der High School war, dass die Existenz der Essenz vorausgeht und dass unser Gehirn vollständig und ausschließlich durch die Begegnung von Organismus und Welt definiert wird. Die Realität ist natürlich komplexer, und für die meisten bisher untersuchten telenzephalen Systeme codiert das Gehirn die Funktion, die es ausführen wird, nicht von Natur aus, sondern lernt sie in Abhängigkeit von den in seinen Eingaben enthaltenen Informationen. Wenn die Eingabe zu wenig relevante Informationen enthält, kann die Lernfähigkeit in dieser Struktur ein Ablaufdatum haben (z. B. Amblyopie). Wenn die angeborene Struktur jedoch nicht die endgültige Funktion codiert, hat das Gehirn eine spezifische Struktur. Diese Struktur bleibt zwischen Individuen erhalten, und Individuen derselben Art teilen gemeinsame Funktionen und Antriebe. DNA baut eine bestimmte Struktur auf, eine Struktur, die ihre endgültige Funktion nicht von Natur aus erfüllen kann, sondern eine Struktur, die in der Lage ist, die Komplexität spezifischer Aufgaben basierend auf individuellen Erfahrungen zu lernen. Es ist nicht überraschend, dass die Evolution zur Entstehung einer hochwirksamen Blut-Hirn-Schranke führte, die das Gehirn vom Rest des Körpers sowie von den Hirnhäuten und der harten Knochenschale isoliert, die es vor der Außenwelt schützen, denn im Gegensatz zu anderen Organen, in denen Die Struktur ist im Genom kodiert, die Struktur eines trainierten Gehirns kann nicht aus einem von Natur aus gespeicherten Modell regeneriert werden. Faszinierend ist, dass wir die gleichen Lernmechanismen sehen, die sich analog durch die Entwicklung immer komplexer werdender tiefer Netzwerke ergeben, die immer komplexere Aufgaben ausführen.

Kompositionsstrukturen sind schwer zu erkennen, aber überall

Als Nebenbemerkung ist es seltsam, dass selbst die Autoren nicht erkennen, dass ihre erste Aufgabe der Zielerreichung eine kompositorische Struktur hat.

Die Aufgaben zum Erreichen von Partikeln zeigen die Herausforderungen bei der Verallgemeinerung in einem vereinfachten Szenario. Die Aufgaben haben jedoch keine kompositorische Struktur, was die Bewertung der Verallgemeinerung auf neue Aufgaben schwierig macht.

Obwohl die Struktur in der Tat niedriger als die Blockstapelung ist und für experimentelle Manipulationen nicht leicht zugänglich ist, besteht die Aufgabe in der Tat aus einer gemeinsamen Struktur. Bei Annäherung der Welt an eine Ebene besteht eine Kompositionsstruktur darin, dass die Würfelidentität (Farbe) bei der Translation erhalten bleibt und von Block A - oder einer zufälligen Startposition - an Position (Xa1, Ya1) zu Block B an Position (Xb1, Yb2) übergeht ) ist Teil derselben Zusammensetzungsstruktur höherer Ordnung als der Übergang von Block A an Position (Xa2, Ya2) zu Block B an Position (Xb2, Yb2).

Schnittstellen zwischen Netzwerken

Die Schaffung neuronaler Netze, die Eingaben auf verschiedenen Abstraktionsebenen behandeln können, erfordert Schnittstellen, eine Domäne, von der ich glaube, dass sie noch viel zu entdecken bleibt. Diese Schnittstellen können zahlreicher Natur sein. Sie können beispielsweise als eine gemeinsame Sprache zwischen zwei Netzwerken angesehen werden, wie im Artikel gezeigt. Ein Netzwerk niedrigerer Ebene, das mit einem Aufmerksamkeitssystem (Demonstrationsnetzwerk) ausgestattet ist, kann eine Demonstration in eine Darstellung übersetzen, die ein anderes Netzwerk (das Kontextnetzwerk) verwenden kann um Aktionen unabhängig von der Länge oder der anfänglichen Konfiguration der Demonstration zu steuern.

Die Oberfläche dieser Sprache ist hier eine Ebene mit fester Größe, aber man kann sich mögliche Änderungen vorstellen, die die Kommunikation zwischen dem Netzwerk verbessern könnten. Zum Beispiel könnte die Größe der Oberfläche so eingestellt werden, dass sie dynamisch wächst oder schrumpft, wenn die Netzwerke während des Lernens interagieren, wodurch die Sprachkomplexität komprimiert oder erweitert wird. Wir könnten uns auch dynamischere Interaktionen vorstellen, zum Beispiel durch Feedback. Wir könnten uns die Existenz von Facilitator-Netzwerken vorstellen, die lernen würden, die Kommunikation zwischen Netzwerken zu glätten, die als paralleles Netzwerk existieren und lernen, die Eingabe des ersten Netzwerks basierend auf der Eingabe und Ausgabe des zweiten Netzwerks zu modulieren. Wir könnten uns komplexe Kontextnetzwerke vorstellen, die als tonischer (langsam variierender) Zufluss zu mehreren spezialisierteren Netzwerken wirken… Faszinierendes zukünftiges Forschungsgebiet!

Fehlerfälle weisen auf die möglichen Rollen hin, die neue Module haben könnten

Es ist anzumerken, dass Fehler häufig auf motorische Fehler zurückzuführen sind und dass die Anzahl der Fehler mit der Komplexität der Aufgabe zunimmt.

Die Motorik sollte nicht nur durch Erhöhen der Anzahl der Ziele beeinträchtigt werden. Dies ist ein starker Beweis dafür, dass die Art und Weise, wie das Reproduktionsnetzwerk lernt, mit dem Motornetzwerk zu sprechen, zu abstrakt ist. Es ist seltsam, weil sie sagen, dass ihr Test zeigt, dass die Schnittstelle zwischen dem Kontextnetzwerk und dem Motornetzwerk relativ konkret ist (Position des Roboters, Position des Ziels).

Eine mögliche Lösung könnte sein, da dies eine modulare Architektur ist, unterschiedliche Verlustfunktionen oder modulare Verlustfunktionen zu verwenden, die jeweils einen bestimmten Aspekt der Aufgabe darstellen. Es würde auch durch ein Äquivalent der vormotorischen Bereiche des Gehirns unterstützt, um sicherzustellen, dass das Demonstrations- und Kontextnetzwerk abstrakt bleiben kann, ohne den Motorbefehl zu verschlechtern. Vormotorische Regionen sind notwendig, um Objekte basierend auf dem Ziel (aus abstrakten Netzwerken) und den sensorischen Eingaben besser zu lokalisieren, um den besten Motorbefehl auszuwählen. Es scheint, dass das Kontextnetzwerk versucht, die Demonstration auf eine übergeordnete Einbettungsebene zu übertragen und gleichzeitig in einem aktuellen Kontext motorische Aktionen vorzubereiten. Die Rolle eines vormotorischen Netzwerks besteht darin, zu lernen, zielorientiert und anpassungsfähig mit dem Motorsystem zu kommunizieren, wobei sowohl die Funktionen des Vormotors als auch des Kleinhirns für motorisches Lernen und schnelle Anpassung kombiniert werden.

Es gibt eine interessante Theorie, das Moravec-Paradoxon, die vorhersagt, dass nicht die Erkenntnis auf höherer Ebene rechenintensiv sein wird, sondern die Behandlung von sensorischen Eingaben und motorischen Systemausgaben. Dies könnte in der Tat für die große Menge an Neuronen verantwortlich sein, die in unserem Kleinhirn vorhanden sind (mehr als im Rest unseres Gehirns), um die motorische Aktion adaptiv zu steuern. Dieses Paradoxon wurde in einer Zeit (den 80er Jahren) formuliert, als wir noch glaubten, wir könnten unser eigenes Wissen in eine Maschine einbetten, um komplexe Aufgaben in unkontrollierten lauten Umgebungen auszuführen. Natürlich macht dieses Paradox Sinn, wenn die Maschine irgendwie in der Lage ist, die Welt in einem diskretisierten Satz von Zuständen darzustellen, und es einfacher wäre, eine Funktion auf höherer Ebene darauf aufzubauen. Aber ich glaube, beide werden sich als äußerst anstrengend erweisen, und die interne Repräsentation, die an der Schnittstelle zwischen Netzwerken verwendet wird, wird weit von allem entfernt sein, was unseren eigenen bewussten Repräsentationen ähnelt.

Fazit

Durch die Kombination verschiedener neuronaler Netze, die jeweils für eine bestimmte Behandlung des Problems zuständig sind, zeigt dieser Artikel, dass durch Erstellen einer Aufgabe, die von Natur aus verallgemeinert werden muss, und Aufbau einer geeigneten Lernumgebung durch Domänen-Randomisierung ein neuronales Netz mit Zugriff auf einen Speicher und ein Das Aufmerksamkeitssystem kann lernen, über die einfache Reproduktion hinaus zu verallgemeinern. Es kann lernen, ein Ziel höherer Ordnung zu entdecken, das nur einmal in einem visuellen Informationsstrom demonstriert wurde, und eine Berechnung in einem verallgemeinerten Raum durchführen, um die geeigneten Aktionen wiederherzustellen, mit denen dieses Ziel in einem anderen Kontext reproduziert werden kann.

In Zukunft werden wir eine zunehmende Komplexität von Strukturen sehen, die auf diesen atomaren Bausteinen aufbauen, die lernen können, komplexe Aufgaben zu verallgemeinern, aber vor allem mehrere solcher Aufgaben in neuen Umgebungen ausführen, wobei weniger auf hartcodierte Methoden wie die Vorverarbeitung von Eingaben oder angewiesen ist Speicher. Der Speicher wird durch verteilte Darstellungen in einem Speichernetzwerk ersetzt, Aufmerksamkeitssysteme werden durch zyklische Aktivitäten in Echtzeit-Aufmerksamkeitsnetzwerken ersetzt. Es bleibt die Frage, wie wir eine starke serielle Technologie (Turing-Maschinen) an unsere zunehmende Abhängigkeit von verteiltem Computing in verkörperten Systemen anpassen können.