Eine leichte Einführung in Transformer-XL

Zusammenfassung einer neuartigen Technik zur aufmerksamen Sprachmodellierung, die eine längerfristige Abhängigkeit unterstützt.

Hintergrund

Die Sprachmodellierung wurde kürzlich mit unbeaufsichtigten Trainingsmethoden wie ELMo und BERT behandelt. Es bleibt jedoch weiterhin eine Herausforderung, neuronale Netze ordnungsgemäß mit einer langfristigen Abhängigkeit auszustatten.

Neuere Modelle wurden mit einem Aufmerksamkeitsmechanismus entwickelt, um die Optimierung zu erleichtern - indem mit dem verschwindenden Gradienten umgegangen wird - und um das Erlernen der langfristigen Abhängigkeit zu ermöglichen. In diesen Fällen ist der Kontext jedoch von fester Länge, sodass das Modell keine längerfristige Abhängigkeit erfassen kann und unter einem Problem leidet, das als Kontextfragmentierung bekannt ist.

Kontextfragmentierung bezieht sich darauf, wenn dem Modell aufgrund der Art und Weise, wie der Kontext ausgewählt wurde, die erforderlichen Kontextinformationen fehlen, um die ersten Symbole vorherzusagen - normalerweise ohne Berücksichtigung eines Satzes oder semantischer Grenzen.

Darüber hinaus unterstützen frühere Modelle den Informationsfluss über Segmente während des Trainings nicht und verwenden eine feste Kontextlänge, was bedeutet, dass das Modell keinen Raum für die Erfassung längerfristiger Abhängigkeiten hat.

Im Kontext der Sprachmodellierung können verborgene Zustände wiederverwendet werden, um den Informationsfluss über Segmente (eine Art Speicher) zu ermöglichen. Dies könnte dazu beitragen, die längerfristige Abhängigkeit zu unterstützen und die Kontextfragmentierung zu bewältigen. Damit die Architektur die Wiederverwendung von Zuständen unterstützt, muss jedoch die zeitliche Kohärenz verwaltet werden, wie im Folgenden erläutert wird.

Transformator-XL

Während des Trainings nutzen Vanille-Sprachmodelle Kontextinformationen nicht effektiv und Segmente werden individuell behandelt. Darüber hinaus werden semantische Grenzen während der Segmentierung normalerweise nicht eingehalten, da die meisten Methoden Standard-Chunked-Sequenzen fester Länge verwenden. Während der Auswertung werden Kontexte fester Länge verwendet und Segmente von Grund auf neu verarbeitet, was teuer wird, obwohl die Kontextfragmentierung etwas angesprochen wird. Dieses Papier zielt darauf ab, sich auf das Problem der Effizienz zu konzentrieren, indem längerfristige Abhängigkeiten besser modelliert werden.

Bei der Sprachmodellierung sind Transformer-Netzwerke durch einen Kontext fester Länge begrenzt und können daher durch Lernen längerfristiger Abhängigkeiten verbessert werden. In diesem Artikel wird eine neuartige Methode namens Transformer-XL (extra lang) für die Sprachmodellierung vorgeschlagen, mit der eine Transformer-Architektur über einen Wiederholungsmechanismus eine längerfristige Abhängigkeit über eine festgelegte Länge hinaus lernen kann, ohne die zeitliche Kohärenz zu beeinträchtigen.

Das Verfahren unterscheidet sich von anderen früheren Ansätzen, die sich auf andere Strategien zur Unterstützung der Langzeitabhängigkeit konzentrieren, wie zusätzliche Verlustsignale und eine erweiterte Speicherstruktur.

Es wird ein wiederkehrender Mechanismus auf Segmentebene eingeführt, der es dem Modell ermöglicht, frühere verborgene Zustände zur Trainingszeit wiederzuverwenden und sowohl die Probleme des Kontexts fester Länge als auch der Kontextfragmentierung zu behandeln. Mit anderen Worten, die historischen Informationen können wiederverwendet und so weit erweitert werden, wie es der GPU-Speicher zulässt. Siehe die Trainings- und Bewertungsphasen in der folgenden Abbildung.

Transformer-XL - Trainings- und Evaluierungsphase (Abbildung Quelle)

Um verborgene Zustände richtig wiederzuverwenden, schlagen die Autoren einen Mechanismus vor, der als relative Positionscodierungen bezeichnet wird und dabei hilft, zeitliche Verwirrung zu vermeiden. Aktuelle Modelle können den Positionsunterschied zwischen Eingaben in verschiedenen Segmenten auf verschiedenen Ebenen nicht unterscheiden. Die relative Positionscodierung behebt dieses Problem, indem sie die Positionsinformationsvorspannung in den verborgenen Zuständen codiert, was sich von anderen Ansätzen unterscheidet, die dies als Eingangspegel ausführen.

Da es sich um eine Transformer-Architektur handelt, wird der obige Prozess erreicht, indem der relative Abstand zwischen jedem Schlüsselvektor und Abfragevektor berechnet und in die Aufmerksamkeitsbewertung eingefügt wird. Mit einem neuen Parametrisierungstrick der Begriffe, die zum Ableiten der Aufmerksamkeitsbewertung zwischen Abfrage und Vektor verwendet werden, können die relativen Positionsinformationen einbezogen werden. Die Wiederholungskomponente ist jetzt mit der vorgeschlagenen relativen Positionseinbettung ausgestattet, und diese gesamte Prozedur repräsentiert die vorgeschlagene Transformer-XL-Architektur.

Ergebnisse

Transformer-XL erzielt starke Ergebnisse sowohl für die Sprachmodellierung auf Wortebene als auch auf Zeichenebene, die auf eine Vielzahl von Datensätzen wie WikiText-103, text8 und One Billion Word angewendet werden.

Das vorgeschlagene Modell wird mit einem Vanille-Modell verglichen, das kürzlich für die Sprachmodellierung auf Zeichenebene verwendet wurde (Al-Rfou et al., 2018), das auch eine tiefere Selbstaufmerksamkeit nutzt. Beachten Sie, dass das Vanillemodell keine Abhängigkeitslängen unterstützen kann, die größer als die obere Segmentlänge sind.

Transformer-XL reduziert die vorherige SoTA-Ratlosigkeit bei mehreren Datensätzen wie Text8, Enwiki8, One Billion Word und WikiText-103. Neben den SoTA-Leistungen behaupten die Autoren, dass die Methode flexibler, schneller während der Auswertung (1874-fache Beschleunigung) ist, sich gut auf kleine Datensätze verallgemeinern lässt und kurze und lange Sequenzen effektiv modelliert. Eine Zusammenfassung einiger Ergebnisse der verschiedenen Datensätze finden Sie in den folgenden Tabellen.

Sie können den Rest der Ergebnisse in dem unten verlinkten vollständigen Papier überprüfen.

Andere Vorteile

Eine Ablationsstudie zur Untersuchung der Auswirkungen sowohl des Wiederholungsmechanismus als auch des vorgeschlagenen Positionscodierungsschemas wird ebenfalls in der Arbeit bereitgestellt.

Die Autoren schlagen auch eine neue Metrik mit dem Namen Relative Effective Context Length vor, die eine faire Möglichkeit bietet, Modelle zu vergleichen, die mit erhöhten Kontextlängen getestet wurden.

Weitere Lesungen

  • Transformer-XL: Aufmerksame Sprachmodelle jenseits eines Kontexts fester Länge
  • Der kommentierte Transformator der Harvard NLP Group
  • Aufmerksamkeitsführer von Lilian Weng
  • Aufmerksamkeit ist alles was Sie brauchen
  • Mit dem Papier verknüpftes Code-Repository (TensorFlow und PyTorch)
  • Sprachmodellierung auf Zeichenebene mit tieferer Selbstaufmerksamkeit

Wenn genügend Interesse besteht, bin ich möglicherweise versucht, eine Code-exemplarische Vorgehensweise für diese Arbeit vorzubereiten. Es enthält viele verschiedene Komponenten, die für NLP-Praktiker und -Forscher interessant und nützlich sein könnten.