Einschränkungen des tiefen Lernens

Künstliche Intelligenz hat dank tiefem Lernen unglaubliche Leistungen erbracht, bleibt jedoch immer noch hinter den menschlichen Fähigkeiten zurück.

12. Februar 2019, von Roberto Iriondo - letzte Aktualisierung: 7. April 2019

Bildquelle: Maschinelles Lernen Memoiren | [11]

Deep Learning, eine Teilmenge des maschinellen Lernens, hat in den letzten zehn Jahren übermenschliche Genauigkeit in einer Vielzahl von praktischen Anwendungen geliefert. Von der Revolutionierung des Kundenerlebnisses über maschinelle Übersetzung, Spracherkennung, autonome Fahrzeuge, Computer Vision, Texterzeugung, Sprachverständnis bis hin zu einer Vielzahl anderer KI-Anwendungen [2].

Im Gegensatz zum maschinellen Lernen, bei dem ein KI-Agent aus Daten lernt, die auf Algorithmen für maschinelles Lernen basieren, basiert das Tiefenlernen auf einer neuronalen Netzwerkarchitektur, die ähnlich wie das menschliche Gehirn funktioniert und es dem KI-Agenten ermöglicht, eingespeiste Daten zu analysieren - in einer ähnlichen Struktur wie so wie es Menschen tun. Deep-Learning-Modelle erfordern keine Algorithmen, um festzulegen, was mit den Daten geschehen soll. Dies wird durch die außergewöhnliche Datenmenge ermöglicht, die wir als Menschen sammeln und konsumieren - was wiederum Deep-Learning-Modellen zugeführt wird [3].

Die „traditionellen“ Arten des tiefen Lernens umfassen eine andere Mischung aus Feed-Forward-Modulen (häufig Faltungs-Neuronale Netze) und wiederkehrenden Neuronalen Netzen (ab und zu mit Speichereinheiten wie LSTM [4] oder MemNN [5]). Diese Deep-Learning-Modelle sind in ihrer Fähigkeit eingeschränkt, beispielsweise zu „argumentieren“, lange Abzugsketten durchzuführen oder eine Methode zu rationalisieren, um bei einer Antwort zu landen. Die Anzahl der Berechnungsschritte wird durch die Anzahl der Schichten in Feed-Forward-Netzen begrenzt, und durch die Zeitspanne wird ein wiederkehrendes neuronales Netzwerk Dinge in Erinnerung rufen.

Zu diesem Zeitpunkt gibt es ein Problem der Dunkelheit. Wenn ein Deep-Learning-Modell trainiert wurde, ist nicht immer klar, wie Entscheidungen getroffen werden [6]. In zahlreichen Einstellungen ist dies einfach nicht akzeptabel, unabhängig davon, ob die richtige Lösung gefunden wird. Angenommen, eine Bank verwendet AI, um Ihren Kreditwert zu bewerten, und verweigert Ihnen anschließend einen Kredit. In zahlreichen Staaten gibt es Gesetze, die besagen, dass die Bank klären muss, warum - wenn die Bank ein Deep-Learning-Modell für ihre Kreditentscheidung verwendet wird ihre Kreditabteilung (wahrscheinlich) nicht in der Lage sein, eine klare Erklärung dafür zu geben, warum der Kredit abgelehnt wurde.

Abbildung 1 | Bildunterschriften, die von einem wiederkehrenden neuronalen Netzwerk (RNN) generiert werden. In diesem Fall wird das RNN darauf trainiert, Bildpräsentationen auf hoher Ebene in Bildunterschriften zu identifizieren. [1]

Am wichtigsten ist das Fehlen eines gesunden Menschenverstandes. Deep-Learning-Modelle können Muster am besten wahrnehmen. Sie können jedoch nicht verstehen, was die Muster bedeuten, und wesentlich weniger Gründe für sie. Um Deep-Learning-Modelle zur Vernunft zu befähigen, müssen wir ihre Struktur ändern, damit sie keine einzige Ausgabe erstellen (dh die Interpretierbarkeit eines Bildes, die Übersetzung eines Absatzes usw.), sondern eine vollständige Anordnung von liefern alternative Ausgaben (dh verschiedene Arten, wie ein Satz übersetzt werden kann). Dies ist das Ziel von Energiebasismodellen: Geben Sie eine Bewertung für jede denkbare Konfiguration der zu konstruierenden Variablen.

Nach und nach werfen solche Schwächen in der breiten öffentlichen Bevölkerung Bedenken hinsichtlich der KI auf, insbesondere da autonome Fahrzeuge, die vergleichbare Deep-Learning-Strategien zur Navigation auf den Straßen verwenden [7], mit Rückschlägen und Todesfällen in Verbindung gebracht werden [8]. Die Öffentlichkeit hat angefangen zu sagen, dass es vielleicht ein Problem mit der KI gibt - in einer Welt, in der Perfektion erwartet wird; und obwohl tiefes Lernen an selbstfahrenden Autos bewiesen hat, dass es unglaublich weniger Opfer als menschliche Fahrer verursachen würde, wird die Menschheit selbst nicht vollständig auf autonome Fahrzeuge vertrauen, bis keine Opfer beteiligt sind.

Darüber hinaus ist das tiefe Lernen in seiner gegenwärtigen Form absolut eingeschränkt, da praktisch alle fruchtbaren Verwendungen davon [19] [20] [21] [22] [23] [24] [25] [26] [27] ] [28] [29] [30] [31] [32] verwenden überwachtes maschinelles Lernen mit Anmerkungen zu menschlichen Kommentaren, was als erhebliche Schwäche festgestellt wurde. Diese Abhängigkeit verhindert, dass tiefe neuronale Netze auf Probleme angewendet werden, bei denen Eingabedaten vorliegen knapp. Es ist unerlässlich, Ansätze zu entdecken, um umfangreiche neuronale Netze aus „rohen“ nicht kommentierten Daten herzustellen, um die Regelmäßigkeiten der realen Welt zu erfassen. In welcher Kombination von tiefem Lernen mit kontroversen Techniken des maschinellen Lernens [17] [18] kann die Antwort liegen, nach der wir suchen.

In Bezug auf die allgemeine Bevölkerung - leider hat die Öffentlichkeit kein faires Verständnis für tiefes Lernen. Wenn die Arbeit im Bereich Deep Learning nur auf KI-Forschungslabors beschränkt wäre, wäre dies eine Sache. Heutzutage werden jedoch in jeder möglichen Anwendung Deep-Learning-Techniken verwendet. Das Maß an Vertrauen, das technische Führungskräfte und Vermarkter in Deep-Learning-Techniken setzen, ist besorgniserregend. Während tiefes Lernen eine unglaubliche Leistung ist, ist es wichtig, nicht nur seine Stärken zu erforschen, sondern sich auch zu konzentrieren und sich seiner Schwächen bewusst zu sein, um einen Aktionsplan zu haben.

Mrinmaya Sachans Forschungen zu Towards Literate Artificial Intelligence [33] sind ein interessanter Fall, um zu untersuchen, wie es den heutigen KI-Systemen, obwohl wir dank Deep Learning bemerkenswerte Entwicklungen auf dem Gebiet der künstlichen Intelligenz gesehen haben, immer noch an der Eigenart der menschlichen Intelligenz mangelt. Er taucht dann ein und überlegt, bevor die Menschheit anfängt, KI-Systeme zu bauen, die über menschliche Fähigkeiten verfügen (Argumentation, Verständnis, gesunder Menschenverstand). Wie können wir KI-Systeme für solche Aufgaben bewerten? - um wirklich intelligente Systeme gründlich zu verstehen und zu entwickeln. Seine Forschung schlägt die Verwendung standardisierter Tests für KI-Systeme vor (ähnlich den Tests, die Schüler durchführen, um Fortschritte im formalen Bildungssystem zu erzielen), indem zwei Rahmenbedingungen zur Weiterentwicklung von KI-Systemen verwendet werden, mit bemerkenswerten Vorteilen, die in Form von sozialem Gut angewendet werden können und Bildung.

Haben wir in Bezug auf tiefes Lernen und Entscheidungsfindung ein echtes theoretisches Verständnis eines neuronalen Netzwerks?

Künstliche neuronale Netze, die versuchen, die Architektur des Gehirns nachzuahmen, besitzen eine Vielzahl von Verbindungen künstlicher Neuronen (Knoten). Das Netz selbst ist kein Algorithmus, sondern ein Rahmen, auf dem eine Vielzahl von Algorithmen für maschinelles Lernen funktionieren kann, um die gewünschten Aufgaben zu erfüllen . Die Grundlagen der neuronalen Netzwerktechnik basieren fast vollständig auf Heuristiken, wobei ein kleiner Schwerpunkt auf der Auswahl der Netzwerkarchitektur liegt. Leider gibt es keine eindeutige Theorie, die uns sagt, wie die richtige Anzahl von Neuronen für ein bestimmtes Modell zu bestimmen ist. Es gibt jedoch theoretische Arbeiten zur Anzahl der Neuronen und zur Gesamtkapazität eines Modells [12] [13] [14], die jedoch nur selten praktikabel anzuwenden sind.

Der Stanford-Professor Sanjeev Arora verfolgt einen lebendigen Ansatz zur Generalisierungstheorie tiefer neuronaler Netze [15], in dem er das Generalisierungsgeheimnis des tiefen Lernens erwähnt: Warum funktionieren trainierte tiefe neuronale Netze bei bisher nicht sichtbaren Daten gut? Nehmen wir an, Sie trainieren ein Deep-Learning-Modell mit ImageNet und trainieren es mit Bildern mit zufälligen Beschriftungen. Eine hohe Genauigkeit ist das Ergebnis. Die Verwendung normaler Regularisierungsstrategien, die auf eine höhere Generalisierung schließen lassen, hilft jedoch weniger [16]. Unabhängig davon ist das trainierte neuronale Netz immer noch nicht in der Lage, die zufällige Kennzeichnung von unsichtbaren Bildern vorherzusagen, was wiederum bedeutet, dass sich das neuronale Netzwerk nicht verallgemeinert.

Abbildung 2 | Ein-Pixel-Angriffe, die drei Arten von tiefen neuronalen Netzen, die auf CIFAR-10-Datensätzen trainiert wurden, erfolgreich zum Narren gehalten haben. [9] [10] | Die Originalbezeichnungen sind schwarz, während die Ausgabebezeichnungen des Angriffs mit dem entsprechenden Konfidenzintervall blau sind [9].

Kürzlich konnten Forscher Schwachstellen einer tiefen neuronalen Netzwerkarchitektur aufdecken, indem sie einem großen Bilddatensatz kleine Nuancen hinzufügten, um (mit hoher Wahrscheinlichkeit) die Modellausgaben [9] des neuronalen Netzwerks zu ändern. Die Studie folgt mehreren anderen Forschern, die zeigen, dass ähnliche Sprödigkeitsgrade den Outputs trotzen, basierend auf kleinen Nuancen des Inputs. Diese Art von Ergebnissen schafft kein Vertrauen, dh in autonomen Fahrzeugen ist die Umgebung anfällig für Nuancen aller Art (Regen, Schnee, Nebel, Schatten, Fehlalarme usw.) - stellen Sie sich nun ein visuelles System vor, das von einem abgeworfen wird kleine Änderung an seiner visuellen Eingabe. Ich bin sicher, dass Tesla, Uber und mehrere andere diese Probleme identifiziert haben und an einem Plan arbeiten, um sie anzugehen. Es ist jedoch wichtig, dass auch die Öffentlichkeit über sie informiert ist.

Abbildung 3 | Ein Pixel erfolgreiche Angriffe auf tiefe neuronale Netze (DNNs). Zuerst das Originaletikett, gefolgt von der Ausgabe des Angriffs auf Klammern [9].

Heutzutage sind wir von Technologie umgeben. Von den intelligenten Geräten bei uns zu Hause über Smartphones in Pour-Pockets, Computer auf unseren Schreibtischen bis hin zu Routern, die uns mit dem Internet verbinden usw. Bei jeder dieser Technologien funktionieren die Basisarchitekturen dank der soliden technischen Prinzipien, die sie entwickelt haben, ordnungsgemäß über tiefe Mathematik, Physik, Elektrotechnik, Computer- und Softwaretechnik usw. und vor allem über diese Bereiche - Jahre, wenn nicht Jahrzehnte, statistischer Tests und Qualitätssicherung.

Es ist wichtig zu bedenken, dass Deep-Learning-Modelle eine große Datenmenge benötigen, um ein anfängliches Modell zu trainieren (um hochgenaue Ergebnisse zu erzielen und keine Überanpassung zu erzielen, denken Sie daran, dass subsequenzielle Aufgaben aus dem Transferlernen lernen können) Letztendlich ist es weder praktisch noch theoretisch sinnvoll, technologische Lösungen zu entwickeln, die auf lange Sicht nachhaltig sind, ohne ein tiefes Verständnis dafür zu haben, was wirklich in einer „tiefen neuronalen Architektur“ geschieht.

Danksagung:

Der Autor dankt Matt Gormley, Assistenzprofessor an der Carnegie Mellon University, und Arthur Chan, Principal Speech Architect, Kurator von AIDL.io und Deep Learning Specialist, für die konstruktive Kritik bei der Vorbereitung dieses Artikels.

HAFTUNGSAUSSCHLUSS: Die in diesem Artikel geäußerten Ansichten sind die der Autoren und geben weder die Ansichten der Carnegie Mellon University noch anderer mit dem Autor verbundener Unternehmen (direkt oder indirekt) wieder. Diese Schriften sind nicht als Endprodukte gedacht, sondern spiegeln das aktuelle Denken wider und sind gleichzeitig ein Katalysator für Diskussionen und Verbesserungen.

Sie finden mich auf meiner Website, auf Medium, Instagram, Twitter, Facebook, LinkedIn oder über meine Webdesign-Firma.

Empfohlene Geschichten:

Verweise:

[1] Deep Learning Review | Yann LeCun, Yoshua Bengio, Geoffrey Hinton | http://pages.cs.wisc.edu/~dyer/cs540/handouts/deep-learning-nature2015.pdf

[2] 30 erstaunliche Anwendungen des tiefen Lernens | Yaron Hadad | http://www.yaronhadad.com/deep-learning-most-amazing-applications/

[3] Einführung in Deep Learning Bhiksha Raj | Carnegie Mellon University | http://deeplearning.cs.cmu.edu/

[4] Grundlegendes zu LSTM-Netzwerken | Christopher Olah | http://colah.github.io/posts/2015-08-Understanding-LSTMs/

[5] Speichererweiterte Neuronale Netze | Facebook AI Research | https://github.com/facebook/MemNN

[6] Das dunkle Geheimnis im Herzen der künstlichen Intelligenz MIT Technology Review | https://www.technologyreview.com/s/604087/the-dark-secret-at-the-heart-of-ai/

[7] MIT 6.S094: Deep Learning für selbstfahrende Autos | Massachusetts Institute of Technology | https://selfdrivingcars.mit.edu/

[8] Liste der Todesfälle bei selbstfahrenden Autos Wikipedia | https://en.wikipedia.org/wiki/List_of_self-driving_car_fatalities

[9] Ein-Pixel-Angriff zur Täuschung tiefer neuronaler Netze | Jiawei Su, Danilo Vasconcellos Vargas, Kouichi Sakurai | https://arxiv.org/pdf/1710.08864.pdf

[10] Datensatz des kanadischen Instituts für fortgeschrittene Forschung | CIFAR-10-Datensatz | https://www.cs.toronto.edu/~kriz/cifar.html

[11] Bilder mit freundlicher Genehmigung von Machine Learning Memoirs | https://mlmemoirs.xyz

[12] Deep Neural Network Capacity | Aosen Wang, Hua Zhou, Wenyao Xu, Xin Chen | Arxiv | https://arxiv.org/abs/1708.05029

[13] Zur Charakterisierung der Kapazität neuronaler Netze mithilfe der algebraischen Topologie William H. Guss, Ruslan Salakhutdinov | Abteilung für maschinelles Lernen, Fakultät für Informatik, Carnegie Mellon University | https://arxiv.org/pdf/1802.04443.pdf

[14] Informationstheorie, Komplexität und neuronale Netze Yaser S. Abu-Mostafa | California Institute of Technology | http://work.caltech.edu/pub/Abu-Mostafa1989nnet.pdf

[15] Generalisierungstheorie und tiefe Netze, Eine Einführung Sanjeev Arora | Stanford University | http://www.offconvex.org/2017/12/08/generalization1/

[16] Um Deep Learning zu verstehen, muss die Generalisierung neu überdacht werden Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht und Oriol Vinyals https://arxiv.org/pdf/1611.03530.pdf

[17] Die Grenzen des tiefen Lernens in kontroversen Umgebungen Nicolas Papernot, Patrick McDaniel, Somesh Jha, Matt Fredrikson, Z. Berkay Celik, Ananthram Swami | Vorträge des 1. Europäischen IEEE-Symposiums für Sicherheit und Datenschutz, IEEE 2016. Saarbrücken, Deutschland | http://patrickmcdaniel.org/pubs/esp16.pdf

[18] Maschinelles Lernen in kontroversen Umgebungen Patrick McDaniel, Nicolas Papernot und Z. Berkay Celik | Pennsylvania State University | http://patrickmcdaniel.org/pubs/ieeespmag16.pdf

[19] Alex Krizhevsky, Ilya Sutskever und Geoffrey E. Hinton. Imagenet-Klassifikation mit tiefen Faltungs-Neuronalen Netzen. Fortschritte in neuronalen Informationsverarbeitungssystemen, 2012.

[20] Yaniv Taigman, Ming Yang, Marc'Aurelio Ranzato und Lior Wolf. Deepface: Schließen der Lücke zur Leistung auf menschlicher Ebene bei der Gesichtsüberprüfung. In den Proceedings der IEEE-Konferenz zu Computer Vision und Mustererkennung, Seiten 1701–1708, 2014.

[21] Karen Simonyan und Andrew Zisserman. Sehr tiefe Faltungsnetzwerke für die großflächige Bilderkennung. Fortschritte in neuronalen Informationsverarbeitungssystemen, 2015.

[22] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich et al. Mit Windungen tiefer gehen. In Proceedings der IEEE-Konferenz über Computer Vision und Mustererkennung (CVPR), 2015.

[23] Kaiming He, Xiangyu Zhang, Shaoqing Ren und Jian Sun. Tief in die Gleichrichter eintauchen: Überdurchschnittliche Leistung auf menschlicher Ebene bei der Imagenet-Klassifizierung. In Proceedings of the IEEE International Conference on Computer Vision, Seiten 1026–1034, 2015.

[24] Kaiming He, Xiangyu Zhang, Shaoqing Ren und Jian Sun. Tiefes Restlernen zur Bilderkennung. In den Proceedings der IEEE-Konferenz über Computer Vision und Mustererkennung (CVPR), Seiten 770–778, 2016.

[25] Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-Rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara N. Sainath et al. Tiefe neuronale Netze zur akustischen Modellierung bei der Spracherkennung: Die gemeinsamen Ansichten von vier Forschungsgruppen. IEEE Signal Processing Magazine, 29 (6): 82–97, 2012.

[26] Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates et al. Tiefe Sprache: Skalieren der End-to-End-Spracherkennung. arXiv-Vorabdruck arXiv: 1412.5567, 2014.

[27] Wayne Xiong, Jasha Droppo, Xuedong Huang, Frank Seide, Mike Seltzer, Andreas Stolcke, Dong Yu und Geoffrey Zweig. Erreichen der menschlichen Parität bei der Spracherkennung im Gespräch. arXiv-Vorabdruck arXiv: 1610.05256, 2016.

[28] Chung-Cheng Chiu, Tara N. Sainath, Yonghui Wu, Rohit Prabhavalkar, Patrick Nguyen, Zhifeng Chen, Anjuli Kannan, Ron J. Weiss, Kanishka Rao, Katya Gonina et al. Spracherkennung auf dem neuesten Stand der Technik mit Sequenz-zu-Sequenz-Modellen. arXiv-Vorabdruck arXiv: 1712.01769, 2017.

[29] Dzmitry Bahdanau, Kyunghyun Cho und Yoshua Bengio. Neuronale maschinelle Übersetzung durch gemeinsames Lernen des Ausrichtens und Übersetzens. In der Internationalen Konferenz über lernende Repräsentationen, 2015.

[30] Ilya Sutskever, Oriol Vinyals und Quoc V Le. Sequenz-zu-Sequenz-Lernen mit neuronalen Netzen. In Fortschritte in neuronalen Informationsverarbeitungssystemen, Seiten 3104–3112, 2014.

[31] Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey et al. Googles neuronales maschinelles Übersetzungssystem: Überbrückung der Lücke zwischen menschlicher und maschineller Übersetzung. arXiv-Vorabdruck arXiv: 1609.08144, 2016.

[32] Hany Hassan, Anthony Aue, Chang Chen, Vishal Chowdhary, Jonathan Clark, Christian Federmann, Xuedong Huang, Marcin Junczys-Dowmunt, William Lewis, Mu Li et al. Erreichen der menschlichen Parität bei der automatischen Übersetzung von Nachrichten aus dem Chinesischen ins Englische. arXiv-Vorabdruck arXiv: 1803.05567, 2018.

[33] Mrinmaya Sachan, Auf dem Weg zur künstlichen Intelligenz, Abteilung für maschinelles Lernen an der Carnegie Mellon University, https://pdfs.semanticscholar.org/25c5/6f52c528112da99d0ae7e559500ef7532d3a.pdf