Einschränkungen des Deep Learning in der KI-Forschung

Künstliche Intelligenz hat dank tiefem Lernen unglaubliche Leistungen erbracht, doch die menschlichen Fähigkeiten sind immer noch unzureichend.

12. Februar 2019, von Roberto Iriondo - letzte Aktualisierung: 7. April 2019

Bildquelle: Maschinelles Lernen Memoiren | [11]

Deep Learning, eine Untergruppe des maschinellen Lernens, hat in den letzten zehn Jahren in einer Vielzahl von praktischen Anwendungen übermenschliche Genauigkeit geliefert. Von der Revolutionierung des Kundenerlebnisses über maschinelle Übersetzung, Spracherkennung, autonome Fahrzeuge, Bildverarbeitung, Texterzeugung, Sprachverstehen bis hin zu einer Vielzahl anderer KI-Anwendungen [2].

Im Gegensatz zum maschinellen Lernen, bei dem ein KI-Agent aus Daten lernt, die auf Algorithmen für maschinelles Lernen basieren, basiert Deep Learning auf einer neuronalen Netzwerkarchitektur, die sich ähnlich wie das menschliche Gehirn verhält und dem KI-Agenten die Analyse von Daten ermöglicht, die in einer ähnlichen Struktur eingespeist werden so wie es Menschen tun. Deep-Learning-Modelle erfordern keine Algorithmen, um festzulegen, wie mit den Daten verfahren werden soll. Dies wird durch die außergewöhnliche Menge an Daten ermöglicht, die wir als Menschen sammeln und verarbeiten und die wiederum Deep-Learning-Modellen zugeführt werden [3].

Die „traditionellen“ Arten des Tiefenlernens umfassen eine andere Mischung aus Feed-Forward-Modulen (häufig Faltungs-Neuronale Netze) und wiederkehrenden Neuronalen Netzen (ab und zu mit Speichereinheiten wie LSTM [4] oder MemNN [5]). Diese Deep-Learning-Modelle sind nur begrenzt in der Lage, zu „überlegen“, z. B. lange Abzugsketten zu führen oder eine Methode zu optimieren, um bei einer Antwort zu landen. Die Anzahl der Schritte in einer Berechnung ist begrenzt durch die Anzahl der Schichten in Feed-Forward-Netzen und durch die Zeitspanne, in der ein wiederkehrendes neuronales Netzwerk Dinge speichert.

An diesem Punkt gibt es das Problem der Trübheit. Wenn ein Deep-Learning-Modell trainiert wurde, ist nicht immer klar, wie Entscheidungen getroffen werden [6]. In zahlreichen Settings ist das einfach nicht akzeptabel, egal ob es die richtige Lösung findet; Angenommen, eine Bank verwendet AI zur Beurteilung Ihres Kreditwerts und verweigert Ihnen anschließend einen Kredit. In zahlreichen Staaten gibt es Gesetze, nach denen die Bank klären muss, warum - wenn die Bank ein Deep-Learning-Modell für ihre Kreditentscheidungen verwendet kann die Darlehensabteilung (wahrscheinlich) keine eindeutige Erklärung dafür abgeben, warum das Darlehen abgelehnt wurde.

Abbildung 1 | Bildunterschriften, die von einem wiederkehrenden neuronalen Netzwerk (RNN) erzeugt werden, wobei das RNN in diesem Fall trainiert wird, um Bildpräsentationen auf hoher Ebene in Bildunterschriften zu identifizieren. [1]

Vor allem fehlt der gesunde Menschenverstand. Deep-Learning-Modelle sind möglicherweise am besten geeignet, um Muster wahrzunehmen. Sie können jedoch nicht verstehen, was die Muster bedeuten, und noch viel weniger begründen. Um Deep-Learning-Modelle zur Vernunft zu befähigen, müssen wir ihre Struktur ändern, damit sie nicht eine einzige Ausgabe (dh die Interpretierbarkeit eines Bildes, die Übersetzung eines Absatzes usw.) erstellen, sondern eine vollständige Anordnung von alternative Ausgaben (dh verschiedene Arten, wie ein Satz übersetzt werden kann). Dies ist das Ziel von Energiebasismodellen: Geben Sie eine Punktzahl für jede denkbare Konfiguration der zu konstruierenden Variablen an.

Allmählich geben solche Schwächen Anlass zur Besorgnis über die KI in der breiten Öffentlichkeit, zumal autonome Fahrzeuge, die vergleichbare Tiefenlernstrategien für die Navigation auf den Straßen anwenden [7], mit Rückschlägen und Todesfällen in Verbindung gebracht werden [8]. Die Öffentlichkeit hat angefangen zu sagen, dass es vielleicht ein Problem mit der KI gibt - in einer Welt, in der Perfektion erwartet wird. und obwohl tiefes Lernen über selbstfahrende Autos bewiesen hat, dass es unglaublich weniger Verluste als menschliche Fahrer verursachen würde, wird die Menschheit selbst kein vollständiges Vertrauen in autonome Fahrzeuge haben, bis keine Verluste involviert sind.

Darüber hinaus ist das tiefe Lernen in seiner gegenwärtigen Form absolut eingeschränkt, da praktisch alle fruchtbaren Verwendungen davon [19] [20] [21] [22] [23] [24] [25] [26] [27 ] [28] [29] [30] [31] [32], verwenden überwachtes maschinelles Lernen mit Kommentaren von Menschen, die als erhebliche Schwäche eingestuft wurden - diese Abhängigkeit verhindert, dass tiefe neuronale Netze auf Probleme angewendet werden, bei denen Eingabedaten vorliegen knapp. Es ist unerlässlich, Ansätze zu finden, um umfangreiche neuronale Netze aus „rohen“ nicht kommentierten Daten zu erstellen, um die Regelmäßigkeiten der realen Welt zu erfassen. In welcher Kombination von Deep Learning mit konträren Techniken des maschinellen Lernens [17] [18] liegt die Antwort, nach der wir suchen?

In Bezug auf die allgemeine Bevölkerung - leider hat die Öffentlichkeit kein faires Verständnis für Deep Learning. Wenn sich die Arbeit im Deep Learning nur auf KI-Forschungslabors beschränken würde, wäre dies eine Sache. Heutzutage werden jedoch in jeder möglichen Anwendung Tiefenlerntechniken verwendet. Das Maß an Vertrauen, das Führungskräfte und Marketingfachleute in Deep-Learning-Techniken setzen, ist besorgniserregend. Während tiefes Lernen eine unglaubliche Leistung ist, ist es wichtig, nicht nur seine Stärken zu erforschen, sondern sich auch seiner Schwächen bewusst zu sein, um einen Aktionsplan zu haben.

Die Forschung von Mrinmaya Sachan zu literarischer künstlicher Intelligenz [33] ist ein interessanter Fall, um zu untersuchen, wie es den heutigen KI-Systemen trotz der bemerkenswerten Entwicklungen auf dem Gebiet der künstlichen Intelligenz durch tiefes Lernen noch an der inneren Natur der menschlichen Intelligenz mangelt. Bevor die Menschheit anfängt, KI-Systeme mit menschlichen Fähigkeiten (Denken, Verstehen, gesunder Menschenverstand) aufzubauen, taucht er ein und überlegt, wie wir KI-Systeme für solche Aufgaben bewerten können. - um echte intelligente Systeme gründlich zu verstehen und zu entwickeln. Seine Forschung schlägt die Verwendung standardisierter Tests für KI-Systeme vor (ähnlich den Tests, die die Schüler für den Fortschritt im formalen Bildungssystem durchführen), wobei zwei Rahmen zur Weiterentwicklung von KI-Systemen verwendet werden, mit bemerkenswerten Vorteilen, die in Form von sozialen Tests angewendet werden können gut und Bildung.

Haben wir ein echtes theoretisches Verständnis für ein neuronales Netzwerk zum Thema Deep Learning und Entscheidungsfindung?

Künstliche neuronale Netzwerke, die versuchen, die Architektur des Gehirns nachzuahmen, besitzen eine Vielzahl von Verbindungen künstlicher Neuronen (Knoten). Das Netzwerk selbst ist kein Algorithmus, sondern ein Framework, auf dem eine Vielzahl von Algorithmen für maschinelles Lernen funktionieren kann, um die gewünschten Aufgaben zu erfüllen . Die Grundlagen der neuronalen Netzwerktechnik basieren fast ausschließlich auf Heuristiken, wobei der Schwerpunkt auf der Auswahl der Netzwerkarchitektur liegt. Leider gibt es keine definitive Theorie, die uns Aufschluss darüber gibt, wie die richtige Anzahl von Neuronen für ein bestimmtes Modell bestimmt werden kann. Es gibt jedoch theoretische Arbeiten zur Anzahl der Neuronen und zur Gesamtkapazität eines Modells [12] [13] [14], die jedoch nur selten in der Praxis angewendet werden können.

Der Stanford-Professor Sanjeev Arora verfolgt einen lebendigen Ansatz zur Generalisierungstheorie tiefer neuronaler Netze [15], in dem er das Generalisierungsgeheimnis des tiefen Lernens erwähnt: Warum funktionieren trainierte tiefe neuronale Netze mit zuvor nicht sichtbaren Daten gut? Nehmen wir an, Sie trainieren ein Deep-Learning-Modell mit ImageNet und trainieren es mit Bildern mit zufälligen Beschriftungen. Das Ergebnis ist eine hohe Genauigkeit. Die Verwendung normaler Regularisierungsstrategien, die auf eine höhere Generalisierung schließen lassen, hilft jedoch weniger [16]. Unabhängig davon ist das trainierte neuronale Netz immer noch nicht in der Lage, die zufällige Kennzeichnung von unsichtbaren Bildern vorherzusagen, was wiederum bedeutet, dass das neuronale Netzwerk nicht verallgemeinert.

Abbildung 2 | Ein-Pixel-Angriffe, die erfolgreich drei Arten von tiefen neuronalen Netzen getäuscht haben, die mit dem CIFAR-10-Datensatz trainiert wurden. [9] [10] | Die ursprünglichen Beschriftungen sind schwarz, während die Ausgabe-Beschriftungen des Angriffs mit ihrem entsprechenden Konfidenzintervall blau sind [9].

Kürzlich konnten Forscher Schwachstellen einer tiefen Architektur neuronaler Netze aufdecken, indem sie einem großen Bilddatensatz kleine Nuancen hinzufügten, um (mit hoher Wahrscheinlichkeit) die Modellausgaben [9] des neuronalen Netzes zu ändern. Die Studie folgt mehreren anderen Forschern, die zeigen, dass ähnliche Sprödigkeitsgrade den Outputs trotzen, basierend auf kleinen Nuancen des Inputs. Diese Art von Ergebnissen schafft kein Vertrauen, dh in autonomen Fahrzeugen neigt die Umgebung dazu, Nuancen jeglicher Art (Regen, Schnee, Nebel, Schatten, falsche Positive usw.) zu haben - stellen Sie sich nun ein visuelles System vor, das von einem abgeschleudert wird kleine Änderung an seiner visuellen Eingabe. Ich bin sicher, dass Tesla, Uber und einige andere diese Probleme identifiziert haben und an einem Plan arbeiten, um sie anzugehen. Es ist jedoch wichtig, dass auch die Öffentlichkeit davon Kenntnis hat.

Abbildung 3 | Ein Pixel erfolgreiche Angriffe auf tiefe neuronale Netze (DNNs). Zuerst das Originaletikett, dann die Ausgabe des Angriffs auf Klammern. [9]

Heutzutage sind wir von Technologie umgeben. Von den intelligenten Geräten bei uns zu Hause über Smartphones in großen Taschen, Computer an unseren Schreibtischen bis hin zu Routern, die uns mit dem Internet verbinden usw. Bei jeder dieser Technologien funktionieren die Basisarchitekturen dank der soliden Konstruktionsprinzipien, die sie erstellt haben, einwandfrei Dies gilt insbesondere für die Bereiche Mathematik, Physik, Elektrotechnik, Computer- und Softwaretechnik usw. - Jahre, wenn nicht Jahrzehnte, statistischer Tests und Qualitätssicherung.

Es ist wichtig, sich daran zu erinnern, dass Deep-Learning-Modelle eine große Datenmenge benötigen, um ein Anfangsmodell zu trainieren (um hochgenaue Ergebnisse zu erzielen und keine Überanpassung zu erzielen, beachten Sie, dass subsequente Aufgaben aus dem Transferlernen lernen können) dass es letztendlich ohne ein tiefes Verständnis dessen, was wirklich in einer „tiefen neuronalen Architektur“ vor sich geht, weder praktisch noch theoretisch sinnvoll ist, technologische Lösungen zu entwickeln, die auf lange Sicht nachhaltig sind.

Danksagung:

Der Autor dankt Matt Gormley, Assistant Professor an der Carnegie Mellon University, und Arthur Chan, Principal Speech Architect, Kurator von AIDL.io und Deep Learning Specialist, für die konstruktive Kritik bei der Vorbereitung dieses Artikels.

HAFTUNGSAUSSCHLUSS: Die in diesem Artikel zum Ausdruck gebrachten Ansichten sind die Ansichten des Autors / der Autoren und geben weder die Ansichten der Carnegie Mellon University noch anderer (direkt oder indirekt) mit dem Autor / den Autoren verbundener Unternehmen wieder. Diese Schriften sind nicht als Endprodukte gedacht, sondern spiegeln das aktuelle Denken wider und dienen als Katalysator für Diskussionen und Verbesserungen.

Sie finden mich auf meiner Website, Medium, Instagram, Twitter, Facebook, LinkedIn oder über meine Webdesign-Firma.

Empfohlene Geschichten:

Verweise:

[1] Deep Learning Review | Yann LeCun, Yoshua Bengio und Geoffrey Hinton | http://pages.cs.wisc.edu/~dyer/cs540/handouts/deep-learning-nature2015.pdf

[2] 30 erstaunliche Anwendungen von Deep Learning | Yaron Hadad | http://www.yaronhadad.com/deep-learning-most-amazing-applications/

[3] Einführung in Deep Learning | Bhiksha Raj | Carnegie Mellon Universität | http://deeplearning.cs.cmu.edu/

[4] Grundlegendes zu LSTM-Netzwerken | Christopher Olah | http://colah.github.io/posts/2015-08-Understanding-LSTMs/

[5] Memory Augmented Neural-Networks | Facebook AI Forschung | https://github.com/facebook/MemNN

Das dunkle Geheimnis im Herzen der künstlichen Intelligenz MIT Technology Review | https://www.technologyreview.com/s/604087/the-dark-secret-at-the-heart-of-ai/

[7] MIT 6.S094: Deep Learning für selbstfahrende Autos | Massachusetts Institute of Technology | https://selfdrivingcars.mit.edu/

[8] Liste der selbstfahrenden Verkehrstoten | Wikipedia | https://en.wikipedia.org/wiki/List_of_self-driving_car_fatalities

[9] Ein-Pixel-Angriff, um tiefe neuronale Netze zu täuschen | Jiawei Su, Danilo Vasconcellos Vargas, Kouichi Sakurai https://arxiv.org/pdf/1710.08864.pdf

[10] Datensatz des Canadian Institute for Advanced Research | CIFAR-10-Datensatz | https://www.cs.toronto.edu/~kriz/cifar.html

[11] Bilder mit freundlicher Genehmigung von Machine Learning Memoirs | https://mlmemoirs.xyz

[12] Tiefe neuronale Netzkapazität | Aosen Wang, Hua Zhou, Wenyao Xu, Xin Chen | Arxiv | https://arxiv.org/abs/1708.05029

[13] Zur Charakterisierung der Kapazität neuronaler Netze mithilfe algebraischer Topologie | William H. Guss, Ruslan Salakhutdinov | Abteilung für maschinelles Lernen, Fakultät für Informatik, Carnegie Mellon University | https://arxiv.org/pdf/1802.04443.pdf

[14] Informationstheorie, Komplexität und neuronale Netze | Yaser S. Abu-Mostafa | California Institute of Technology | http://work.caltech.edu/pub/Abu-Mostafa1989nnet.pdf

[15] Verallgemeinerungstheorie und tiefe Netze, eine Einführung | Sanjeev Arora | Stanford Universität | http://www.offconvex.org/2017/12/08/generalization1/

[16] Um Deep Learning zu verstehen, muss man Generalisierung überdenken Chiyuan zhang, samy bengio, moritz hardt, benjamin recht, oriol vinyals | https://arxiv.org/pdf/1611.03530.pdf

[17] Die Grenzen des tiefen Lernens in konträren Situationen | Nicolas Papernot, Patrick McDaniel, Somesh Jha, Matt Fredrikson, Z. Berkay Celik, Ananthram Swami Tagungsband des 1. IEEE European Symposium on Security and Privacy, IEEE 2016. Saarbrücken, Deutschland | http://patrickmcdaniel.org/pubs/esp16.pdf

[18] Maschinelles Lernen in widersprüchlichen Situationen | Patrick McDaniel, Nicolas Papernot und Z. Berkay Celik | Pennsylvania State University | http://patrickmcdaniel.org/pubs/ieeespmag16.pdf

[19] Alex Krizhevsky, Ilya Sutskever und Geoffrey E. Hinton. Imagenet-Klassifikation mit tiefen Faltungsnetzen. Fortschritte in neuronalen Informationsverarbeitungssystemen, 2012.

[20] Yaniv Taigman, Ming Yang, Marc'Aurelio Ranzato und Lior Wolf. Deepface: Schließt die Lücke zur Leistung auf menschlicher Ebene bei der Gesichtsüberprüfung. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, S. 1701–1708, 2014.

[21] Karen Simonyan und Andrew Zisserman. Sehr tiefe Faltungsnetzwerke für die großflächige Bilderkennung. Fortschritte in neuronalen Informationsverarbeitungssystemen, 2015.

[22] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich et al. Mit Windungen tiefer gehen. In Proceedings der IEEE Konferenz für Computer Vision und Mustererkennung (CVPR), 2015.

[23] Kaiming He, Xiangyu Zhang, Shaoqing Ren und Jian Sun. Tiefer Einblick in Gleichrichter: Überdurchschnittliche Leistung auf menschlicher Ebene bei der Klassifizierung von Imagenets. In Proceedings of the IEEE International Conference on Computer Vision, Seiten 1026–1034, 2015.

[24] Kaiming He, Xiangyu Zhang, Shaoqing Ren und Jian Sun. Tiefes Restlernen für die Bilderkennung. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seiten 770–778, 2016.

[25] Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-Rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara N. Sainath et al. Tiefe neuronale Netze für die akustische Modellierung bei der Spracherkennung: Die Ansichten von vier Forschungsgruppen. IEEE Signal Processing Magazine, 29 (6): 82–97, 2012.

[26] Awni Hannun, Carl Fall, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates et al. Deep Speech: Durchgängige Spracherkennung. arXiv-Vorabdruck arXiv: 1412.5567, 2014.

[27] Wayne Xiong, Jasha Droppo, Xuedong Huang, Frank Seide, Mike Seltzer, Andreas Stolcke, Dong Yu und Geoffrey Zweig. Erreichen der menschlichen Parität bei der Spracherkennung im Gespräch. arXiv-Vorabdruck arXiv: 1610.05256, 2016.

[28] Chung-Cheng Chiu, Tara N. Sainath, Yonghui Wu, Rohit Prabhavalkar, Patrick Nguyen, Zhifeng Chen, Anjuli Kannan, Ron J. Weiss, Kanishka Rao, Katya Gonina et al. Spracherkennung auf dem neuesten Stand der Technik mit Sequence-to-Sequence-Modellen. arXiv-Vorabdruck arXiv: 1712.01769, 2017.

[29] Dzmitry Bahdanau, Kyunghyun Cho und Yoshua Bengio. Neuronale maschinelle Übersetzung durch gemeinsames Lernen des Ausrichtens und Übersetzens. In der Internationalen Konferenz über lernende Repräsentationen, 2015.

[30] Ilya Sutskever, Oriol Vinyals und Quoc V Le. Sequenz-zu-Sequenz-Lernen mit neuronalen Netzen. In Advances in Neural Information Processing Systems, S. 3104–3112, 2014.

[31] Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc VLe, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey et al. Googles neuronales maschinelles Übersetzungssystem: Überbrückung der Kluft zwischen menschlicher und maschineller Übersetzung. arXiv-Vorabdruck arXiv: 1609.08144, 2016.

[32] Hany Hassan, Anthony Aue, Chang Chen, Vishal Chowdhary, Jonathan Clark, Christian Federmann, Xuedong Huang, Marcin Junczys-Dowmunt, William Lewis, Mu Li et al. Erreichen der menschlichen Parität bei der automatischen Übersetzung von Nachrichten aus dem Chinesischen ins Englische. arXiv-Vorabdruck arXiv: 1803.05567, 2018.

[33] Mrinmaya Sachan, Abteilung Maschinelles Lernen an der Carnegie-Mellon-Universität für künstliche Intelligenz, https://pdfs.semanticscholar.org/25c5/6f52c528112da99d0ae7e559500ef7532d3a.pdf