By Lothar Jung
Date 2021-12-07 10:30
Edited 2021-12-07 10:45
Upvotes 2
Hier die deutsche Übersetzung des Vorwortes und der Einführung:
Dies ist eine Forschungsmonographie im Stil eines Lehrbuchs über die Theorie des Deep Learning. Auch wenn dieses Buch ein wenig anders aussieht als die anderen Deep-Learning-Bücher, die Sie zuvor gesehen haben, versichern wir Ihnen, dass es für jeden geeignet ist, der Kenntnisse in linearer Algebra, multivariabler Berechnung und informeller Wahrscheinlichkeitstheorie hat und ein gesundes Interesse an Neuronale Netze. Sowohl Praktiker als auch Theoretiker möchten, dass Sie alle dieses Buch genießen. Lassen Sie uns Ihnen nun einige Dinge sagen.
In erster Linie haben wir in diesem Buch bei jeder Entscheidung, die wir getroffen haben, nach Pädagogik gestrebt und Intuition über Formalität gestellt. Dies bedeutet nicht, dass die Berechnungen unvollständig oder nachlässig sind; Im Gegenteil, wir haben versucht, jede Berechnung – von denen es sicherlich sehr viele gibt – ausführlich darzustellen und einen besonderen Schwerpunkt auf die Werkzeuge gelegt, die für die Durchführung der entsprechenden Berechnungen von Interesse sind. Tatsächlich ist es genauso wichtig zu verstehen, wie die Berechnungen durchgeführt werden, wie ihre Ergebnisse zu kennen, und daher liegt unser pädagogischer Fokus oft auf den Details darin.
Zweitens haben wir, während wir die Details all unserer Berechnungen präsentieren, die experimentellen Bestätigungen für die Privatsphäre unserer eigenen computergestützten Notebooks aufbewahrt. Der Grund dafür ist einfach: Während es viel zu lernen gibt, eine Ableitung zu erklären, ist es nicht viel mehr, wenn man einen Verifikationsplot ausdruckt, der zwei übereinander liegende Kurven zeigt. Angesichts der Einfachheit moderner Deep-Learning-Codes und der Verfügbarkeit von Computing ist es einfach, jede Formel selbst zu überprüfen. Wir haben sie auf jeden Fall gründlich überprüft. Wenn Sie also von der Existenz solcher Verschwörungen wissen, sollten Sie zumindest wissen, dass sie auf unseren persönlichen und Cloud-basierten Festplatten existieren.
Drittens liegt unser Hauptaugenmerk auf realistischen Modellen, die von der Deep-Learning-Community in der Praxis verwendet werden: Wir wollen tiefe neuronale Netze untersuchen. Dies bedeutet insbesondere, dass (i) einige spezielle Ergebnisse zu Single-Hidden-Layer-Netzwerken nicht diskutiert werden und (ii) die unendliche Breite eines neuronalen Netzwerks – was einem Zero-Hidden-Layer-Netzwerk entspricht – wird nur als Anhaltspunkt vorgestellt. Alle diese idealisierten Modelle werden schließlich gestört, bis sie einem realen Modell entsprechen. Wir erkennen sicherlich an, dass es eine lebendige Gemeinschaft von Deep-Learning-Theoretikern gibt, die sich dem widmen
Erforschung verschiedener Arten idealisierter theoretischer Grenzen. Unser Interesse ist jedoch fest darauf gerichtet, die von Praktikern verwendeten Werkzeuge und Ansätze zu erklären, um zu beleuchten, was sie so gut funktioniert.
Viertens konzentriert sich ein großer Teil des Buches auf tiefe mehrschichtige Perzeptronen. Wir haben diese Wahl getroffen, um die Macht des effektiven Theorierahmens pädagogisch zu veranschaulichen – nicht aufgrund technischer Hindernisse – und geben nebenbei Hinweise, wie dieser Formalismus auf andere interessante Architekturen ausgeweitet werden kann. Tatsächlich erwarten wir, dass viele unserer Ergebnisse eine breite Anwendbarkeit haben, und wir haben versucht, uns auf Aspekte zu konzentrieren, von denen wir erwarten, dass sie einen dauerhaften und universellen Wert für die Deep-Learning-Community haben.
Fünftens, obwohl ein Großteil des Materials neuartig ist und in diesem Buch zum ersten Mal erscheint, und während ein Großteil unserer Rahmung, Notation, Sprache und Hervorhebung mit der historischen Entwicklungslinie bricht, sind wir auch der Tiefe sehr verbunden Lerngemeinschaft. Vor diesem Hintergrund werden wir im gesamten Buch versuchen, auf wichtige frühere Beiträge zu verweisen, wobei der Schwerpunkt auf den neuesten bahnbrechenden Ergebnissen des Deep Learning liegt, anstatt vollständig umfassend zu sein. Weitere Referenzen für Interessierte können leicht innerhalb der von uns zitierten Arbeiten gefunden werden.
Sechstens ist dieses Buch zunächst aus einem Forschungsprojekt in Zusammenarbeit mit Boris Hanin entstanden. Um seinen Einsatz zu dokumentieren und dann zu unterstützen, haben wir ihn entsprechend auf dem Cover gewürdigt. Im Allgemeinen haben wir das Artwork, die Diskussionen, die Ermutigung, die Epigraphen, das Feedback, das Management, die Schiedsrichter, die Wiedereinführung und die Unterstützung von Rafael Araujo, L ́eon Bottou, Paul Dirac, Ethan Dyer, John Frank, Ross Girshick, Vince unterschiedlich geschätzt Higgs, Yoni Kahn, Yann LeCun, Kyle Mahowald, Eric Mintun, Xiaoliang Qi, Mike Rabbat, David Schwab, Stephen Shenker, Eva Silverstein, PJ Steiner, DJ Strouse und Jesse Thaler. Organisatorisch sind wir FAIR und Facebook, Diffeo und Salesforce, MIT und IAIFI sowie Cambridge University Press und arXiv dankbar.
Siebtens ist Dan Aya, Lumi und Lisa Yaida angesichts des intensiven (und unterschiedlich unsicheren) Einsatzes von Raumzeit und Energie-Momentum, das das Schreiben dieses Buches mit sich brachte, dankbar; aus der Perspektive des dualen Sample-Space ist Sho Adrienne Rothschilds dankbar und wäre rückwirkend jedem hypothetischen zukünftigen Mark oder Emily dankbar, denen sonst in diesem Absatz gedankt worden wäre.
Achtens hoffen wir, dass dieses Buch unseren Optimismus verbreitet, dass es möglich ist, eine allgemeine Theorie des Deep Learning zu haben, die sowohl von den ersten Prinzipien abgeleitet ist als auch darauf fokussiert ist, zu beschreiben, wie realistische Modelle tatsächlich funktionieren: fast einfache Phänomene in der Praxis sollte fast-einfachen effektiven Theorien entsprechen. Wir träumen davon, dass diese Art des Denkens nicht nur zu mehr [überarbeiteten] KI-Modellen führt, sondern uns auch zu einem vereinheitlichenden Rahmen für das Verständnis universeller Aspekte der Intelligenz führt.
Als ob diese achtfache Art, das Buch vorwegzunehmen, nicht schon fast genug wäre, beachten Sie bitte: Dieses Buch hat eine Website, deeplearningtheory.com, und Sie können sie besuchen, um festzustellen, ob der Fehler, den Sie gerade entdeckt haben, bereits aufgetreten ist Allgemeinwissen. Wenn dies nicht der Fall ist, teilen Sie uns dies bitte mit. Es kann Kuchen geben.
viii
Dan Roberts & Sho Yaida
Einführung:
Dank erheblicher Investitionen in Computertechnologie können moderne Systeme der Künstlichen Intelligenz (KI) heute mit vielen Milliarden elementarer Komponenten ausgestattet werden. Wenn diese Komponenten richtig initialisiert und dann trainiert werden, kann KI Aufgaben erfüllen, die einst als so unglaublich komplex galten, dass Philosophen früher argumentierten, dass nur natürliche Intelligenzsysteme – also der Mensch – sie ausführen könnten.
Hinter einem Großteil dieses Erfolgs in der KI steckt Deep Learning. Deep Learning verwendet künstliche neuronale Netze als zugrunde liegendes Modell für KI: Während künstliche neuronale Netze lose auf biologischen neuronalen Netzen wie Ihrem Gehirn basieren, werden sie wahrscheinlich am besten als eine besonders schöne Möglichkeit angesehen, einen flexiblen Satz von Funktionen zu spezifizieren, der aus vielen besteht grundlegende Rechenblöcke, die Neuronen genannt werden. Dieses Berechnungsmodell unterscheidet sich tatsächlich stark von dem, das den Computer mit Strom versorgt, den Sie wahrscheinlich zum Lesen dieses Buchs verwenden. Insbesondere werden Deep-Learning-Modelle an Daten aus der realen Welt trainiert und lernen, wie man Probleme löst, anstatt einen spezifischen Satz von Anweisungen zu programmieren, um ein Problem direkt zu lösen.
Die wahre Stärke des Deep-Learning-Frameworks kommt von tiefen neuronalen Netzen, bei denen viele Neuronen parallel in sequentiellen Rechenschichten organisiert sind und nützliche Darstellungen der Welt lernen. Ein solches Repräsentationslernen wandelt Daten in immer raffiniertere Formen um, die für die Lösung einer zugrunde liegenden Aufgabe hilfreich sind, und gilt als Markenzeichen für den Erfolg der Intelligenz, sowohl der künstlichen als auch der biologischen.
Trotz dieser Erfolge und des damit verbundenen intensiven Interesses steckt die Deep-Learning-Theorie noch in den Kinderschuhen. Tatsächlich gibt es eine gravierende Kluft zwischen Theorie und Praxis: Während Praktiker erstaunliche Meilensteine erreicht haben, haben sie die Theoretiker bei weitem überholt, deren Analysen oft so unrealistische Annahmen beinhalten, dass sie zu Schlussfolgerungen führen, die für das Verständnis tiefer neuronaler Netze irrelevant sind wie sie typisch gebraucht werden. Noch wichtiger ist, dass trotz zahlreicher empirischer Belege für seine Bedeutung für den Erfolg des Frameworks nur sehr wenige theoretische Arbeiten direkt mit der Tiefe des Deep Learning konfrontiert werden.
Das Ziel dieses Buches ist es, eine Reihe von Prinzipien aufzustellen, die es uns ermöglichen, tiefe neuronale Netze von tatsächlicher Bedeutung theoretisch zu analysieren. Um Sie für diese Aufgabe zu initialisieren, werden wir im weiteren Verlauf dieses Kapitels auf sehr hohem Niveau erklären, (i) warum ein solches Ziel überhaupt theoretisch erreichbar ist und (ii) wie wir es in der Praxis erreichen können.