Reinforcement Learning Bestärkendes Lernen

Not logged inCSS-Forum

Forum

CSS-Online

Help

Search

Login

CSS-Shop

Impressum

Datenschutz

Topic Hauptforen / Schachprogrammierung / Reinforcement Learning Bestärkendes Lernen

By Lothar Jung Date 2021-09-05 14:47 Edited 2021-09-05 14:53 Upvotes 1

Hier ein wissenschaftlicher deutschsprachiger Einstieg:

http://www.informatikseite.de/neuro/node66.php

https://databraineo.com/maschinelles-lernen/wie-funktioniert-reinforcement-learning/

https://datasolut.com/reinforcement-learning/

By Lothar Jung Date 2021-11-04 07:23 Upvotes 1

Hier ein wichtiger Artikel „Masting Atari Games with limited data“:

https://arxiv.org/pdf/2111.00210.pdf

Hier ein YouTube Video dazu:

https://youtu.be/NJCLUzkn-sA

By Lothar Jung Date 2021-11-05 10:08 Upvotes 1

Hier eine Reihe von YouTube Lernvideos:

https://youtu.be/nZfaHIxDD5

https://youtu.be/ISk80iLhdfU

https://youtu.be/zR11FLZ-O9M

https://youtu.be/pc-H4vyg2L4

https://youtu.be/ELE2_Mftqoc

https://youtu.be/2xATEwcRpy8

https://youtu.be/93M1l_nrhpQ

https://youtu.be/0MNVhXEX9to

https://youtu.be/-daMfdwpmAg

By Lothar Jung Date 2022-05-31 10:44 Upvotes 1

Hier ein aktuelle wissenschaftliche Veröffentlichung:

https://arxiv.org/pdf/2205.12787.pdf

By Lothar Jung Date 2022-07-30 10:45 Upvotes 1

Hier eine Veröffentlichung über „ Search-based Reinforcement Learning through Bandit Linear Optimization“:

https://www.ijcai.org/proceedings/2022/0469.pdf

By Lothar Jung Date 2022-08-19 19:52 Upvotes 1

Hier noch eine grafische Darstellung:

https://cse3000-research-project.github.io/static/ad6eab29d4a281bf0558824fbeef70b2/poster.pdf

By Lothar Jung Date 2022-08-22 12:08 Upvotes 1

Veröffentlichung „Techniques and Paradigms in Modern Game AI Systems“:

https://mdpi-res.com/d_attachment/algorithms/algorithms-15-00282/article_deploy/algorithms-15-00282.pdf?version=1660290176

By Lothar Jung Date 2022-08-29 06:02 Upvotes 1

Veröffentlichung „Efficient Learning for AlphaZero via Path Consistency“:

https://proceedings.mlr.press/v162/zhao22h/zhao22h.pdf

By Lothar Jung Date 2022-09-13 21:57 Edited 2022-09-13 22:01 Upvotes 1

Veröffentlichung über Attention Umsetzung bei NN:

Dieser Artikel konzentriert sich auf das Erlernen effektiver Kanalaufmerksamkeit für tiefe CNNs mit geringer Modellkomplexität. Zu diesem Zweck schlagen wir ein effizientes Kanalaufmerksamkeitsmodul (ECA) vor, das die Kanalaufmerksamkeit durch eine schnelle 1D-Faltung erzeugt, deren Kernelgröße adaptiv durch eine nichtlineare Abbildung der Kanaldimension bestimmt werden kann. Experimentelle Ergebnisse zeigen, dass unser ECA ein extrem leichtgewichtiger Plug-and-Play-Block ist, um die Leistung verschiedener tiefer CNN-Architekturen zu verbessern, einschließlich der weit verbreiteten ResNets und des leichtgewichtigen MobileNetV2. Darüber hinaus weist unser ECA-Net eine gute Generalisierungsfähigkeit bei Objekterkennungs- und Instanzsegmentierungsaufgaben auf. In Zukunft werden wir unser ECA-Modul auf weitere CNN-Architekturen (z. B. ResNeXt und Inception [31]) anwenden und die Integration von ECA mit dem Spatial-Attention-Modul weiter untersuchen.

https://arxiv.org/pdf/1910.03151.pdf

By Lothar Jung Date 2022-10-03 10:02

Papier über „SCALING LAWS FOR A MULTI-AGENT REINFORCEMENT LEARNING MODEL“:

https://openreview.net/pdf?id=ZrEbzL9eQ3W

By Lothar Jung Date 2022-10-06 09:20 Edited 2022-10-06 09:23

Hier drei Veröffentlichungen zur Beschleunigung von Matrix-Multiplikation mittels AlphaTensor:

https://www.nature.com/articles/s41586-022-05172-4.pdf

https://www.technologyreview.com/2022/10/05/1060717/deepmind-uses-its-game-playing-ai-to-best-a-50-year-old-record-in-computer-science/

https://github.com/deepmind/alphatensor

By Lothar Jung Date 2022-10-10 09:37 Edited 2022-10-10 09:39 Upvotes 1

Veröffentlichung über „HYPERBOLIC DEEP REINFORCEMENT LEARNING“:

https://arxiv.org/pdf/2210.01542.pdf

By Lothar Jung Date 2022-10-27 10:45 Upvotes 1

Veröffentlichung „IN-CONTEXT REINFORCEMENT LEARNING WITH ALGORITHM DISTILLATION“:

https://arxiv.org/pdf/2210.14215.pdf

By Lothar Jung Date 2022-11-08 07:52

Veröffentlichung über die Einbeziehung von älteren Trainingsdaten:

Reincarnating Reinforcement Learning: Reusing Prior Computation to Accelerate Progress

https://arxiv.org/pdf/2206.01626.pdf

By Lothar Jung Date 2022-11-19 21:41 Edited 2022-11-19 21:45 Upvotes 1

Hier eine aktuelle umfassende Veröffentlichung über „Acquisition of chess knowledge in AlphaZero“:

https://www.pnas.org/doi/10.1073/pnas.2206625119

Hier die Langfassung:

https://arxiv.org/pdf/2111.09259.pdf

By Lothar Jung Date 2022-11-23 17:57 Upvotes 1

Hier ein Beispiel aus dem Sprachbereich:

***Human-level play in the game of Diplomacy by combining language models with strategic reasoning***
https://www.science.org/doi/epdf/10.1126/science.ade9097

By Lothar Jung Date 2022-11-24 15:49 Upvotes 1

Reinforcement Learning for ConnectX

https://arxiv.org/pdf/2210.08263.pdf

By Lothar Jung Date 2022-12-20 09:09 Upvotes 1

Ein englischsprachiges umfassendes Buch "Neuronale Netz im Schach" (266 Seiten):

https://arxiv.org/abs/2209.01506

Sehr empfehlenswert!!

Hier die übersetzte Zusammenfassung:

AlphaZero, Leela Chess Zero und Stockfish NNUE haben das Computerschach revolutioniert. Dieses Buch gibt eine vollständige Einführung in das technische Innenleben dieser Engines. Das Buch ist in vier Hauptkapitel aufgeteilt - mit Ausnahme von Kapitel 1 (Einführung) und Kapitel 6 (Schlussfolgerung): Kapitel 2 führt in neuronale Netze ein und deckt alle grundlegenden Bausteine ab, die verwendet werden, um tiefe Netze, wie die von AlphaZero verwendeten, aufzubauen. Zu den Inhalten gehören das Perzeptron, Backpropagation und Gradientenabstieg, Klassifizierung, Regression, mehrschichtige Perzeptrone, Vektorisierungstechniken, Faltungsnetze, Squeeze- und Erregungsnetze, vollständig verbundene Netze, Stapelnormalisierung und gleichgerichtete lineare Einheiten, Residualschichten, Overfitting und Underfitting. Kapitel 3 führt in die klassischen Suchtechniken ein, die für Schachengines verwendet werden, sowie in die von AlphaZero verwendeten. Der Inhalt umfasst Minimax, Alpha-Beta-Suche und Monte-Carlo-Baumsuche. Kapitel 4 zeigt, wie moderne Schachengines entworfen werden. Neben den bahnbrechenden AlphaGo, AlphaGo Zero und AlphaZero behandeln wir Leela Chess Zero, Fat Fritz, Fat Fritz 2 und Efficiently Updatable Neural Networks (NNUE) sowie Maia. In Kapitel 5 geht es um die Implementierung eines miniaturisierten AlphaZero. Hexapawn, eine minimalistische Version von Schach, wird als Beispiel dafür verwendet. Hexapawn wird durch Minimax-Suche gelöst und es werden Trainingsstellungen für das überwachte Lernen generiert. Zum Vergleich wird dann eine AlphaZero-ähnliche Trainingsschleife implementiert, bei der das Training durch Selbstspiel in Kombination mit Verstärkungslernen erfolgt. Schließlich werden das AlphaZero-ähnliche Training und das überwachte Training miteinander verglichen.

By Lothar Jung Date 2023-06-25 14:25

Reinforcement Learning (RL) ist ein Bereich des maschinellen Lernens, bei dem ein Agent lernt, wie er in einer Umgebung handeln soll, um ein bestimmtes Ziel zu erreichen. Dies geschieht durch Interaktionen mit der Umgebung und Empfang von Belohnungen (oder Strafen) für verschiedene Aktionen.

Im Kontext von Reinforcement Learning sind die Begriffe "Agent" und "Umgebung" speziell. Der Agent ist das System oder Modell, das wir trainieren wollen. Die Umgebung ist der Kontext, in dem der Agent operiert. Sie kann alles sein, von einem Spiel wie Schach oder Go, bis hin zu komplexeren Szenarien wie einem autonomen Fahrzeug, das lernt, sicher zu fahren.

Hier ist ein einfacheres Beispiel, um das Konzept zu verdeutlichen: Stellen Sie sich vor, Sie spielen ein Computerspiel und Ihr Ziel ist es, die höchste Punktzahl zu erreichen. Sie (der Agent) interagieren mit dem Spiel (der Umgebung) und erhalten Punkte (Belohnungen) für das Sammeln von Gegenständen oder das Abschließen von Leveln. Sie erhalten jedoch Strafen (negative Belohnungen) für bestimmte Aktionen, wie z.B. das Verlieren eines Lebens. Über die Zeit hinweg lernen Sie, welche Aktionen Ihnen mehr Punkte einbringen und welche zu Strafen führen. Dieser Prozess des Lernens durch Trial-and-Error ist die Essenz von Reinforcement Learning.

Das zentrale Ziel von Reinforcement Learning ist es, eine optimale Strategie oder Politik zu erlernen, die dem Agenten sagt, welche Aktion in einem bestimmten Zustand durchgeführt werden soll, um die kumulative Belohnung zu maximieren. Dies wird oft als das Problem der Belohnungsmaximierung beschrieben.

In einem Reinforcement Learning Modell gibt es typischerweise fünf Hauptkomponenten:

1. Agent: Der Lernende oder Entscheider.
2. Umgebung: Alles, womit der Agent interagieren kann.
3. Aktionen (A): Die verschiedenen Bewegungen, die der Agent ausführen kann.
4. Zustände (S): Die verschiedenen Situationen, in denen sich der Agent befinden kann.
5. Belohnung (R): Das Feedback, das der Agent nach jeder Aktion erhält.

Es ist wichtig zu beachten, dass Reinforcement Learning eine Vielzahl von spezifischen Techniken und Algorithmen einschließt, einschließlich, aber nicht beschränkt auf, Q-Learning, Deep Q-Learning, und Policy Gradient Methoden.

By Lothar Jung Date 2023-07-23 12:21

Sehr interessantes Projekt für RL bei Brettspielen:

https://github.com/sotetsuk/pgx

By Lothar Jung Date 2023-07-26 22:04

Hierarchical Reinforcement Learning: A Survey and Open Research Challenges

https://www.mdpi.com/2504-4990/4/1/9

By Lothar Jung Date 2023-09-02 10:43

Veröffentlichung mit Anhängen zu „A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play“:

https://www.science.org/doi/10.1126/science.aar6404

Topic Hauptforen / Schachprogrammierung / Reinforcement Learning Bestärkendes Lernen