LC 32er Netzwerk bereits Maximum überschritten und jetzt am degenerieren

By Lothar Jung Date 2019-01-23 12:13 Edited 2019-01-23 12:16

Hallo Frank,

Ich komme bei den 327xx Nets bei meinen Testpartien zu anderen Schlussfolgerungen.
Natürlich haben wir andere Test-Bedingungen.
Ich wäre Dir sehr dankbar, wenn Du die Netze 32700 und 32771 Deinem Test unterziehen könntest.

Viele Grüße

Lothar

By Frank Brenner Date 2019-01-23 13:36 Edited 2019-01-23 13:46

Wenn ich ausreichend viele Zwischenversionen teste, dann wird sicher auch mal ein statistischer Ausreißer dabei sein und 101 vs 99 erzielen oder besser.

Ich sehe bei Dir auch keine nenenswerten Ergebnisse, außer einer Handvoll Partien wie z.B. "Lc0 gewann gegen SF10 relativ deutlich mit 3:1:6."

By Lothar Jung Date 2019-01-25 17:49 Edited 2019-01-25 18:18

Die Tests und das Thema behaupten, das zwischen Netz 32600 und 32800 etc. eine rückläufige Entwicklung stattgefunden habe.
Dies ist sehr fraglich:

1. Bleibt die Entwicklung des letzten LRDrop abzuwarten.

2. Die Verantwortlichen haben das nicht so gesehen und zuletzt Netz 32742 für TCEC ausgewählt.

3. Die Spielstärkeentwicklung ab Netz 32600 ist weiter steigend:

https://docs.google.com/spreadsheets/d/19UL5a9I3M_TjIYwTpJQKdCi2RJHpxDD9YHnRogrwTnc/htmlview#gid=826157939

4. Nach diesen Tests scheinen 32700 und 32771 die stärksten Netze zu sein:

https://groups.google.com/forum/m/#!topic/lczero/prD-C34QXVM

By Frank Brenner Date 2019-01-26 12:26 Edited 2019-01-26 12:30

zu 1.) der letzte LR Drop wäre längst fällig und bringt jetzt auch nichts mehr, denn die Konvergenz ist bereits seit Wochen eingetreten.

zu 2.) die (unglücklichen) Verantwortlichen waren sozusagen gezwungen eine neue Version für TCEC auszuwählen.

zu 3.) ich sehe dort in der Grafik ebenfalls Stagnation: 32 220 (vom 24.12) ist gleich gut wie 32 860 (24.Januar) und der beste Wert der in den letzten vier Wochen gemessen wurde ist lediglich 17 ELO stärker.

zu 4.) zu den Tests von Ingo Weidner: Da kann er die Rangfolge auch einfach auswürfeln.
Das habe ich bereits schon mal gesagt (Stichwort Binominalverteilung), offenbar gehörst du zu denen die es nicht verstanden haben

By Lothar Jung Date 2019-01-28 14:36 Edited 2019-01-28 14:39

Wie konnte so etwas nur passieren:

5. Elo-Zuwachs seit Netz 32585 um 50 Punkte (Netz 32890).

https://docs.google.com/spreadsheets/d/1QxAG6XVTvvTAGlZ-kpSSvv0VuMGh7RkJjgKqgT37vMU/htmlview#

„Prognosen sind schwierig, insbesondere wenn sie sich auf die Zukunft beziehen.“
(Karl Valentin u.a.)

Mit höflichen Gruß

L. Jung (Ökonom)

By Frank Brenner Date 2019-01-28 15:20 Edited 2019-01-28 15:22 Upvotes 1

Dort wird bestätigt, daß die Tendenz vom 32er Netzwerk seit Anfang Januar totaler Stillstand ist.

Das neuste dort getestete Netzwerk vom 25.Januar 32890 (3473 ELO) ist um 7 ELO schlechter als 32395 vom 02.Januar (3480 ELO)

Getestet werden dort meistens 100 Partien gegen Stockfish 10.

Die Streung bei nur 100 Partien liegt in 95% der Fälle im Bereich +/- 34 ELO.

Sämtliche anderen Ergebnisse der Versionen vom 2.Januar bis 25.Januar liegen in diesem Bereich.

By Tom Paul Date 2019-01-28 19:22

Frank Brenner schrieb:

Ja genau totaler Stillstand

(wenn komplett ahnungslose Tester grauenhaft testen) und die Entwicklung zeigt auch nur im Durchschnitt gegen 100 andere Gegner als Stockfish, dass die Steigerung bereits mehr als +250 ELO beträgt.

By Lothar Jung Date 2019-01-28 21:08

Wie hoch liegt die Streuung beim Ausgangstest mit den jeweils 3 x 100 Partien?

By Benno Hartwig Date 2019-01-29 05:53

Weiß nicht

Aber eine Richtung gibt z.B. CCRL vor:
http://www.computerchess.org.uk/ccrl/404/rating_list_all.html
Denn hier finde ich Angaben
+60 -61 bei 120 Partien
+64 -64 bei 90 Partien

Das gibt wenigstens schon mal eine Größenordnung für eine Engine, die ca. 100 Partien machte.
Benno

By Robert Bauer Date 2019-01-23 12:20

Zitat:

Spielstärke auf absteigendem Ast, obwohl die Selfelos noch am steigen sind.

Gibt es eine plausible Erklärung hierfür?
Meine Vermutung: Wird Lc0 zum "Fachidoten" gegen sich selbst weil es nur bestimmte Techniken/Varianten spielt, diese aber dafür perfektioniert?

By Frank Brenner Date 2019-01-23 13:41

Auch Deepminds Alpha-Zero hat nach kurzer Zeit bereits fast gar keine Fortschritte mehr erzielt und nach einer weiteren gefühlten Ewigkeit ging die Kurve sogar schwach nach unten.

https://deepmind.com/documents/260/alphazero_preprint.pdf

Seite 4, oben links.

By Wolfgang Battig Date 2019-01-23 14:27

Hallo Frank,

wieviel Knoten macht Leela ungefähr auf deiner Grafikkarte?
Und wie ist die Leela-Ratio auf dem Ryzen?

Danke + Gruß
Wolfgang

By Frank Brenner Date 2019-01-23 14:44

Hallo Wolfgang,

in der Grundstellung + Unendliche Bedenkzeit werden nach 3 Minuten Rund 4000 knoten/Sekunde erzielt.
Der Ryzen 1-Core hat eine Frequenz von 3550 MHz (1. Gen. Ryzen)

Die Leela-Ratio Formel kenne ich leider nicht auswendig. Es wäre geschickt wenn jedesmal derjenige der die Information erfragt kurz die Formel hinschreibt.

Grüße
Frank

By Klaus S. Date 2019-01-23 15:07

hier:
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=117996#pid117996

LeR = 875 * leela nps/sf9 nps

By Michael Scheidl Date 2019-01-23 16:21 Edited 2019-01-23 16:23 Upvotes 1

Es ist mir schleierhaft, wie dieses überholte, willkürlich zu Stande gekommene und bedeutungslose Knotenverhältnis zu einer Art Vergleichsmaßstab pervertieren konnte!? Selten so einen Schwachsinn gesehen. Wer ist dafür verantwortlich, ich möchte ihn mit faulen Eiern und verrottetem Gemüse bewerfen. Das interessiert mich doch einen Schais wie die Verhältnisse der tatsächlichen oder vermeintlichen Knotenzahlen bei einem faul und stinkend konfigurierten Matchexperiment waren...

Wer sich dem unterwirft trägt vermutlich Jogginghosen

By Peter Martan Date 2019-01-23 17:00

Na also, Michael, es geht ja wieder!

By Horst Sikorsky Date 2019-01-23 22:32

Michael Scheidl schrieb:

mich interessiert nur was LcO Schachlich kann.
und dabei bleibt das Ratio aus

By Frank Brenner Date 2019-01-23 20:56

Den Stockfish 9 hab ich nicht mehr

Das "Leela Ratio" ist also .... ähm wie heißt die Vokabel ? Legacy !

Legacy schon alleine deswegen weil, vor allem auch für die Zukunft, nicht zwingend ein Leela Knoten die gleiche Bedeutung haben muß wie ein AlphaZero Knoten.

Man sollte aber auf jeden Fall stets die zugrunde liegende CPU + Taktfrequenz + Anzahl Cores mitteilen und wenn dann noch eine NN Engine dabei ist die dazugehörende Grafikkarte erwähnen.

By Wolfgang Battig Date 2019-01-23 21:00

Danke Frank

4000 ist mehr als ich erwartet habe. Der PC mit meiner GTX970 läuft zurzeit nicht, sonst hätte ich es selbst getestet.

Die Formel hatte Klaus ja gepostet, dafür braucht man noch die Knoten die Stockfish 9 (!) auf dem PC macht. Das Ergebnis sollte dann um 1,0 liegen, lieber etwas darunter als darüber.

Wie und woher diese Formel nun genau kommt weiß ich nicht. Ich befüchte - zu M.Scheidl's Leidwesen - dass sich jemand darüber Gedanken gemacht hat. Über Michaels Wortwahl hülle ich mal den Mantel des Schweigens...

By Tom Paul Date 2019-01-23 18:24

Frank Brenner schrieb:

Hier die Testergebnisse von einigen der letzten 32er Netzwerke
GTX970 vs Ryzen 1 core, drawkiller_tournament.pgn

100 vs 100 LC32546 20.1 vs SF18121313
95,0 vs 105,0 LC32645 20.1 vs SF18121313
93,0 vs 107,0 LC32801 20.1 vs SF18121313

Spielstärke auf absteigendem Ast, obwohl die Selfelos noch am steigen sind.

Bei dem 32er Testlauf ist das Ende also bereits überschritten und es hat bereits seit ca 2 Wochen die Degenerierung des Netzwerkes angefangen.

Du hast da offensichtlich etwas missverstanden.
Die Spielstärke gegen Stockfish ist gesunken.
Das betrifft nicht die allgemeine Spielstärke gegen sehr viele verschiedene Engines.

By Tom Paul Date 2019-01-23 18:36

https://lczero.org/training_run/2
Einfach mal das Net mit der höchsten ELO nehmen.

By Benno Hartwig Date 2019-01-24 13:21

Ich stelle mir vor, dass es vielleicht irgendwann zu einer Sättigung kommt, dass die Spielstärke dann nur noch sehr wenig und langsam steigt.
Wenn ich solche Phase ein zufälliger kräftiger Ausreißer nach oben kommt (vom Publikum als supertoll bejubelt), dann wird es lange dauern, bis mal wieder einer mit demselben oder sogar noch größerem Erfolg auftaucht.
Bei 200-Partien-Umfängen ist das zufallsbedingte Rauschen ganz sicher noch sehr erheblich!
Wenn ich laienhaft an SF rumpfriemele, geben mir so kurze Läufe allenfalls fundiert Auskunft, wenn ich die Engine kräftig verschlechtert habe.

Benno

By Reinhold Stibi Date 2019-01-24 06:55

Sehr guter Start und bitteres Ende.

Nach 34 Partien +6 =21 - 7 = -10 Elo

Nach 45 Partien +6 = 26 - 13 = 42,22 % = -54 Elo

Wird wahrscheinlich so sein, dass seit ca. 14 Tagen eine Stagnation eingetreten ist.

Das 40iger Net liegt mit ca. - 300 Elo noch weit zurück.

By Guenter Stertenbrink Date 2019-01-24 07:27 Edited 2019-01-24 07:53

32747 und 32748 (19.1.) schlugen 32585 (13.1.) beim letzten Test um ca. 20 Elo in 4182+2095 Partien

http://lczero.org/matches/

8045   2   32585   32748   test   +411 -509 =1175   -16.3   ±9.8   true   2019-01-19 23:38:57.62723 +0000 UTC
8042   2   32585   32747   test   +305 -466 =1318   -26.8   ±9.0   true   2019-01-19 23:07:13.138926 +0000 UTC
8041   2   32585   32747   test   +340 -472 =1281   -21.9   ±9.2   true   2019-01-19 22:45:41.052646 +0000 UTC

-51 Elo hier fuer 32742 gegenueber 32585 in 150 Partien gegen andere engines :
https://docs.google.com/spreadsheets/d/1XSJiCcQpCLv0fNwrUn7jXjdkZFU63YFEWpdXv6dSSg0/edit#gid=312836954

By Horst Sikorsky Date 2019-01-24 09:08

Reinhold Stibi schrieb:

das ist ja un- Menschlich so einzubrechen.
mir fehlen die Worte.

By Horst Sikorsky Date 2019-01-24 12:35

Hallo Reinhold!
nicht aufgeben, teste bitte mal Net 32771
Grüße Horst

By Reinhold Stibi Date 2019-01-24 14:41

Hallo Horst,

Net 32771 habe ich schon getestet.

habe mich weiter oben verschrieben, statt Net 73271 muss es richtig heißen Net 32771.

Nach einem sehr schlechten Start von Net 32771 14 P +0 = 11 -3 = -76 Elo

habe ich den Test abgebrochen.

Momentan teste ich Net 32856 11.607 Net Elo 40.769 Partien vom 24.01.19.

Bisher 20 Partien +4 = 12 -4 also Gleichstand mit Stockfish 10

Wäre schön, wenn Lc0 das Ergebnis halten oder leicht in Führung gehen könnte.

Grüße
Reinhold

By Clemens Keck Date 2019-01-24 17:43 Upvotes 2

es ist gruselig was aus ein paar Partien so alles abgeleitet wird hier im Forum von diversen Leuten.
Ich müsstet es doch eigentlich besser wissen.
Das sieht man wieder mal, ein Satz mit "eigentlich" ist gefährlich

bei so niedrigen Bedenkzeiten ( 2 +6 )sollten es schon mindestens 200 Partien sein.
Natürlich sind lc0 tests schwieriger, man hat ja nicht 10 rechner mit 10 grafikkarten....

C.K.

By Benno Hartwig Date 2019-01-25 08:09

> bei so niedrigen Bedenkzeiten ( 2 +6 )sollten es schon mindestens 200 Partien sein.

Ich stimme dir voll zu. Und auch bei 200 Partien sollte man nicht mehr als eine seehhr grobe Spielstärkeeinschätzung wagen.
Und bei kurzen Zeiten sind etwas größere Umfänge ja auch schnell erreicht, wenn die Kiste eben nur mal ein paar Tage rechnen darf. Darauf, denke ich, bezieht sich dein Satz.

Manchmal verstehe ich Postings hier aber auch so, als werde da gemeint, es wäre aus statistischer Sicht (Verlässlichkeit) anders, wenn längere Zeiten genommen werden,
oder wenn nur bestimmte Gegner genommen werden,
wenn z.B. nur zwei Engines gegeneinander antreten.
Aber in solche Richtung denkst du sicher nicht.

Benno

By Reinhold Stibi Date 2019-01-25 08:37

Warum testet du dann nicht mit 200 Spielen und mehr.

Ich kann mich nur wiederholen. Finde es vollkommen abwegig gegen eine Engine

200 und mehr Partien zu spielen. Wird auch in jeder Rangliste nicht durchgeführt.

In welcher Sportart wird der Sieger nach 100 und mehr Begegnungen ermittelt ?

Ob eine Engine -20 Elo bei ca. 50 Zweikämpfen hat ist doch gleichgültig. Da kann man

nicht von besser oder schlechter reden. Es könnte ja bei 1000 Partien umgekehrt sein,

ist doch vollkommen lächerlich.

Stockfish 10 ist halt der Maßstab, wer gegen Stockfish gut abschneidet, schneidet auch

gegen andere Engine gut ab.

Lc0 schneidet auch gegen Houdini und Komodo in der direkten Begegnung besser ab. Das
zeigen viele Tests.

Lc0 hat auch gegen schwächere Engine hervorragende Ergebnisse, das belegen auch meine

eigenen Tests.

Reinhold

By Reinhold Stibi Date 2019-01-25 08:53

Nun zum Thema: Lc0 hat bereits das Maximum mit 32er Nets erreicht.

Das glaube ich inzwischen nicht mehr.

Lc0 20.1 Net 32856 GTX 1050 Ti gegen Stockfish 10 3 CPU Xeon E5345

2 Min.+6 Sek.Zug mit Eröffnung 4 Zügevorgabe Stefan Pohl

58 Partien +8 =42 -8 = Gleichstand mit Stockfish 10 . Prächtige Leistung !

Lc0 hatte jetzt keine Einbrüche nach 30 und mehr Spielen.

Um Stockfish 10 zu schlagen wird es wohl noch eine Weile dauern.

0b dies überhaupt mit Net 32 oder Net 40 gelingt wird die Zukunft erweisen.

By Horst Sikorsky Date 2019-01-25 16:27

ein 3 er Turnier mit drei verschiedenen netten

ginge doch schneller, man brauch nur zwei LcO Engine umbenennen, der letzte wird nach
Minimum 100 Partien ausgewechselt und ein Neues Net spielt ab Partie 103 ... einfach weiter ...

By Clemens Keck Date 2019-01-25 16:46 Upvotes 1

he Pippi Langstrumpf

ich mach mir meine Welt , wie sie mir gefällt

viel Spaß damit

C.K.

Reinhold Stibi schrieb:

By Horst Sikorsky Date 2019-01-25 19:21

Clemens Keck schrieb:

he Pippi Langstrumpf

ich mach mir meine Welt , wie sie mir gefällt

viel Spaß damit

C.K.

Reinhold Stibi schrieb:

Danke Clemens! aber Spaß ist leicht übertrieben

By Benno Hartwig Date 2019-01-25 18:07

Engine-Schach hat viel mit Zufall zu tun (Bitte nicht falsch verstehen). Gemeint ist:
Wenn A gegen B spielt, dann existieren 3 Wahrscheinlichkeiten
pA für Engine A gewinnt
pB für Engine B gewinnt
pRemis =1-pA-pB für die Partie geht remis aus.
(Ok, Farben lasse ich dabei erst mal raus)

Und der Zufall spielt hier genau so rein wie im Spiel gegen verschiedene Engines.
Es ist dann wie Würfeln mit einem dreiseitigen Würfel, mit eben unterschiedlichen Wahrscheinlichkeiten.
Und wir versuchen durch ausreichend viele Versuche einzuschätzen, wie groß diese Wahrscheinlichkeiten sind, und interessieren uns häufig am Ende dann im Wesentlichen für die resultierende Gesamtstärke.
Aber wir haben es bei einer Enginebegegnung letztlich nur mit solch einem "Würfeln" zu tun, ganz egal, ob da immer derselbe Gegner steht oder ein anderer.

> Ob eine Engine -20 Elo bei ca. 50 Zweikämpfen hat ist doch gleichgültig.

Jaa!! Ich stimme dir voll zu!
Aber wenn denn jemand Spielstärkevergleiche machen will, die nicht sehr ungefähr besonders riesige Elo-Differenzen beschreiben, dann braucht es eben richtig viele Partien.
Dass unter letztlich dann doch nur gleichstarken Engines in den ersten Partien eine der beiden mit 10 Punkten oder auch mehr in Führung ging, erlebte ich halt so manches mal.
Und ich will daraus ja auch gar keine Aussage ableiten. Lese nur immer wieder von solchen Versuchen. Darauf wollte ich mich hier beziehen.

Benno

By Peter Martan Date 2019-01-25 18:15

Benno Hartwig schrieb:

Aber wir haben es bei einer Enginebegegnung letztlich nur mit solch einem "Würfeln" zu tun, ganz egal, ob da immer derselbe Gegner steht oder ein anderer.

Eben auch nicht, Benno.
Die Engines sind noch dazu mehr oder weniger intransitive Würfel ("chinesische").

https://de.wikipedia.org/wiki/Intransitive_W%C3%BCrfel

Ich weiß, dass du das weißt, aber spätestens seit LC0 scheint das auch wieder noch mehr Rolle zu spielen.

By Benno Hartwig Date 2019-01-25 20:23

> Die Engines sind noch dazu mehr oder weniger intransitive Würfel ("chinesische").

Klar, sobald mehr als 2 Engines dabei sind, spielt das (bei sehr genauer Betrachtung) auch mit rein.

Aber, jede Begegnung eben zweier Engines ist so zu beschreiben. (ohne Betrachtung der Farben)
Darum beschrieb ich zunächst mal nur die Begegnung zweier Engines. Und da ist man schon richtig davor, wenn man akzeptiert, dass der Zufall hier wie beim mehrmaligen Würfeln mit besonderen Würfel "zuschlägt".
Klar: der Einfluss des Zufalls und die Fehleranfälligkeit von Schätzwerten wird bei einer Vielzahl von Engines natürlich nicht kleiner.

Benno

By Wolfgang Battig Date 2019-01-25 18:13

Reinhold Stibi schrieb:

Ich kann mich nur wiederholen. Finde es vollkommen abwegig gegen eine Engine
200 und mehr Partien zu spielen.

Und ich finde es mindestens genauso abwegig, nicht mindestens (!) 100 Partien gegen mindestens 10 verschiedene Gegner zu spielen. Eigentlich sind 200 (oder mehr!!) sogar besser, weil es gerade für die Top-Engines sonst schnell dünn mit ausreichender Gegnerschaft wird. In unserer 40/4-Liste mit 1CPU, http://www.cegt.net/40_4_Ratinglist/40_4_single/rangliste.html ist Platz 10 schon über 300 Punkte hinter Platz 1. Da muss man schon fast mehr als 100 Partien spielen oder halt Vergleiche "1CPU vs. 2 oder 4 CPU".

Zitat:

Wird auch in jeder Rangliste nicht durchgeführt.

Ich verstehe den Satz so, dass du meinst dass keine Rangliste 200er-Matches macht? Der Satzbau verwirrt mich etwas

Das wäre dann allerdings nachweislich Unsinn, Reinhold. Natürlich werden nicht in jeder Rangliste bei jeder Bedenkzeit 200 Partien gespielt (bei 40/120 wäre das kaum machbar), aber es gibt schon einige:

- IPON von Ingo Bauer (220 Partien je Einzelwettkampf)
- CEGT 3'+1" (200)
- CEGT 40/4 (häufig 200 aus den oben genannten Gründen, also "Gegnermangel")
- Stefan Pohls Listen

Zitat:

In welcher Sportart wird der Sieger nach 100 und mehr Begegnungen ermittelt ?

Computerschach ist Sport? Na ja...

...

Zitat:

ist doch vollkommen lächerlich.

Wirklich?

Zitat:

Stockfish 10 ist halt der Maßstab, wer gegen Stockfish gut abschneidet, schneidet auch gegen andere Engine gut ab.

Da du eben andere Sportarten erwähntest. Auf Tennis übertragen (wenigstens ein echter Sport) bedeutete dies, dass wer gegen Djokovic oder Nadal gewinnt auch gegen jeden anderen gewinnt, also in den ersten Runden gar nicht antreten muss und gleich das Finale spielen darf? Oder beim Schach: Wer gegen Carlsson gewinnt... ??

Das allerdings ist - bei aller Vorsicht mir solchen Vergleichen - ziemlich lächerlich

Zitat:

Lc0 schneidet auch gegen Houdini und Komodo in der direkten Begegnung besser ab. Das zeigen viele Tests.

"Viele Tests"?
Wo und wann?

Und ich meine "richtige" Tests, nicht Mutmaßungen nach 10, 20 oder 30 Partien...

Zitat:

Lc0 hat auch gegen schwächere Engine hervorragende Ergebnisse, das belegen auch meine eigenen Tests.

Außer, dass du mal gegen Deep Shredder 13 hast spielen lassen, ist mir da nichts bekannt. Darfst mich gern korrigieren.
Bin gespannt.

Ich hoffe, dass ich in Kürze mit Tests beginnen kann, GTX970.
Mein Testerkollege Gerhard Sonnabend hat auf seinem i7-Notebook mit GTX1060 ein Testmatch gegen SF10 aufgesetzt. Diese Notebook-GPU hat ca. 4000 "Leela-Knoten". Erste Zwischenergebnisse gegen 1 Core sahen trotz hoher Leela-Ration (deutlich über 1) nicht gut aus.

Wir ändern allerdings auch nichts an unseren Ranglistenbedingungen nur weil Leela vielleicht nicht klarkommt...