Erster LC0 Testrun mit 20x256 Net ist durch

By Guenter Stertenbrink Date 2018-08-18 12:52 Edited 2018-08-18 13:03

danke, mit Partien und evals, sehr schoen.
Ich hoffe, ich kann das computerlesbar machen und und die
eval charts(zugnummer) spaeter hier posten.

Evtl. auch die Partien von Stockfish analysieren lassen und die Taktik-Fehler-Rate
der engines vergleichen

3248(sp-cc)=3261(CCRL) , also 39 weniger als erwartet , (==>enttaeuscht )
[nach dem div3-Desaster aber positiv uebberrascht]

sp-cc,id10555, 3248 , LR=0.67
CCRL,id10555, 3300 , LR= 875*4/6500=0.54
TCEC.id 10161, 3200 ,.LR=0.35 (96 Bonuspartien vor S13)
A0 , LR=875* 80000/70000000 = 1
875*nps(Leela)/nps(sf9)

By Guenter Stertenbrink Date 2018-08-18 15:59

http://magictour.free.fr/LEELAG6.GIF

LC0 - Optimismus-eval steigt im Durchschnitt bis Zug 25, bleibt dann gleich
der Gegner erkennt nach Zug 25 immer mehr, dass er schlecht steht,
wie von LC0 vorhergesagt

By Peter Martan Date 2018-08-18 18:59 Edited 2018-08-18 19:02

...und dann macht Leela irgendeinen Blödsinn und vergeigt wieder alles.

Nein, im Ernst, was die Maschine so beliebt macht momentan, ist natürlich das enorme Spannungselement in ihrem Spiel, baut sie wieder Sch...marrn oder diesmal wieder doch nicht. Sowas sieht das Publikum gerne.
Ich habe immer schon gesagt, Fehler sind das Salz des Schachspiels.
In Nachteil darf das Layla- Mäuschen halt schon mal überhaupt nicht kommen, sonst schmeißt sie sofort die Nerven weg (neuronales Netz halt

).
Oder doch ein Schachtürke...

By Guenter Stertenbrink Date 2018-08-20 19:23 Edited 2018-08-20 20:05

ahh, sorry, das sind ja CEGT-Elos (1 CPU,40/20) bei sp-cc und nicht CCRL-Elos.(4CPU,40/40)

Dann also 68 besser als erwartet und nicht 39 schlechter als erwartet

Code:


                      CEGT,CCRL,dif
-----------------------------------
001 Stockfish 9.0     3380,3441,061
002 Houdini 6.0       3349,3400,051
003 Komodo 11.3       3329,3405,076
004 Fire 7.1          3233,3326,093
005 Booot 6.3.1       3166,3270,104
006 Deep Shredder 13  3156,3288,132
008 Fizbo 2.0         3134,3283,149
009 Ethereal 10.55    3132,3295,163
010 Andscacs 0.94     3122,3255,133
011 Gull 3.0          3078,3184,106
-----------------------------------
                      3208,3315,107

--- LC0-10555        3261,3368

10860 sollte etwa 70 Elo staerker sein, das waer dann etwa Komodo-Niveau(1CPU)

By Stefan Pohl Date 2018-08-20 20:46

Guenter Stertenbrink schrieb:

10860 sollte etwa 70 Elo staerker sein, das waer dann etwa Komodo-Niveau(1CPU)

Das kannst du knicken. Nach knapp 100 Partien ist der Score in meinem Testrun von Net 10860 ca. -25 Elo schwächer, als die Eloperformance von 10555. Besonders gegen Stockfish 9 läuft es bisher desaströs (1.5 Punkte aus 10 Partien).

By Stefan Pohl Date 2018-08-21 06:58

Die Grund könnte hier liegen:

Turns out, that information about 50-move-no-capture-and-pawn-move-counter was located in wrong place in training data, so networks were trained without that information.

That bug existed since the first version of lc0.exe, but wasn't there in lczero.exe (v0.15). That may explain a slight Elo drop when we fully switched to lc0.exe (v0.16).

This bug will be fixed in upcoming v0.17.0.
It may however cause slight Elo drop in networks after that as it needs time to adapt.

And for the curious, what the bug was,

In the code:
struct V3TrainingData {
uint32_t version;
float probabilities[1858];
uint64_t planes[104];
uint8_t castling_us_ooo;
uint8_t castling_us_oo;
uint8_t castling_them_ooo;
uint8_t castling_them_oo;
uint8_t side_to_move;
uint8_t move_count; // Not used, always 0.
uint8_t rule50_count;
int8_t result;
};

Should be:
struct V3TrainingData {
uint32_t version;
float probabilities[1858];
uint64_t planes[104];
uint8_t castling_us_ooo;
uint8_t castling_us_oo;
uint8_t castling_them_ooo;
uint8_t castling_them_oo;
uint8_t side_to_move;
uint8_t rule50_count;
uint8_t move_count; // Not used, always 0.
int8_t result;
};

By Peter Martan Date 2018-08-18 13:26

Danke, Stefan, das sind schon mal echte Ansagen.
Bin neugierig, ob das so weitergeht.

By Stefan Pohl Date 2018-08-18 14:42 Upvotes 1

Peter Martan schrieb:

Danke, Stefan, das sind schon mal echte Ansagen.
Bin neugierig, ob das so weitergeht.

Naja, solche Sprünge werden sich wohl in nächster Zeit nicht wiederholen...
Zumal die Nets im Selfplay auf dem Testserver momentan (bestenfalls) stagnieren. Aber mein nächster Testrun mit Net 10860 und ansonsten identischen Testbedingungen läuft ja bereits. In 7-8 Tagen sind wir schlauer. Generell ist natürlich immer anzumerken, daß 300 Partien nicht gerade viel sind. Insofern hat man schon noch hohe Errorbars und ein einzelner Testrun kann daher auch mal etwas nach oben oder unten ausreißen. Daher sind weitere Testruns mit 20x256 Nets vonnöten.

By Reinhold Stibi Date 2018-08-18 17:43

Vielen Dank an Stefan Pohl

für die hervorragende Dokumentation.

Es ist schon sensationell dass Lc0 gegen Stockfish 9 nur ca. 100 Elo zurückliegt.

Bei den neuesten Stockfishe dürften es ca. 150 Elo sein.

Meine Tests stimmen im großen und ganzen mit deinen überein.

Weitere Auswertungen erfolgen von mir mit ChessBase 9. Bin bisher aus zeitlichen Gründen
dazu nicht gekommen, wird aber nachgeholt.
Auch werde ich mich in der nächsten Zeit näher mit den Partien von Lc0 und dessen Schwächen befassen.

Nach meinen Tests ist Lc0 bereits die viertstärkste Engine.

By Tom Paul Date 2018-08-18 21:00

Und die ELO fällt und fällt und fällt weiter nach unten:

http://testserver.lczero.org/

By Guenter Stertenbrink Date 2018-08-19 08:16 Edited 2018-08-19 08:19

aber nur die Elo in Partien gegen sich selbst,
nicht die Elo in Partien gegen andere engines !

hier gab es just einen merkwuerdigen Sprung auf 3448 in the MTGOStark Liste

muss man aber abwarten, ob sich das bestaetigt

Lc0 ID 880 4485.13 3448 3483 3303
Lc0 ID 878 4495.02 3373 3408 3239
Lc0 ID 875 4493.49 3388 3423 3251
Lc0 ID 870 4509.32 3296 3331 3173
Lc0 ID 868 4513.99 3372 3407 3238
Lc0 ID 865 4572.78 3328 3363 3200
Lc0 ID 860 4570.58 3350 3385 3219
Lc0 ID 857 4576.67 3339 3374 3210
Lc0 ID 855 4565.79 3355 3390 3224

By Ingo Althöfer Date 2018-08-19 09:47

Hallo Günter,
danke für den Bericht.

Guenter Stertenbrink schrieb:

... hier gab es just einen merkwuerdigen Sprung auf 3448 in the MTGOStark Liste
muss man aber abwarten, ob sich das bestaetigt

Lc0 ID 880 4485.13 3448 3483 3303
Lc0 ID 878 4495.02 3373 3408 3239
Lc0 ID 875 4493.49 3388 3423 3251
Lc0 ID 870 4509.32 3296 3331 3173
Lc0 ID 868 4513.99 3372 3407 3238
Lc0 ID 865 4572.78 3328 3363 3200
Lc0 ID 860 4570.58 3350 3385 3219
Lc0 ID 857 4576.67 3339 3374 3210
Lc0 ID 855 4565.79 3355 3390 3224

Bei diesen Zero-Projekten sollte man sich nur über
wenig wundern.

AlphaZero-Chess hatte auch "lange" herumgekrebst,
bevor es irgendwann einen grossen Durchbruch gab.

Ingo.

By Damir Desevac Date 2018-08-19 12:15 Upvotes 1

Ich glaube nicht dass Google Leute alles von Alphazero in ihren Papiren geschrieben haben in was Die veröffentlicht haben… Sie haben nicht die ganze Wahrheit gesagt

By Lothar Jung Date 2018-08-21 20:43

Das meine ich nicht:

Ergebnisse von Lc0 17, Net 10928, 2 x GMX 1080, Blitz 5/3:

SF 9, 4 Kerne, gewinnt 3:0:7
Komodo 11.01, 4 Kerne, verliert 1:3:6

Lothar

By Lothar Jung Date 2018-08-22 18:52

Ein kleiner Durchbruch:
Mit dem Netz 10968 gewinnt Lc0 17.0 (2x1080) bei einem Blitztunier 5/5 gegen SF 9 mit 4 Cores, 3.6 GHz (Ryzen 1800x)
mit 3:0:7 doch recht eindrucksvoll.
Meine Intension ist es nicht mit meiner schnellen GPU-Hardware mich an den Ergebnissen zu befriedigen.
Ich möchte nur dazu beisteuern zu zeigen, wie nahe Leela den TOP 3 der Engines nahekommt.
Eine Frage am Rande: Lohnt sich „pondern“ bei Leela?
Ich glaube es hilft eher den A/B-Engines.
Gruß
Lothar

By Horst Sikorsky Date 2018-08-22 19:35

< Ich glaube es hilft eher den A/B-Engines. >
das glaube ich auch sehr!
< Lohnt sich „pondern“ bei Leela? >
viel mehr Strom und Wärme ... ich mache es nicht mehr
Gruß
Horst

By Guenter Stertenbrink Date 2018-09-06 09:00 Edited 2018-09-06 09:28

> Lange Testzeiten von LC Zero Net 11141 beendet - wieder ein kleiner Fortschritt.

> Die langen Testzeiten von LC Zero wurden aufgehoben, da das neuronale Lernen
> von LC Zero neu gestartet wurde und die neuen 20xxx-Netze bis jetzt viel schwächer
> sind als die neuesten 10xxx-Netze. Meine Tests werden fortgesetzt, wenn die neuen
> Netze so stark werden wie die älteren 10xxx-Netze. Ich werde von Zeit zu Zeit einige
> schnelle Tests von LC Zero gegen Stockfish durchführen, um den Fortschritt der
> 20xxx-Netze jenseits des reinen Selbstspiels-Elo zu messen.
>
> https://www.sp-cc.de

ich wuenschte , dass 11261 , das letzte der 10xxx hier noch getestet wuerde.
Sozusagen als Abschluss der 10er Testserie und bisher bestes Ergebnis,
das (wenigstens ?!?) einige Wochen,Monate Bestand haben sollte.
Laut MTGOStark koennte da noch ein weiterer Anstieg sein sein 11141.

http://magictour.free.fr/lc0r4y.GIF

------------------------------------------------------------

alle LC0-Elo-Tests :

average of 8 rating lists , missing values estimated

3365,Stockfish 9
3332,Houdini 6.03
3313,Komodo 12.1.1
3291,Lc0-11261
3191,Fire 7.1
3150,Ethereal 10.97
3138,Shredder 13
3121,Ginkgo
3116,Fizbo 2
3096,Andscacs 0.94
3089,Booot 6.3.1
3070,Laser 1.6
3063,Gull 3

Durchschnitt von 8 Ratinglisten + geschaetzt bei Luecken
(Leela-Ratio =1)

-----------------------------------------------------------

my corrected LC0-LR=1, elo estimate wrt. above list

3250,22, AS, 11261
3300,1440 , Enrico Caruso 4ids>11000
3401,100 , Capri Corn , 11198 ; Stockfish Zeitueberschreitungen ?!
3300,500 , Cscuile , 5ids>11000
3340,100 , JH , 10780 ; gute Hardware
3253,320 , Pohl , 11141
3255, ~585? , MTGOStark , 39ids>11070
-------------------------

3300 = average
3291 = average weighted by #games :

LC0-Elo nimmt angeblich zu mit der Hardware bis zu ca. zwei 1080ti , dann nimmt sie wieder ab
(immer auf LR=1 umgerechnet)

die Liste werde ich vorr. hier
http://immortalchess.net/forum/showthread.php?t=36785&page=13
updaten , wo ich beliebig lange editieren kann