Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Allie Testrun durch
- - By Stefan Pohl Date 2019-09-23 09:51 Edited 2019-09-23 10:10 Upvotes 2
https://www.sp-cc.de/lc0-testing.htm

Auch, wenn in der statistischen Spaßveranstaltung TCEC Allie gerade mächtig für Furore sorgt, ist die Wirklichkeit bei weitem nicht so spektakulär...
Ich habe die Allie 0.5dev, die im TCEC spielt, mit dem Leelenstein 10.2 Netz getestet. Und hatte zuvor schon lc0 0.22.0 mit dem Leelenstein 10.2 getestet.

Code:

     Program                     Elo    +    -   Games   Score   Av.Op.  Draws

   1 Stockfish 190622 bmi2     : 3510    5    5 11000    64.2 %   3401   51.2 %
   2 Stockfish 10 181129       : 3508    7    7  6000    71.2 %   3345   48.3 %
   3 Lc0 0.22.0 T40B.4-160     : 3504    9    9  3000    67.9 %   3365   47.0 %
   4 Lc0 0.21.2 42741          : 3497    9    9  3000    67.5 %   3362   46.7 % <--- hier
   5 Lc0 0.22.0 T40B.2-106     : 3494    9    9  3000    67.1 %   3362   45.7 %
   6 Lc0 0.21.3 42850          : 3490   10   10  3000    66.7 %   3362   46.0 %
   7 Lc0 0.21.2 42595          : 3487    9    9  3000    66.3 %   3362   47.0 %
   8 Lc0 0.21.2 T40.T8.610     : 3486    9    9  3000    66.1 %   3362   46.0 %
   9 Lc0 0.22.0 LStein 10.2    : 3466    9    9  3000    63.7 %   3362   46.0 % <--- hier
  10 Lc0 0.22.0 LD2            : 3457    9    9  3000    62.6 %   3362   46.9 %
  11 Lc0 0.21.4 32930          : 3437    9    9  3000    60.0 %   3362   50.2 %
  12 Allie 0.5dev LS 10.2      : 3434    9    9  3000    59.3 %   3365   51.7 % <--- hier
  13 Houdini 6 pext            : 3423    4    4 13000    50.8 %   3416   55.0 %
  14 Lc0 0.22.0 11260          : 3408    9    9  3000    56.3 %   3362   53.8 %
  15 Komodo 13.1 bmi2          : 3407    6    6  6500    54.7 %   3372   53.1 %
  16 Komodo 13.01 bmi2         : 3392    5    5 10500    46.2 %   3419   52.3 %
  17 Scorpio 3 NN-Maddex       : 3343    9    9  3000    47.2 %   3365   50.6 %
  18 Fire 7.1 popc             : 3293    4    4 13000    32.5 %   3427   46.4 %
  19 Xiphos 0.5.3 bmi2         : 3281    5    5 13000    30.9 %   3427   45.7 %
  20 Ethereal 11.53 pext       : 3273    4    4 13000    29.9 %   3428   44.4 %


Diese zwei Testruns lassen nun folgende Schlußfolgerungen zu (und zwar statistisch belegbar):

1) Allie ist mit demselben Netz meßbar schlechter als lc0 0.22.0 (und das bei recht kurzer Bedenkzeit, wo Allie dank weit höherer Knotenzahlen tendenziell eher besser abschneiden sollte als lc0) (-32 Elo)
2) Das Leelenstein Netz ist meßbar schlechter, als die besten 40xxx Netze (-31 Elo zu Netz 42741, beide mit lc0 getestet)
3) Die Kombination Allie plus Leelenstein Netz ist (folgt ja auch aus 1( und 2)) viel schlechter als die beste Kombination aus lc0 und einem 40xxx Netz (-63 Elo zu lc0 mit Netz 42741).

Also enttäuschend auf der ganzen Linie. Vom anderen "Hybriden" Scorpio NN will ich gar nicht erst reden, der ist nochmal -90 Elo schlechter.

Das TCEC ist ein tolles Turnier mit toller Präsentation - ich finde es super. Mehr aber eben auch nicht. Statistisch ist diese Premier Division eben nicht wirklich aussagekräftig. Gute 40 Partien pro Engine sind eben fast nichts. Die Errorbar mßte mehr als +/-50 Elo breit sein. Damit ist die Vergleichs-Errorbar auch mindestens 70 Elo breit. Die Rangfolge der Top3 am Ende der Premier Division (also lc0, Allie und Stockfish) ist somit reiner Zufall (=Turnierglück), denn laut meiner Rangliste (s.o.) liegen die Top3 genau in einem 70-Elo Intervall. Und damit ist auch Zufall, welcher der Top3 nicht ins Superfinal einzieht (immer vorausgesetzt, daß Stockfish nicht zum dritten Mal crasht und noch disqualifiziert wird...).
Parent - - By Rainer Maikowski Date 2019-09-23 11:21
Aber Allie ist nicht da sselbe wie Alle+Stein.
Gibt es da eleomäßig eine signifikante Differenz?
R.Maikowski
Parent - By Stefan Pohl Date 2019-09-23 16:30
Rainer Maikowski schrieb:

Aber Allie ist nicht da sselbe wie Alle+Stein.


Doch. Die 0.5dev, die ich getestet habe ist dieselbe Version, die jetzt im TCEC spielt. Dort kommt irgendein 10er Leelensteinnetz dazu. Welches ist unklar. 10.1 hat aber auf discord in einigen Tests auch nicht wirklich überzeugt.
Parent - - By Eduard Nemeth Date 2019-09-23 11:30
Allie spielt beim TCEC vermutlich nicht mit Leelenstein Version 10.2 sondern 10.1 oder einem neueren 10.x. Auf Patreon steht doch, dass 10.2 schwächer ist als 10.1. Darum ist es ja auch frei verfügbar.
Parent - By Stefan Pohl Date 2019-09-23 16:28
Das ist korrekt. Dennoch ist realistisch nicht davon auszugehen, daß das verwendete Leelensteinnet viel besser ist. Auf discord gibt es Testruns mit dem nicht freien 10.1, das sieht auch nicht besser aus.
Up Topic Hauptforen / CSS-Forum / Allie Testrun durch

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill