LC0 v0.21.2-42668 neue Nummer 1 (eins) bei der CEGT?

By Reinhold Stibi Date 2019-07-05 22:23

Das könnte sein, dass Lc0 bei CEGT den 1. Platz in der Rangliste belegt.

In der direkten Begegnung mit Stockfish hat Lc0 mit Net 42668 nach meinen Tests nicht gut abgeschnitten.

Auch bei Stefan Pohl hat Lc0 mit diesem Net in der direkten Begegnung mit Stockfish nicht besonders gut abgeschnitten:
Nur 50,89 % aber hervorragend gegen die anderen Engines.

Die in etwa gleichen Ergebnisse würden wahrscheinlich auch andere neuere Nets erbringen, oder vielleicht sogar noch etwas besser.

Die Frage ist bei CEGT ob auch ein neuerer Stockfish verwendet wurde und auch die Hardware in etwa die gleiche Stärke hatte.
Soviel mir in Erinnerung ist, ist bei CEGT Lc0 mit 1.3 statt 1.0 in Vorteil.
Bei Stefan Pohl dürften leichte Vorteile in der Hardware bei Lc0 liegen.
Es ist aber schon sehr beachtlich wie dort Lc0 gegen die anderen Engines abgeschnitten hat.

By Wolfgang Battig Date 2019-07-06 02:24

Reinhold Stibi schrieb:

Das könnte sein, dass Lc0 bei CEGT den 1. Platz in der Rangliste belegt.

Möglich, aber wenn überhaupt dann nur sehr knapp, sodass man nicht eindeutig von "stärker" sprechen kann.

Zitat:

In der direkten Begegnung mit Stockfish hat Lc0 mit Net 42668 nach meinen Tests nicht gut abgeschnitten.

Die direkte Begegnung gewann LC0 hier mit +30 ELO

....

Zitat:

Die Frage ist bei CEGT ob auch ein neuerer Stockfish verwendet wurde

Steht alles bei uns im Forum, einfach nachlesen.
Stockfish vom 20.März, 20 ELO stärker als Stockfish 10.
Eine neuere haben wir (noch) nicht in der Liste, und es macht keinen Sinn eine Engine ohne Rating als Gegner zu nehmen.

Zitat:

und auch die Hardware in etwa die gleiche Stärke hatte.
Soviel mir in Erinnerung ist, ist bei CEGT Lc0 mit 1.3 statt 1.0 in Vorteil.

1,3 kommt in etwa hin

Zitat:

Bei Stefan Pohl dürften leichte Vorteile in der Hardware bei Lc0 liegen.

er hat m.W. auch etwa 1,3

Angesichts der leicht "leela-freundlichen" Bedingungen und weil Stockfish mit neueren Devs sicher auch wieder etwas zugelegt haben dürfte, sehe ich LC0 noch nicht vorne, aber es ist jedenfalls sehr eng.

By Reinhold Stibi Date 2019-07-06 07:50

Bei den Tests von Lc0 Net 42668, jetzt am Beispiel, gegen Stockfish   sieht man doch den Einfluss
der verschiedenen Versionen von Stockfish und insgesamt der verwendeten Hardware.

Bei mir waren nach 126 Partien + 19 für Stockfish,

bei Stefan Pohl nach 112 "    + ca. 3 Elo (von mir geschätzt) für Lc0

und bei CEGT    +30 Elo für Lc0
Anzahl der Partien
ist mir nicht bekannt.

Die stärkste Differenz ist 49 Elo.

Zu bedenken sind auch die unterschiedlichen Bedenkzeiten.

Nach meinen großen Engine Turnieren lag bisher Stockfish vorne, beim letzten Turnier allerdings nur 1/2 Punkt.

Meine Prognose mit einem neueren Stockfish und einer neueren Lc0 ganz knapper Vorsprung von Lc0.
Da kann man aber nicht von besser oder schlechter sprechen.

By Wolfgang Battig Date 2019-07-06 12:15 Edited 2019-07-06 13:00

Zitat:

und bei CEGT +30 Elo für Lc0
Anzahl der Partien
ist mir nicht bekannt.

Warum liest du es nicht einfach nach? Kann doch eigentlich nicht so schwer sein

http://cegt.forumieren.com/t1152-testing-lczero-0-21-2-cuda-nw42668

Grundsätzlich gebe ich dir aber recht. Der Abstand - egal wer vorne" ist - ist zu gering, als dass man von besser bzw. schlechter reden könnte

By Wolfgang Battig Date 2019-07-06 02:04

Peter Weise schrieb:

Mein Rechner macht noch immer Pause wegen der brutalen Temps und meine Anfrage diesbezüglich blieb bisher unbeantwortet:
<a class='ura' href='http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=122756#pid122756'>http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=122756#pid122756</a>

Um deine dort gestellte - von mir überlesene - Frage zu beantworten: weder noch! Meine Rechner (alles Tower, keine Notebooks) laufen alle mit normaler Luftkühlung, allerdings nicht mit Standard oder Boxed-Kühlern sondern höherwertigen, z.B. von beQuiet o.ä.
Zudem stehen die Rechner im Keller, wo es naturgemäß kühler ist und eine Seite des Gehäuses ist offen. Vorteil: bessere Luftabfuhr, Nachteil: mehr Staub im Gehäuse, aber darum sollte man sich eh regelmäßig kümmern.

By Peter Weise Date 2019-07-06 08:41

An einen Keller hatte ich nicht gedacht ich habe leider keinen. Ich kämpfe um jedes Grad weniger in einer Altbau Dachgeschoß Maisonette Wohnung und dabei kann mir die Grafikkarte und das Netzteil des PCs nicht helfen, ganz im Gegenteil. Deshalb muß der zur Zeit aus bleiben man hat ja noch ein Tablet.

By Wolfgang Battig Date 2019-07-06 12:08

Unterm Dach könnte ich die Rechner auch nicht betreiben, zum Ausgleich kannst Du im Winter deine Wohnung heizen...

Der Raum in dem insgesamt vier Rechner werkeln (zwei davon mit Grafikkarte), ist schon deutlich wärmer als die übrigen Kellerräume. Und das, obwohl keiner der Rechner mit 100% Last läuft

By Peter Weise Date 2019-07-07 17:55

CEGT 40/20 von heute:


LCZero 0.21.2 Cuda (42668) = 3483 /  233 Partien
Stockfish 10 x64 1CPU =      3422 / 2561 Partien

Natürlich viel zu wenige Partien bisher trotzdem beeindruckender Start!
Leider ist noch keine neue 40/4 Liste der CEGT online obwohl dort immerhin 800 Partien gespielt wurden?!

By Wolfgang Battig Date 2019-07-08 02:04

Ein Update der 40/4-Liste wird es im Laufe der Woche geben, Tag steht noch nicht fest.
Wir machen grundsätzlich keine Zwischenupdates, auch nicht für Top-Engines. Dazu ist der Aufwand bei 2270 Engines/Versionen viel zu groß.

By Peter Weise Date 2019-07-08 08:48

Danke für die Information. Ich dachte da in der 40/20 Liste schon seit dem letzten Update und nach nur 223 Partien LC0 v0.21.2 bereits aufscheint so würde dies bei immerhin 800 Partien in der 40/4 Liste erst recht der Fall sein. Vielen Dank für den Service.

By Wolfgang Battig Date 2019-07-08 12:16

Gerne!
Das liegt daran, dass die 40/20 ganz regelmäßig jeden Sonntag ein Update erhält (ausgenommen bei Urlaub oder Krankheit), während das bei der 40/4 eher "in loser Folge" passiert, meist alle zwei bis maximal 3 Wochen.

Bei der 40/20 ist das möglich, weil sich 2 unserer 4 Tester (Werner, Michael) ganz dieser Liste widmen.
Gerhard und ich "arbeiten" an der 40/4, der 5+3PB und der 3+1PB. Da zieht sich das naturgemäß ein wenig auseinander.
Und ich versuche "nebenbei" noch unsere 40/120 am Leben zu erhalten, was aber immer schwieriger wird. Daher liegt dort die Update-Frequenz bei mehreren Monaten.

Tester und Hardware findest Du hier: http://www.cegt.net/testers/testers.html

By Wolfgang Battig Date 2019-07-06 12:40 Edited 2019-07-06 12:46 Upvotes 1

Stefan Pohl: +48 (3503 <=> 3455), https://www.sp-cc.de/lc0-testing.htm (784 Partien)
CEGT 40/4: +59 (3480 <=> 3421), http://cegt.forumieren.com/t1152-testing-lczero-0-21-2-cuda-nw42668 (aktuell 700 Partien, steigend)

Hast du Links zu Listen (!!, nicht irgendwelche Einzeltests), wo es "nur" 30 Punkte sind. Wäre nett, wenn du sie posten könntest. Schaue es mir gerne an.

Unabhängig davon bin ich schon überrascht (um nicht zu sagen: erschüttert), dass jemand, der sich wie du sehr aktiv mit Computerschach beschäftigt, so eine Anmerkung macht. Es sei denn, er hätte in den letzten Jahren auf einem anderen Planeten gelebt...

Ist mir in deinem Fall aber nicht aufgefallen

Es gibt soooo viele Beeinflussungsfaktoren, das ist doch alles nix Neues mehr (muss ich das wirklich alles wiederkäuen?):

- Bedenkzeit
- Eröffnungen (Bücher, Vorgaben, lange/kurze Varianten etc.)
- Hardware (war jahrelang kein Thema, spielt seit Leela aber wieder eine ganz wichtige Rolle, weil GPU vs. CPU, kaum/schwer vergleichbar, Stichwort: Leela-Ratio)

und gaaaanz wichtig:
- Partienzahl und damit verbunden der Unsicherheitsfaktor, auch Error-Bar genannt!
Bei 700-800 Partien hast du etwa +/- 20 (95%ige "Sicherheit").

Da werden aus ca. 50 Punkten leicht mal ca. 30. Können natürlich auch ~70 werden...
Und Ausreißer gibt es mit 5%iger Wahrscheinlichkeit auch.
Selten, aber möglich.

By Stefan Pohl Date 2019-07-06 12:55 Edited 2019-07-06 13:12 Upvotes 1

Wolfgang Battig schrieb:

Stefan Pohl: +48 (3503 <=> 3455), <a class='urs' href='https://www.sp-cc.de/lc0-testing.htm'>https://www.sp-cc.de/lc0-testing.htm</a> (784 Partien)
CEGT 40/4: +59 (3480 <=> 3421), <a class='urs' href='http://cegt.forumieren.com/t1152-testing-lczero-0-21-2-cuda-nw42668'>http://cegt.forumieren.com/t1152-testing-lczero-0-21-2-cuda-nw42668</a> (aktuell 700 Partien, steigend)

Ich finde, das stimmt ziemlich gut überein, bei diesen wenigen Partien, die jeweils gespielt wurden. Zumal mein Testrun von 42668 ja sehr viel besser losging, als er schließlich endete, weswegen ich der Meinung bin, daß mein Ergebnis vermutlich eher etwas zu schlecht ausgefallen ist.

Ich bin übrigens dabei, einige pre-Tests zu machen, um meine lc0-Testerei auf kürzere Bedenkzeiten umzustellen und so pro Testrun 3000 Partien zu spielen (je 500 gegen 6 Gegner, nicht mehr 7 Gegner). Damit werden nicht nur die Endergebnisse weit genauer, auch die Einzelergebnisse (lc0 - Stockfish) sind dann statistisch zumindest einigermaßen stabil, da es nun 500 Partien sind, nicht mehr nur 100. Denn egal, wie wenige Partien man in einem Einzelvergleich spielt, immer werden diese Ergebnisse als Fakten betrachtet (besonders z.Zt. bei lc0 - Stockfish), auch wenn 100 Partien lachhaft wenig sind und schon 2-3 Siege mehr das Ergebnis gleich um mehrere Prozent (und damit um 15-30 Elo) verschieben. Und ich habe einfach keine Lust, diese unsinnigen Debatten dazu zu lesen, geschweigen denn zu kommentieren. Um dieser statistischen Einfalt einen Riegel vorzuschieben hilft also nur, mehr Partien zu spielen. Denn zu erklären, daß man 100 Partien-Ergebnisse nicht wirklich ernst nehmen kann, ist offensichtlich zwecklos.
Zeit wird sein 50''+500ms (durchschnittliche Partiedauer ca. 3 Minuten). Dabei ist zu beachten, daß die AB-Engines ja mit 5.5 Cores laufen, also etwa 5x schneller, als z.B. in meinen Stockfish-Testruns auf meiner Hauptseite, wo ja alles im singlethread-Modus gespielt wird. Und wenn man das mit einrechnet, ist diese Bedenkzeit eigentlich sogar beträchlich länger, denn x5 ist es (umgerechnet auf single-Betrieb) ja 250''+2500ms (also gut 4 Minuten Basiszeit und 2.5 Sekunden Inkrement). Und in meinen Stockfish-Testruns sind es 3'+1''. Insofern sind 50''+500ms gar nicht so kurz, wie man zunächst denkt...

By Reinhold Stibi Date 2019-07-06 12:57

Wolfgang,

wir sind ja alle so blöd.

Gut dass wir dich haben, dass du uns zurechtweisen und aufklären kannst.

Ich möchte auch gerne alles besser wissen, aber leider ist es nicht so.

Reinhold

By Wolfgang Battig Date 2019-07-06 13:14 Edited 2019-07-06 13:17

Ich habe niemanden zurechtgewiesen, sondern mein Erstaunen ausgedrückt, dass jemand wie Günter, der sich viel mit der Materie beschäftigt, vorgibt, solche, ich nenne sie mal "Binsenweisheiten" im Computerschach, nicht zu kennen. Denn, dass er sie wirklich nicht kennt, kann ich kaum glauben.

Ansonsten steht es dir frei, meine Postings zu ignorieren, wenn sie dir nicht passen. Ist dein gutes Recht! Das Forum bietet dafür auch eine Funktion, sodass du dich zukünftig von mir nicht mehr belästigt, zurechtgewiesen oder belehrt fühlen musst.

Ich bin übrigens weit, sehr weit davon entfernt "alles besser zu wissen". Aber ein gewisses Grundwissen sollte schon sein, wenn man über ein Thema schreibt bzw. diskutiert.

By Reinhold Stibi Date 2019-07-06 13:33

War ja nur ironisch von mir gemeint, da darf man nicht jedes Wort auf die Goldwaage legen.

und besonders war es nicht ein Angriff gegen dich.

Ich selber war auch schon des Öfteren zu kritisch was mir manche übelgenommen haben.

By Wolfgang Battig Date 2019-07-06 13:57

By Guenter Stertenbrink Date 2019-07-06 13:44 Edited 2019-07-06 13:51

wir vergleichen ja nur 2 Lc0-Versionen , 32930 und irgendein aktuelles 42xxx.
Da ist es ziemlich egal, welches die Konditionen sind, solange sie bei beiden Tests dieselben sind.

Ich hab doch lange Zeit die Liste gefuehrt und aktualisiert
http://magictour.free.fr/lc0tests.txt

da hat sich in letzter Zeit nicht viel getan, wurde also nicht mehr aktualisiert.

siehe auch den August -thread

C.K. wollte noch in diesem Jahr 32930 testen , bis dahin nehm ich ihn raus beim Durchschnitt

---------------------------

against 32930 (2019/02/04) :

mtgostark(150) , 30(5) , 35(10)
glbch(200) , 34(20) , 23(10)
c.k.(100) , 68(4) , 51(10)
sp-cc(700) , 28(5)
mattblach(100) , 24(5) , 24(10)
-----------------------------------------
average 2019/05/19 : +29 Elo better than 32930 (CCRL-Elos)

------mtgostark(150) , 3466(5) , 3467(10)------
(11248,3411,2018/10/08)
(32930,3431,2019/02/04)
41550,3403
41600,3412
41650,3448
41665,3423
41700,3462
41711,3447
41725,3422
41750,3434
41770,3448
41800,3469
41825,3463
41850,3448
41876,3451
41900,3444
41925,3433
41950,3463
41958,3458
41975,3445
42000,3485
42025,3467
42050,3465
42075,3467
42100,3471
42100t6-532,3485
42100t8-610,3488
42125,3476
42150,3463
42175,3462
42200,3460
42225,3460
42250,3469
42275,3434
42300,3465
42350,3466
42400,3484
42450,3455
42500,3481

-----glbch(200) , 56(5) , 51(10) , 51(15)---------
(32930,28)
41770,48
41800,57
41812,71
41823,25
41830,16
41845,36
41852,43
41862,53
41871,44
41876,55
41889,86
41906,48
41917,55
41930,59
41940,58
41953,64
41965,21
41978,57
41985,44
41997,30
42021,55
42046,63
42046,63
42070,90
42070,35
42070,31
42100,46

sf-19042720
42161,56,1000
jh.t6.532,66,1000
jh.t8.610,68,1000
42282,58,1000
42355,51,1000
42372,56,1000
42282,42,1010
jh.t8.610,53,1000

------c.k.(100) , +8(4) , -9(10)-------
(33000,-60)
41812,-24
41889,-38
41906,-53
41965,-28
41997?,-14
42000,+03
42000,-03
42029,-24
42043,-28
42070,-03
42070,-07
42100,-19,200
42107,-17
( 42206,+24 )
t8.610,+10,360
42176,+2,180
42347,+8,180
42361,+12,360
42232,+19,360
42461,+12,180
42372,

----sp-cc(300) , +26(5) , 3581(5)----------------
(11260,3527)
{32930,+56,3553}
sf10,3547
sf-190504,3566

41665,+56,3577
41800,+94,3582
41800dk,+56,3561
41978,+62,3577
42100,+94,3604
jh.t8.610, 3573
jh.t6.532, 3567
42243, 3573
42350, 3586
42392,

against average of sf,ho,ko
against 7 engines , CCRL-Elos

-----mattblach(100) , 3472(5) , 3469(10)-----------
11248,3433(50)
32930,3448
32890,3473
41631,3473
41665,3451
41680,3448
41711,3491
41800,3487
41842,3499
41876,3466
41916,3470
41958,3466
41965,3466
42017,3466
42100,3459
t8.610,3480
42232,3502
42287,3459
42347,3434
42372,3484

https://docs.google.com/spreadsheets/d/1XSJiCcQpCLv0fNwrUn7jXjdkZFU63YFEWpdXv6dSSg0/edit#gid=312836954
https://docs.google.com/spreadsheets/d/1681AAHzmxIIujzCXAZsPV-ycZk_BCNUKl45LquYRhSg/edit#gid=1682609908
https://www.sp-cc.de/lc0-testing.htm
https://docs.google.com/spreadsheets/d/1rS9dw2WebiCIhyMH4L7YH2ZB2b_Bi8Ac9UahuPBoQa8/edit?usp=sharing
https://docs.google.com/spreadsheets/d/1QxAG6XVTvvTAGlZ-kpSSvv0VuMGh7RkJjgKqgT37vMU/edit?ts=5bf04640#gid=1633485693

---------------48% draws-------------------------
t6-532,12.8,7100
42010,2.8,6300
sf-dev,0,37700
42100,-1.0,7100
41997,-3.3,6200
42016,-5.0,6100
41800,-7.6,4900
42000,+1.0,1500
---------------------
T8.610,14.9,14050
T8,575,12.5,12502
T6,532,12.1,8000
42176,7.5,11602
42232,4.6,16250
42010,1.7,8000
42145,0.7,10400
sf-dev,0,138008
42100,-0.6,8000
41997,-1.1,8000
42200,-1.1,12202
42154,-4.2,11002
42016,-5.6,8000
41800,-8.3,8000
32930,-21.2,2000

By Wolfgang Battig Date 2019-07-06 14:13

Guenter Stertenbrink schrieb:

wir vergleichen ja nur 2 Lc0-Versionen , 32930 und irgendein aktuelles 42xxx.
Da ist es ziemlich egal, welches die Konditionen sind, solange sie bei beiden Tests dieselben sind.

Ja, bei einem Vergleich innerhalb einer Liste bzw. von Listen mit exakt (!) gleichen Bedingungen mag das zutreffen.

Deine Anmerkung weiter oben, auf die ich geantwortet habe:

Zitat:

: "ist mir irgendwie unklar, wie Lc0 bei CEGT ~50 Elo gutmachen kann gegenueber 32930
waehrend in den anderen Listen und Tests nur 30 Elo rauskommen"

impliziert für mich aber einen Vergleich unterschiedlicher Listen. Jede Liste hat nunmal andere Bedingungen (Bedenkzeit, Hardware, Partienzahl, Gegnerauswahl usw.), da ist es für mich ganz normal, dass unterschiedliche Differenzen herauskommen.

Du kannst zwei Listen mit unterschiedlichen Bedingungen nicht exakt miteinander vergleichen, auch wenn die Bedingungen innerhalb jeder einzelnen Liste immer gleich sind.

By Guenter Stertenbrink Date 2019-07-06 14:28 Edited 2019-07-06 14:38

nach meiner Erfahrung klappt das ziemlich gut , die Differenzen sind meist dieselben.

Unabhaengig von Hardware,Buch,Bedenkzeit,Gegner

nimm dir einfach irgend 2 Listen (sogar eret) und irgend 2 engines , die Elo-Differenzen sind aehnlich

Also sollte man mal alle Partien in einen Topf schmeissen und die Gesamt-Elo berechnen ...

--------------------------------

http://magictour.free.fr/POHL19A.GIF
http://magictour.free.fr/ERETP2.GIF

By Wolfgang Battig Date 2019-07-06 14:39

ich sehe das - auch aus Erfahrung heraus - anders. Da werden wir wohl nicht übereinkommen.

By Guenter Stertenbrink Date 2019-07-06 14:49

irgendwann macht mal jemand eine umfassende Statistik ...