Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Lc0 N:32930 Ergebnis online
1 2 Previous Next  
Parent - By Stefan Pohl Date 2019-04-11 14:34 Edited 2019-04-11 14:41 Upvotes 2
Wenn ich mit Net 41665 durch bin (voraussichtlich morgen Abend, Ergebnis online aber erst übermorgen), werde ich zunächst 41800 testen, welches z.Zt. im TCEC die Premier Division spielt. Nets aus dem TCEC sind natürlich immer interessant, da das TCEC sich großer Aufmerksamkeit erfreut - da kann ein statistisch zumindest halbwegs seriöser Testrun des aktuell spielenden Nets auf jeden Fall nicht schaden.
Für noch aktuellere Nets ist danach immer noch Zeit. Zumal bei potato chess sowohl Net 41838 als auch 41860 nicht besser als 41665 waren. 41887 läuft gerade und sieht bisher auch nicht besser aus als 41665.

Zwischenstand nach nun 500 Partien bei mir: Net 41665: +27 Elo zu Net 32930
Parent - - By Stefan Pohl Date 2019-04-13 08:13 Upvotes 2
Das Endergebnis von Net 41665 ist nun online:

https://www.sp-cc.de/lc0-testing.htm

(Noch 41 Elo fehlen zu Stockfish 10...langsam wird es eng)
Parent - - By Reinhold Stibi Date 2019-04-13 09:15
Schade dass deine Partien nicht vollständig sind.

Der 1. Zug beginnt nach der Eröffnung. Warum eigentlich ?

Auch vermisse ich weitere Angaben wie Zeit der Berechnung, Tiefe der Berechnung.

Das wäre doch alles problemlos mit der Fritz 15 GUI möglich.

Das war doch früher nicht der Fall.

Warum diese Einschränkung; da gibt es doch nicht zu verbergen.

Dadurch verlieren die Partien erheblich an Wert, da viel weniger nachvollziehbar ist.

Danke !
Parent - - By Stefan Pohl Date 2019-04-13 13:37 Upvotes 1
Reinhold Stibi schrieb:

Schade dass deine Partien nicht vollständig sind.

Der 1. Zug beginnt nach der Eröffnung. Warum eigentlich ?

Auch vermisse ich weitere Angaben wie Zeit der Berechnung, Tiefe der Berechnung.

Das wäre doch alles problemlos mit der Fritz 15 GUI möglich.

Das war doch früher nicht der Fall.


Weil die LittleBlitzerGUI nun mal die pgn-Notation der Vorgabe abschneidet und durch den FEN-Code der Schlußstellung ersetzt. Da sie zudem einen en-passant Bug hat (en passant geschlagene Bauern in der Eröffnungs.pgn Vorgabe werden nicht entfernt), nehme ich sowieso nur ein EPD-file mit den FEN-Codes der pgn-Endstellungen. Außer bei HERT und bei Drawkiller, da beide keine en passant Züge enthalten.
Und die LittleBlitzerGUI hab ich immer benutzt, außer beim long thinking-time Turnier, da war es Fritz. Ich wollte auch fürs lc0-Testen jetzt die Fritz16 GUI nehmen, aber mit meinem RTX-2060 Notebook ist sie mir zweimal über Nacht abgestürzt. Keine Ahnung, warum. Und Stabilität ist für mich  das A und O, da meine Rechner rund um die Uhr laufen. 365 Tage im Jahr. Und die LittleBlitzerGUI ist die einzige GUI, die bei mir seit 2012 auf diversen PCs und mit Millionen von Partien noch nie abgestürzt ist (in Worten : NULL). Das hat keine GUI bisher geschafft. Auch nicht CuteChess. Insofern ist die LBG für mich alternativlos.
Aber Thomas Zipproth will mir ein Tool schreiben, daß die Partien im results.pgn File der LBG mit den Zügen des Eröffnungsvorgabefiles ergänzt, also wieder "ganze" Partien herstellt. Da meine 4moves-Vorgaben als EPD und PGN-File vorliegen, kann ich dann weiter mit dem EPD-File als Vorgabe in der LBG spielen lassen und anschließend die Partien mithilfe dieses Tools und der 4mvs.pgn Datei zu kompletten Partien komplettieren. Wenn es soweit ist, ändere ich meine Datenbanken entsprechend. Und das Tool wird es dann auch zum Download geben. Aber ich weiß nicht, wie lange Thomas dafür braucht.
Und daß die LBG keine Bewertungen, Rechentiefen und Zugzeiten abspeichert, ist mir sogar ganz Recht. Wenn man so viele Partien spielt, wie ich, dann ist das andernfalls eine sehr große Datenmenge, die ich wöchentlich auf meiner Website hochladen muß (und hochladen dauert viel länger als runterladen...). Wer sich einzelne Partien anschauen will, kann ja eine Analyseengine mitlaufen lassen, dann sieht man eine Bewertung... und meine Partien werden ja mit recht hohem Tempo gespielt (also kurzen Zugzeiten), auf nicht so schnellen Notebooks. Insofern sind die Bewertungen da sowieso nicht besonders tiefschürfend.
Parent - By Guenter Stertenbrink Date 2019-04-13 13:50
mit Eroeffnungszuegen :

http://magictour.free.fr/pohl19a1.pgn   (32930)
http://magictour.free.fr/pohl19a2.pgn   (41665)

letzteres auch mit ergaenztem Zeilenumbruch alle 10 Zuege
Parent - - By Tom Paul Date 2019-04-13 17:16
Stefan Pohl schrieb:

Reinhold Stibi schrieb:

Schade dass deine Partien nicht vollständig sind.

Der 1. Zug beginnt nach der Eröffnung. Warum eigentlich ?

Auch vermisse ich weitere Angaben wie Zeit der Berechnung, Tiefe der Berechnung.

Das wäre doch alles problemlos mit der Fritz 15 GUI möglich.

Das war doch früher nicht der Fall.


Weil die LittleBlitzerGUI nun mal die pgn-Notation der Vorgabe abschneidet und durch den FEN-Code der Schlußstellung ersetzt. Da sie zudem einen en-passant Bug hat (en passant geschlagene Bauern in der Eröffnungs.pgn Vorgabe werden nicht entfernt), nehme ich sowieso nur ein EPD-file mit den FEN-Codes der pgn-Endstellungen. Außer bei HERT und bei Drawkiller, da beide keine en passant Züge enthalten.
Und die LittleBlitzerGUI hab ich immer benutzt, außer beim long thinking-time Turnier, da war es Fritz. Ich wollte auch fürs lc0-Testen jetzt die Fritz16 GUI nehmen, aber mit meinem RTX-2060 Notebook ist sie mir zweimal über Nacht abgestürzt. Keine Ahnung, warum. Und Stabilität ist für mich  das A und O, da meine Rechner rund um die Uhr laufen. 365 Tage im Jahr. Und die LittleBlitzerGUI ist die einzige GUI, die bei mir seit 2012 auf diversen PCs und mit Millionen von Partien noch nie abgestürzt ist (in Worten : NULL). Das hat keine GUI bisher geschafft. Auch nicht CuteChess. Insofern ist die LBG für mich alternativlos.
Aber Thomas Zipproth will mir ein Tool schreiben, daß die Partien im results.pgn File der LBG mit den Zügen des Eröffnungsvorgabefiles ergänzt, also wieder "ganze" Partien herstellt. Da meine 4moves-Vorgaben als EPD und PGN-File vorliegen, kann ich dann weiter mit dem EPD-File als Vorgabe in der LBG spielen lassen und anschließend die Partien mithilfe dieses Tools und der 4mvs.pgn Datei zu kompletten Partien komplettieren. Wenn es soweit ist, ändere ich meine Datenbanken entsprechend. Und das Tool wird es dann auch zum Download geben. Aber ich weiß nicht, wie lange Thomas dafür braucht.
Und daß die LBG keine Bewertungen, Rechentiefen und Zugzeiten abspeichert, ist mir sogar ganz Recht. Wenn man so viele Partien spielt, wie ich, dann ist das andernfalls eine sehr große Datenmenge, die ich wöchentlich auf meiner Website hochladen muß (und hochladen dauert viel länger als runterladen...). Wer sich einzelne Partien anschauen will, kann ja eine Analyseengine mitlaufen lassen, dann sieht man eine Bewertung... und meine Partien werden ja mit recht hohem Tempo gespielt (also kurzen Zugzeiten), auf nicht so schnellen Notebooks. Insofern sind die Bewertungen da sowieso nicht besonders tiefschürfend.


Nimm doch einfach ChessOk Aquarium 2019.
Das läuft super stabil mit LC0.
Parent - By Hauke Lutz Date 2019-04-13 19:57
Ich persönlich verstehe nicht wieso es von so großem Interesse ist zu sehen wie die Stellungsvorgabe entstanden ist, da die Partie sowieso erst nach der Vorgabe beginnt...
Meiner Meinung nach ist es sogar übersichtlicher, wenn die Stellungsvorgabe nur als FEN angegeben wird und Zug 1. auch wirklich der 1. Enginezug ist.
Parent - - By Clemens Keck Date 2019-04-13 13:15
Stefan Pohl schrieb:

Das Endergebnis von Net 41665 ist nun online:

<a class='ura' href='https://www.sp-cc.de/lc0-testing.htm'>https://www.sp-cc.de/lc0-testing.htm</a>

(Noch 41 Elo fehlen zu Stockfish 10...langsam wird es eng)

700 Partien , wow.
DAnke Stefan !

Bei mir läuft es langsam an. Eine Woche Tests und viele TestAbbrüche liegen hinter mir.
Immerhin, im Direktvergleich Stockfish 10 April  gegen  Lc0 33000  liegt Lc0 ca. 60 Elo hinter SF. Hab weit über 100 Partien 5m+3s ponder ON.
SF nutzt 12 cpu, das gibt dann einen LeelaRatio von 1,1.
360 Watt Stromverbrauch, das ist heftig.
Aber ich will mal so einen Monat durchspielen mit diversen Lc0 NN.

C.K.
Parent - By Stefan Pohl Date 2019-04-13 13:24
Clemens Keck schrieb:


360 Watt Stromverbrauch, das ist heftig.
Aber ich will mal so einen Monat durchspielen mit diversen Lc0 NN.



Deswegen bevorzuge ich Notebooks für den 24/7-Betrieb...
Parent - - By Guenter Stertenbrink Date 2019-04-16 13:20 Edited 2019-04-16 13:36
seh ich das jetzt richtig, dass Lc0 nur deshalb bei dir schwaecher ist als Stockfish
weil du die drawkiller-gespreizten sp-cc Elos zugrunde legst ?

Waehrend mit den ueblichen CCRL 40/4 - Elos Lc0 vor StockFish liegen wuerde.

Lc0 "musste" mit superGM Openings spielen waehrend StockFish
mit drawkiller oder  SALC seine spcc-Elo erreichte

32930,65.8%,49%draws
3525,3564,3508,3547,525,StockFish 10
3479,3574,3426,3521,580,Houdini 6
3496,3586,3396,3486,650,Komodo 12.3
3397,3540,3280,3423,675,Fire 7.1
3407,3566,3244,3403,745,Xiphos 0.5
3367,3499,3257,3389,665,Ethereal 11.25
3380,3545,3203,3368,765,Laser 1.7
----------------------------
3436,3553,3331,3448,%%
spcc,ccrl,spcc,ccrl,%%

41665,68.6%,50%draws
3521,3560,3508,3547,520,StockFish 10
3519,3614,3426,3521,640,Houdini 6
3456,3581,3396,3486,590,Komodo 12.3
3463,3606,3280,3423,775,Fire 7.1
3381,3540,3244,3403,705,Xiphos 0.5
3444,3576,3257,3389,780,Ethereal 11.25
3400,3565,3203,3368,795,Laser 1.7
------------------------------
3455,3577,3331,3448,%%
spcc,ccrl,spcc,ccrl,%%

[vereinfachte Rechnung mit 15%=100Elo)
Parent - - By Stefan Pohl Date 2019-04-16 13:45 Edited 2019-04-16 13:52
Nein, die SPCC-Elos sind die von meinen Stockfish-Testruns auf der Hauptseite. Alle Partien aus dieser gamebase wurden mit Thomas Zipproths HERT-Eröffnungen gespielt. Und das schon seit Juli 2017...
Parent - - By Guenter Stertenbrink Date 2019-04-16 13:58 Edited 2019-04-16 14:08
bei dir sind StockFish 10 und Laser 300 Elo auseinander, bei CCRL weniger als 200.
Gib die CCRL  Elos in "ordo" ein, und ich vermute beide Leelas sind nun besser als StockFish 10 !

btw. ich las diesen Thread
http://rybkaforum.net/cgi-bin/rybkaforum/topic_show.pl?tid=32973

und wollte das mal nachrechnen. Wegen der schlechteren Performance gegen schwache Gegner,
ueber die hier kuerzlich geschrieben wurde
Parent - - By Stefan Pohl Date 2019-04-16 15:11 Upvotes 1
Guenter Stertenbrink schrieb:

bei dir sind StockFish 10 und Laser 300 Elo auseinander, bei CCRL weniger als 200.


Das mag schon sein. Kann an Laser liegen. Da ich nur starke  Engine teste, hat Laser nur Gegner, die stärker sind. In anderen Ranglisten hingegen auch Gegner, die schwächer sind...
Da ich aber lc0 auch nur gegen 7 starke Gegner teste, meine ich, es ist sinnvoll, auch meine lc0-Ergebnisse in Bezug auf eine gamebase zu setzen, in der nur starke Engines gegeneinander gespielt haben. Das ist dann einheitlicher.
Aber, da meine lc0 Partien ja alle downloadbar sind, steht es ja jedem frei, sie in eine andere gamebase einzuspeisen und ORDO darüberlaufen zu lassen.
Parent - - By Guenter Stertenbrink Date 2019-04-16 16:14
Fuer die Elo-Berechnung spielt Lc0 mit anderen Eroeffnungen und anderen Bedenkzeiten,
als die anderen engines untereinander. Es ist kein jeder-gegen-jeden Turnier.
Du muesstest argumentieren, warum deine pre-Elos grundlegend besser sind als z.B. CCRL.
Der Effekt dass Lc0 gegen schwache Gegner unterperformiert tritt in deinen 1400
Partien nur auf , wenn deine gespreizten Elos zugrunde gelegt werden , nicht bei
den CCRL  Elos. (falls ich keinen Fehler gemacht habe)
Parent - - By Peter Martan Date 2019-04-16 16:42 Edited 2019-04-16 17:11
Guenter Stertenbrink schrieb:

Der Effekt dass Lc0 gegen schwache Gegner unterperformiert tritt in deinen 1400
Partien nur auf , wenn deine gespreizten Elos zugrunde gelegt werden , nicht bei
den CCRL  Elos. (falls ich keinen Fehler gemacht habe)

Günter, kannst du dich nicht einfach damit abfinden, dass Elo schon lange nicht mehr gleich Elo sind, waren sie ja nie, man konnte aber halt früher leichter so tun als ob, und es spielte in Bereichen weniger Rolle, die insgesamt niedriger waren, denen weniger relevante Engineanzahlen und größere Abstände zwischen ihnen zugrunde lagen, und als noch die Remisquote niedriger war, auch weil die Hardware- Zeitleistung neben ihrer Nutzung durch die Software kleiner war.

Dass LC0 gegen schwächere Gegner relativ schlechter performed, hat Kai Laskos schon vor einem Jahr gezeigt und daran hat sich seither einfach nicht soo viel geändert. Schau dir die Partien an, die Leela völlig unabhängig vom Gegner durch reine Selbstüberlistung verschenkt. Dass das bei mehr Gegnern mit niedrigerem Rating mehr Elo kostet als bei weniger solchen und mehr stärkeren, sagt einem der gesunde Menschenverstand.
Prinzipiell glaube ich  an "gespreizte Elo" mit viel Partien dahinter mehr als an "ungespreizte" mit weniger solchen. Ich habe aber halt auch kein Problem damit, mich einfach damit abzufinden, dass nicht jedes neue Netz eine neue Grundsatzdiskussion auslösen muss, ob es nicht einfach immer noch im Wesentlich gleich stark sein könnte wie das vorige.

Und warum sollte es aber andererseits auch plötzlich wieder an Spielstärke explodieren? Wenn nach einer Unmenge gespielter Partien im Selflearning einfach in der Zeit relativ zum schon Gespielten weniger neue Partien dazu kommen, wäre ein diminishing return mal ganz abgesehen von dem des Lernzprozesses als solchem doch schon allein durch die schon vorhandene Datenmenge und ihre relativ zum Vorhandenen geringere weitere Zunahme in der Zeiteinheit logischer, so lange sich nichts Grundsätzliches an den Voraussetzungen ändert, nein?

Es hat sich seit dem Erstarken der NN- Engines eine Ungeduld der Foren bemächtigt in der Frage, wann endlich die heiß ersehnte Revolution des Schachspiels stattfinden wird, die mir schon länger gehörig auf die Nerven geht, vielleicht deshalb, weil ich schon ein paar Jahre lang das Gefühl habe, diese Revolution hat längst stattgefunden, man wollte es nur noch nie so recht wahrhaben und jetzt wieder (wahrscheinlich doch auch aus irgendwelchen Verkaufsnervositäten heraus) halt wieder einmal erst recht justament nicht.

So what?
Parent - - By Guenter Stertenbrink Date 2019-04-16 17:12
hast ja recht, Schach ist sinnlos, lasst uns Schluss machen.
Wer macht mit rauszufinden, wie,wann,warum Krebs und Koronare Herzkrankheit entstanden sind
Parent - By Peter Martan Date 2019-04-16 17:56 Edited 2019-04-16 18:04
Naja, Überfluss an allem möglichen (und sei's auch "nur" Zahl an Lebensjahren beim Altwerden) wird schon auch an diesen Dingen oftmals mitbeteiligt gewesen sein.
Parent - - By Stefan Pohl Date 2019-04-16 17:04
Guenter Stertenbrink schrieb:

Fuer die Elo-Berechnung spielt Lc0 mit anderen Eroeffnungen und anderen Bedenkzeiten,
als die anderen engines untereinander. Es ist kein jeder-gegen-jeden Turnier.


Das ist korrekt. Der Aufwand, da zunächst mit den AB-Engines eine neue gamebase komplett untereinander neu auszuspielen, mit einem Tempo von nur 160 Partien pro Tag, ist mir zu hoch. Deswegen rechne ich die Elo-Performance von Leela auch nur händisch per Elotabelle aus und mache das nicht mit ORDO.
Sicherlich ist das nicht optimal. Aber irgendwo muß der Aufwand dann auch mal etwas eindedämmt werden. Mit dieser Lösung kann ich dafür mehr lc0-Nets testen. Und für ganz korrekte Ranglisten-Tests gibt es ja CEGT und CCRL. Die testen dafür aber viel weniger Nets und können sich aber wiederum an meinem Tests orientieren, um sich die vielversprechendsten Nets für ihre Testruns herauszusuchen.
Parent - By Stefan Pohl Date 2019-04-17 12:59
Stefan Pohl schrieb:

Guenter Stertenbrink schrieb:

Fuer die Elo-Berechnung spielt Lc0 mit anderen Eroeffnungen und anderen Bedenkzeiten,
als die anderen engines untereinander. Es ist kein jeder-gegen-jeden Turnier.


Das ist korrekt. Der Aufwand, da zunächst mit den AB-Engines eine neue gamebase komplett untereinander neu auszuspielen, mit einem Tempo von nur 160 Partien pro Tag, ist mir zu hoch. Deswegen rechne ich die Elo-Performance von Leela auch nur händisch per Elotabelle aus und mache das nicht mit ORDO.
Sicherlich ist das nicht optimal. Aber irgendwo muß der Aufwand dann auch mal etwas eindedämmt werden. Mit dieser Lösung kann ich dafür mehr lc0-Nets testen. Und für ganz korrekte Ranglisten-Tests gibt es ja CEGT und CCRL. Die testen dafür aber viel weniger Nets und können sich aber wiederum an meinem Tests orientieren, um sich die vielversprechendsten Nets für ihre Testruns herauszusuchen.


Ergänzung: Zudem ist es ja so, wie ich hier auch schon ausgeführt hatte, daß wirklich gleichförmige, für alle beteiligten Engines identische, Testbedingungen sowieso prinzipiell unmöglich sind, wenn man NN-Engines und AB-Engines in einem Testsetup vereint. Insofern sehe ich auch deshalb nicht die Notwendigkeit mit den AB-Gegnerengines eine weitere gamebase auszuspielen und nutze durchaus guten Gewissens meine SPCC-Elozahlen der AB-Engines...
Parent - - By Peter Weise Date 2019-04-17 09:18
Ich denke man sieht den Effekt auch bei den SPCC Begegnungen. Ich habe mal auf die Wertungen der CCRL 40/4 umgerechnet:

Lc0 0.21.1 N:41665

gegen Laser 1.7 bmi2       (CCRL 3271)      SPCC 79.5 % ergibt für Lc0 3506
gegen Xiphos 0.5 bmi2      (CCRL 3303)      SPCC 70.5 % ergibt für Lc0 3454
gegen Ethereal 11.25 pext  (CCRL 3310)      SPCC 78.0 % ergibt für Lc0 3530
gegen Fire 7.1 popc        (CCRL 3334)      SPCC 77.5 % ergibt für Lc0 3549
gegen Komodo 12.3 bmi2     (CCRL 3415)      SPCC 59.0 % ergibt für Lc0 3546
gegen Houdini 6 pext       (CCRL 3446)      SPCC 64.0 % ergibt für Lc0 3546
gegen Stockfish 10 181129  (CCRL ca. 3526)  SPCC 52.0 % ergibt für Lc0 3540


Je schwächer der Gegner desto niedriger fällt die Wertung für Lc0 aus! Nicht so extrem wie bei mir da weniger wirklich schwächere Programme am Start sind bei der SPCC.
Parent - - By Stefan Pohl Date 2019-04-17 12:55 Edited 2019-04-17 13:11
Sehr schöne Auswertung! Danke.
Letzlich ist der Effekt aber gar nicht mal so groß, wie ich gedacht hatte. Du hast natürlich Recht, daß keine extrem schwachen Gegner bei mir zum Einsatz kommen, aber dennoch sind ja Laser und Xiphos doch 200-250 Elo (SPCC-Elo) hinter Lc0. Also schon doch sehr viel schwächer. Nur eben nicht grotesk schwächer. Und man sieht, daß sich dann das schwächere Scoren von Lc0 auch in vertretbaren Grenzen hält. Insofern bin ich mit meinem Testsetup mit 7 relativ starken Gegnern sehr zufrieden!
Und man sollte Lc0 auch zugute halten, daß alle Einzelvergleiche gegen die AB-Engines gewonnen wurden, auch wenn diese mit nur 100 Partien natürlich statistisch nicht besonders belastbar sind.

Übrigens ist gerade das Ergebnis (und die Partien im Download) von Net 41800 online gegangen, falls jemand das Bedürfnis hat, weitere eigene Auswertungen zu machen. Nur zu! Alles sehr interessant. Auch in diesem Testrun konnte Lc0 alle Einzelvergleiche gegen die AB-Engines gewinnen. Gegen Stockfish 10 sogar mit über 54%. Diesmal waren es immerhin 108 Partien pro Einzelvergleich...
Wie immer gibt es in der View Games Sektion die Siege gegen Stockfish 10 zum Nachspielen... Gleich die erste Partie ergab eine SALC-Stellung und demzufolge eine kurze, knackige Partie... und eine Partie war sogar nur 34 Züge kurz, bis Stockfish 10 aufgab (Bewertung -700), das sieht man auch nicht alle Tage: Stockfish hatte die tolle Idee, mit der Dame am Damenflügel auf Bauernfraß zu gehen, während Lc0 den Königsflügel zertrümmerte... da hat Stockfish wirklich 80er Jahre Brettcomputer-Schach gespielt - das geht gegen eine künstliche Intelligenz natürlich böse ins Auge! Tolles Anticomputerschach von Lc0!

Weiter geht es mit Net 41978.

https://www.sp-cc.de/lc0-testing.htm

Event:
Ort:
Datum:

Weiss:
Schwarz:

Ergebnis
Board
Parent - - By Hauke Lutz Date 2019-04-17 13:21
Ich habe ewig nicht gesehen, dass Stockfish so zerlegt wurde.
Eine wirklich schöne Partie!
Parent - By Stefan Pohl Date 2019-04-17 14:45
Vor allem hat man den starken Eindruck, daß hier ein Mensch gegen einen Computer spielt. Und ein größeres Kompliment kann man LC0 natürlich gar nicht machen.
Parent - - By Guenter Stertenbrink Date 2019-04-18 07:39 Upvotes 1
ca. 35 Elo mehr als StockFish fuer 41800 mit CCRL-pre-Elos !

minus ~12 fuer LR=1.3 macht immer noch +23 bei LR=1 fuer die CCRL-top8-Elo-Liste
Parent - - By Clemens Keck Date 2019-04-18 08:09 Upvotes 1
erst vier matches, aber bisher konnte Lc0 kein match gewinnen im direkten vergleich.
Stockfish 100419 12cpu ist schon ein sehr starker Gegner.

LeelaRatio 1.1
5m+3s ponder ON

Code:
# PLAYER                          : RATING    POINTS  PLAYED    (%)
   1 Stockfish 100419 64 BMI2-x12    :    0.0     225.0     400   56.3%
   2 Lc0 v0.21.1-41812               :  -25.8      46.5     100   46.5%
   3 Lc0 v0.21.1-41889               :  -40.6      44.5     100   44.5%
   4 Lc0 v0.21.1-41906               :  -55.5      42.5     100   42.5%
   5 Lc0 v0.21.1-33000               :  -63.0      41.5     100   41.5%

Guenter Stertenbrink schrieb:

ca. 35 Elo mehr als StockFish fuer 41800 mit CCRL-pre-Elos !

minus ~12 fuer LR=1.3 macht immer noch +23 bei LR=1 fuer die CCRL-top8-Elo-Liste
Parent - - By Guenter Stertenbrink Date 2019-04-18 08:25
300 Keck-Partien mit SF-dev(-45Elo) gegen 2100 Pohl-Partien mit SF10 (+10Elo)

annehmend alle 4er ab 41650 sind gleich stark (so, wie bei glbch,mtgostark)
Parent - - By Peter Martan Date 2019-04-18 08:41 Edited 2019-04-18 08:49
Selbst wenn der Unterschied in der sogenannten Leela- Ratio nicht groß zu sein scheint, könnte die viel größere Hardware-Zeit für jede Seite (sowohl GPU als auch CPU verfielfachter Leistung) auch bei gleichem Hardware- TC- Verhältnis wieder ein völlig anderes Kräfteverhältnis sein bei den beiden Engines, um die's hier geht.
Merke: die Elosion besteht in der nicht vorhandenen Transitivität.
Im Anlassfall hier, überspitzt formuliert, wäre es, wie Fernschach-Elo mit over the board- Elo zu vergleichen. Dabei kann die Leela- Ratio auch immer noch oder wieder 1 sein, wenn beide Engines Stunden statt Sekunden pro Zug rechnen, ändert das bei diesen beiden Dingens meiner bescheidenen Erfahrung nach sehr wohl was.
Parent - - By Clemens Keck Date 2019-04-18 08:49
Peter Martan schrieb:

Selbst wenn der Unterschied in der sogenannten Leela- Ratio nicht groß zu sein scheint, könnte die viel größere Hardware-Zeit für jede Seite (sowohl GPU als auch CPU verfielfachter Leistung) auch bei gleichem Verhältnis wieder ein völlig anderes Kräfteverhältnis sein bei den beiden Engines, um die's hier geht.


Ja, das sehe ich auch so. Das bedeutet jeder Test ist für sich stimmig aber bedauerlichweise nur wenig generell aussagekräftig . Deswegen sind die andren Testreihen ein wichtiger Anhaltspunkt für mich
Peter Martan schrieb:

Merke: die Elosion besteht in der nicht vorhandenen Transitivität.

also wenn ich was lese, da könnte ich den Putz von der Wand fressen



C.K
Parent - - By Peter Martan Date 2019-04-18 08:50 Edited 2019-04-18 09:16
Clemens Keck schrieb:

Zitat:

Merke: die Elosion besteht in der nicht vorhandenen Transitivität.

also wenn ich was lese, da könnte ich den Putz von der Wand fressen



Ich hab mir schon gedacht, dass das Tester so nicht gerne lesen werden, ehrlich gesagt habe ich es aber genau deshalb geschrieben, mich ärgert's ja auch immer wieder, dass es so ist, deshalb ist es aber auch nicht anders.

Die Ergebnisse einer Testumgebung sind nicht auf eine andere 1:1 übertragbar, je größer die Unterschiede in irgendeinem bestimmten Parameter, desto weniger, je mehr Parameter verschieden sind, desto wieder weniger.

Der wirkliche Witz daran ist, dass jetzt eine Engine in ihrem Rating zu den anderen von sich aus eine Nummer intransitiver ist und man daher noch weniger Ahnung hat als bisher, wie sich die bekannten Imponderabilitäten wie Teilnehmerfeld, Buch und Hardware- TC quantitativ auswirken.

Die Randomisierung jeder Statistik, die hier gemacht wird, ist also um ein weiteren Unsicherheitsfaktor schwieriger, und der Hauptnachteil: das Kräfteverhältnis im gängigen Eng-Eng-Match ist so eng beisammen zwischen SF und LC0, dass man sowieso schon einen enormen Partiezahlbedarf hat, um überhaupt ins Signifikanz- Intervall zu kommen.
Vom Kräfteverhältnis zwischen einzelnen Netzen ganz zu schweigen, und die muss man ja an irgendeinem A-B-Maßstab auch immer wieder eichen, und dann kommt eben noch die Hardware- Ungleichheit zwischen GPU und CPU dazu. Kein Mensch weiß, wie sich eine Leela- Ratio mit viel längerer Bedenkzeit wirklich berechnen würde, man kann die Knotenzahlen und die Tiefen, die errechnet werden zwischen MCTS und A-B und zwischen GPU und CPU überhaupt nicht vergleichen.

Sorry, ich mein's ja nicht böse und weiß die Arbeit, die sich Leute wie du machen, erst recht zu würdigen, auch wenn's immer wieder nicht so klingt.
Parent - - By Guenter Stertenbrink Date 2019-04-18 09:23
wir muessen's halt versuchen, so gut wie moeglich.
Oder willst du, das wir's aufgeben ?
Parent - By Peter Martan Date 2019-04-18 11:09
Im Gegenteil, je mehr ihr's macht, desto weniger muss ich.

Schöne Ostern, Günter!
Parent - - By Peter Weise Date 2019-04-18 10:21
Das scheint meiner Beobachtung nach in Bezug auf Lc0 nicht richtig. Lc0 ändern bei längerem Rechnen nur noch sehr selten den Zug. Meist ist bereits (auf meiner GTX 1050ti) nach 10-15 Sekunden keine Veränderung mehr zu erkennen. Ganz selten noch im Endspiel, allerdings sind dabei die Züge meist ohnehin zweifelhafter Natur.
Parent - - By Peter Martan Date 2019-04-18 11:22 Edited 2019-04-18 11:57
Peter Weise schrieb:

Das scheint meiner Beobachtung nach in Bezug auf Lc0 nicht richtig. Lc0 ändern bei längerem Rechnen nur noch sehr selten den Zug. Meist ist bereits (auf meiner GTX 1050ti) nach 10-15 Sekunden keine Veränderung mehr zu erkennen. Ganz selten noch im Endspiel, allerdings sind dabei die Züge meist ohnehin zweifelhafter Natur.

Da bin ich ja ganz deiner Meinung, Peter, bei SF ist das aber anders meiner Erfahrung nach, also würde sich eine entsprechende Hardware-TC-Erhöhung schon allein aus dieser Beobachtung heraus (möglicher Weise) weniger transitiv zur kürzeren verhalten als zwischen A-B-Engines allein, (vermutlich auch weniger als zwischen NN-Engines unter sich) selbst wenn die Hardware- Leistungen als solche ausgeglichen blieben zwischen den CPUs und den GPUs.
Von denen allein weiß man aber eben auch nicht, wie sich ihrer Zeitleistungen an und für sich zueinander verhalten, wenn man die TC wesentlich ändert. Wer sagt, dass eine bestimmte Leela- Ratio, allein was die Hardware angeht, für jede TC gleich ist?
Parent - By Peter Weise Date 2019-04-18 13:49 Upvotes 1
Da sind wir uns einig! Ich errechne das Ratio immer für die jeweiligen Stufen welche ich gerade verwende. Wenn ich z.B. 4 Minuten Basiszeit plus 3 Sekunden Aufschlag spielen lasse ist mein Ratio deutlich höher als bei Partien in 2 Minuten ohne Aufschlag. Dieses Ratio sollte man aber nicht überbewerten meiner Ansicht nach da es u.a. auch von der verwendeten Netzwerkgröße abhängt und wie viele Workerthreads beteiligt sind und auch der NNCacheSize spielt eine Rolle verschiedene weiterer Einstellungen sowieso.
Parent - By Clemens Keck Date 2019-04-18 13:04 Upvotes 1
Diese Beobachtung kann ich auch sehen. Die HV ist schnell gefunden, und ändert sich kaum noch mal. Sagen wir mal ab 30 sec.

Die Schlussfolgerung das somit Partien mit langer Bedenkzeit eine unwesentliche Verbesserung des Lc0 Spiels bedeuten will ich dennoch nicht so einfach glauben.
Spielt Lc0 wirklich ab einer bestimmten Zeitkontrolle - sagen wir mal 10min +5sec - nicht mehr stärker?

Also langfristig plane ich meine Lc0 matches gegen Stockfish zu erweitern. Erstmal möchte ich allerdings 10 - 20 NN40 getestet haben.
Dann jedoch plane ich eine zweite RTX 2060 einzubauen, und Lc0 die doppelte Rechenpower zur Verfügung zu stellen.
Ich werde einige matches wiederholen. Bin sehr gespannt, ob das überhaupt einen Einfluß auf meine 5+3 Partien hat.
https://docs.google.com/spreadsheets/d/1rS9dw2WebiCIhyMH4L7YH2ZB2b_Bi8Ac9UahuPBoQa8/edit?usp=sharing

C.K.

Peter Weise schrieb:

Das scheint meiner Beobachtung nach in Bezug auf Lc0 nicht richtig. Lc0 ändern bei längerem Rechnen nur noch sehr selten den Zug. Meist ist bereits (auf meiner GTX 1050ti) nach 10-15 Sekunden keine Veränderung mehr zu erkennen. Ganz selten noch im Endspiel, allerdings sind dabei die Züge meist ohnehin zweifelhafter Natur.
Parent - - By Clemens Keck Date 2019-04-18 08:44
400
Guenter Stertenbrink schrieb:

300 Keck-Partien mit SF-dev(-45Elo) gegen 2100 Pohl-Partien mit SF10 (+10Elo)

annehmend alle 4er ab 41650 sind gleich stark (so, wie bei glbch,mtgostark)
Parent - By Guenter Stertenbrink Date 2019-04-18 08:52 Edited 2019-04-18 09:02 Upvotes 1
33000 rausgenommen. Ich rechne etwa ab 41650 , die neue Serie

41550,3401
41600,3409
41650,3445
41665,3421
41700,3460
41711,3443
41725,3419
41750,3432
41800,3467
41825,3460
41850,3445
41876,3448
41900,3441
41925,3430
41950,3461
----------
      3445(5),3445(10)

41550,3401
41600,3409
41650,3445
41700,3460
41750,3432
41800,3467
41850,3445
41900,3441
41950,3461
----------
      3449

glbch:
41965,21   51(5),54(10),49(15)
41953,64
41940,58
41930,59
41917,55
41906,48
41889,86
41876,55
41871,44
41862,53
41852,43
41845,36
41830,16
41823,25
41812,71
41800,57
41770,48

================edit===================

ach so, bei Pohl muss ich 32930 auch rausnehmen , macht 1456 Pohl Partien (~+20,SF10,LR=1,CCRL)
Parent - - By Stefan Pohl Date 2019-04-18 12:40 Edited 2019-04-18 12:44 Upvotes 1
Guenter Stertenbrink schrieb:

annehmend alle 4er ab 41650 sind gleich stark (so, wie bei glbch,mtgostark)


Das wage ich stark zu bezweifeln. Mein Testrun mit Net 41978 läuft schlecht. Sieht bisher nach ca. -30 Elo zu 41800 aus...aber noch sehr unsicher, das ist klar.
Bei potato chess auf twitch läuft es aber auch so. 41800 ist auch dort 30 Elo besser als die 419xx. Insofern scheint es momentan eher abwärts zu gehen.
Parent - - By Guenter Stertenbrink Date 2019-04-18 15:11
http://magictour.free.fr/MTGO9.GIF

(add the potato data !)
Parent - By Reinhold Stibi Date 2019-04-18 17:55
An Stefan Pohl:

Könntest du vielleicht einen neuen Thread aufmachten; Lc0 N:32930 Ergebnisse passt schon länger nicht mehr
und wird unübersichtlich.

Nur eine Anregung !
Up Topic Hauptforen / CSS-Forum / Lc0 N:32930 Ergebnis online
1 2 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill