Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Lc0 N:32930 Ergebnis online
1 2 Previous Next  
- - By Stefan Pohl Date 2019-04-08 13:35 Edited 2019-04-08 13:41 Upvotes 5
Ab sofort teste ich nun auch NN-Engines (z.Zt. Lc0) systematisch auf meinem neuen Notebook mit RTX 2060 Karte.
Da das Spielen mehrerer Partien gleichzeitig nicht möglich ist, kann ich natürlich keine 5000 Partien absolvieren lassen, das würde viel zu lange dauern. Deshalb spielt Lc0 mit einem Net immer mindestens 700 Partien (je 100 gegen 7 AB-Engines). Da ich mittelfristig diese Testruns - bzw. das Einbauen der Ergebnisse auf meiner Website - aus Zeitgründen mit den Stockfish-Testruns halbwegs synchron laufen lassen will, können es aber auch mal mehr als 700 Partien in einem Testrun werden. Aber 700 Partien pro Testrun wird immer die Untergrenze sein, damit wir hier mal von den statistischen Albernheiten mit 50, 70 oder 100 Test-Partien mit einem Lc0-Net wegkommen. Und immer nur gegen Stockfish zu testen ist auch nicht das Gelbe vom Ei, da Lc0 bekanntermaßen gegen schwächere Gegner auch schwächer performt. Auch mit 700 Partien ist die Errorbar noch sehr, sehr groß (ca. +/- 40 Elo).

Die genauen Testbedingungen finden sich auf der entsprechenden Unterseite meiner Website, zusammen mit den Ergebnissen und dem Partiendownload:

https://www.sp-cc.de/lc0-testing.htm

Net 32930 (TCEC 14 Superfinal-Net) konnte zwar den 100-Partien Direktvergleich gegen Stockfish 10 knapp gewinnen, in der Gesamt Elo-Performance liegt es aber noch gut 60 Elo schlechter als Stockfish 10...das bedeutet aber dennoch den zweiten Platz im High-End Computerschach hinter Stockfish und vor Houdini 6 und Komodo 12.3, was ja ein starkes Ergebnis ist!

Nächster Testrun: Net 41665, da dieses Net immer noch die beste Elo-Leistung auf potato chess (twitch) hält (https://www.twitch.tv/potato_chess) (auch die ganz neuen 418xx Nets sind dort schwächer, daher wollte ich zunächst diesen Testrun machen, bevor ich mich auf das aktuellste Net stürze).
Parent - - By Guenter Stertenbrink Date 2019-04-08 14:10
sind die Potato Ergebnisse irgendwo aufgelistet ?
Bei dem Link find ich nichts
Parent - - By Stefan Pohl Date 2019-04-08 14:40
Doch. Direkt im Bild der Live-Übertragung gibt es ein kleines, quadratisches Kästchen mit den letzten Ergebnissen. Aber nur der Gesamtscore und die Eloperformance aus den jeweils 200 gespielten Partien. Die Einzelresultate sind ja auch statistisch nicht wirklich belastbar bei so wenigen Partien.
Parent - - By Guenter Stertenbrink Date 2019-04-08 17:36 Edited 2019-04-08 17:41
also, was sind die Potato Elos ? Duerfen/Koennen die hier gepostet werden ?

error#6000 , cookies ,

btw. Lc0-41800 nach 90 Partien bei CCCC nur noch 50Elo besser als StockFish (vormals +100 nach 46Partien)
Parent - By Stefan Pohl Date 2019-04-08 19:24 Upvotes 1
Guenter Stertenbrink schrieb:

also, was sind die Potato Elos ? Duerfen/Koennen die hier gepostet werden ?



Die Elos sind doch sowieso virtuell. Ob man 3500, 3300 oder sonst was als Basis nimmt, ist doch letzllich nicht interessant. Bei potato chess ist immer die Frage, wieviele der 200 möglichen Punkte aus den 200 Partien hat das jeweilige Net geholt.
Und bei den jetzt noch im Bild angezeigten 41xxx Nets sind das:
41632: 126.5
41665: 139.5
41711: 133
41750: 132
41780: 129.5
41807: 124
41838: 132.5
Parent - - By Clemens Keck Date 2019-04-08 14:22
danke Stefan, sehr intresannt.

Ich habe mich jetzt endlich  aufgerafft und heute morgen ein erstes match Lc0-41812 gegen Stockfish 5.April gestartet.
Die RTX 2060 hab ich auf 1400MHz runter gekriegt. Weniger geht nicht.
SF braucht schon 13 (!) cpu , damit ich auf eine leela ratio von 1,06 komme.
Gespielt wird bei mir "IPON style", also 5 min +3 sec ponder ON.
100 Spiele, TCEC 10 Finale Stellungsvorgaben.

werde berichten.

C.K.
Parent - - By Stefan Pohl Date 2019-04-08 14:43 Edited 2019-04-08 14:47
Meine mobile RTX 2060 bekomme ich auf knapp 1 Ghz heruntergeregelt. Mehr geht auch bei mir nicht. Da ich die Threadzahl lieber auf dem default-Wert 2 belassen wollte, komme ich leider nicht unter 1.3 Leela-Ratio...
Aber die CEGT testet ja sogar mit einer LR von 1.4, insofern halte ich einen Wert von 1.3 noch für vertretbar, wenn auch suboptimal. Aber auf den RTX Karten ist lc0 eben wirklich sehr schnell.
Parent - - By Reinhold Stibi Date 2019-04-08 15:34
Mit Net 32930 hinkst du der Zeit aber gewaltig hinterher; dieses würde ich nur zum Schluss als Vergleich anhängen.
Für dieses Net interessiert sich doch kaum jemand mehr - ist Vergangenheit.

Mit das beste Net dürfte jetzt 41800 sein, das z.Zt. auch bei TCEC spielt.

Auch im Eigenmann Test hat dieses Net bei 30 Sek. mit 83 Lösungen aus 111 hervorragend abgeschnitten.

Bei mir läuft z.Zt. ein Match  Net 41800  RTX 2070   gegen  Stockfish 10  24 Threads je 3,33 GHz.
mit 1 Min. + 6 Sek. je Zug  mit deinen 4 Züge Vorgabe-Eröffnungen.
Parent - - By Stefan Pohl Date 2019-04-08 16:22
Reinhold Stibi schrieb:

Mit Net 32930 hinkst du der Zeit aber gewaltig hinterher; dieses würde ich nur zum Schluss als Vergleich anhängen.
Für dieses Net interessiert sich doch kaum jemand mehr - ist Vergangenheit.


Es wir keinen "Schluss" geben, ich will ja die NN-Engines / Nets auf diesem PC ab jetzt fortlaufend testen. Daher muß dieses Netz als Basiswert eben zuerst getestet werden. Zudem ist es das Net aus dem TCEC-Superfinal Season 14, insofern durchaus von Interesse. Und das ist ja gerade mal einen guten Monat her!
Auch die Superfinal-Nets zukünftiger TCECs werde ich dann natürlich testen, da für diese natürlich immer gesteigerte Aufmerksamkeit gegeben ist.
Zudem wollen wir erst mal abwarten, ob die 41xxx Nets wirklich meßbar stärker als das sehr gute 32930 Net sind. Wenn ich mich recht entsinne, war bei potato chess der Score von 32930 etwa auf dem Level, auf dem die 41xxx jetzt sind. Und seit 41665 geht es dort eher wieder abwärts. Also sollten wir den Ball mal flach halten.
Genau deswegen mache ich ja jetzt diese Testruns mit mindestens jeweils 700 Partien. Damit wir mal ein wenigstens halbwegs statistisch belastbares Ergebnis der Entwicklung bei Lc0 bekommen.
Parent - - By Clemens Keck Date 2019-04-08 16:36
bei mir steht auf jeden Fall noch die NN 32930 und NN 33000 auf dem Programm.
Diese Grundvergeichbarkeit ist mir wichtig, um kommende NN besser enschätzen und bewerten zu können.

C.K.

Stefan Pohl schrieb:

Reinhold Stibi schrieb:

Mit Net 32930 hinkst du der Zeit aber gewaltig hinterher; dieses würde ich nur zum Schluss als Vergleich anhängen.
Für dieses Net interessiert sich doch kaum jemand mehr - ist Vergangenheit.


Es wir keinen "Schluss" geben, ich will ja die NN-Engines / Nets auf diesem PC ab jetzt fortlaufend testen. Daher muß dieses Netz als Basiswert eben zuerst getestet werden. Zudem ist es das Net aus dem TCEC-Superfinal Season 14, insofern durchaus von Interesse. Und das ist ja gerade mal einen guten Monat her!
Auch die Superfinal-Nets zukünftiger TCECs werde ich dann natürlich testen, da für diese natürlich immer gesteigerte Aufmerksamkeit gegeben ist.
Zudem wollen wir erst mal abwarten, ob die 41xxx Nets wirklich meßbar stärker als das sehr gute 32930 Net sind. Wenn ich mich recht entsinne, war bei potato chess der Score von 32930 etwa auf dem Level, auf dem die 41xxx jetzt sind. Und seit 41665 geht es dort eher wieder abwärts. Also sollten wir den Ball mal flach halten.
Genau deswegen mache ich ja jetzt diese Testruns mit mindestens jeweils 700 Partien. Damit wir mal ein wenigstens halbwegs statistisch belastbares Ergebnis der Entwicklung bei Lc0 bekommen.
Parent - - By Stefan Pohl Date 2019-04-08 19:41
Clemens Keck schrieb:

bei mir steht auf jeden Fall noch die NN 32930 und NN 33000 auf dem Programm.
Diese Grundvergeichbarkeit ist mir wichtig, um kommende NN besser enschätzen und bewerten zu können.



Das stimmt.
Ich habe, bevor ich vor 5 Tagen den ersten Testrun gestartet habe, etliche Vorab-Tests gemacht. Dabei ist mir (wieder einmal) aufgefallen, daß lc0 stark schwankende Ergebnisse zeigt, je nachdem, wie das Verhältnis von Basiszeit zu Fischerbonus gewählt wird. Generell läßt sich feststellen, daß je mehr Fischerbonus im Verhältnis zur Basiszeit gegeben wird, die Ergebnisse von lc0 immer besser werden. Dies liegt zum einen an der nachwievor schlechten Zeiteinteilung von lc0. Lc0 verbraucht die Basiszeit in der Regel bis Zug 60 praktisch komplett und zieht dann (gezwungenermaßen) im Tempo des Fischerbonus. Zum anderen ist eine zu geringe Sockelrechentiefe Gift für lc0, weil dann die taktischen Löcher extrem groß werden, was dann gerade gegen schwächere Gegner massiv Elo kostet - weil das zu taktischen Selbstmorden unabhängig von der Stärke des Gegners führt.
Aus diesem Grund habe ich mich für ein Verhältnis von 100:1 entschieden (ich nehme 150''+1500ms), welches heutzutage einen mittleren Wert darstellt. Viele lc0-Tests laufen mit 1'+1'' oder 3'+3'' (potato chess z.B.) ab, was nur ein Verhältnis von 60:1 ist. Das ist schon sehr wenig, insbesondere, wenn man nur sehr kurze Eröffnungsvorgaben nutzt, sodaß schon viel Zeit in der Eröffnung verrechnet werden muß. Daher sehe ich diese Bedenkzeitverhältnisse mittlerweile als kritisch an. Aber das muß natürlich jeder selbst entscheiden.
Parent - - By Wolfgang Battig Date 2019-04-08 20:17
Zitat:
Aus diesem Grund habe ich mich für ein Verhältnis von 100:1 entschieden (ich nehme 150''+1500ms), welches heutzutage einen mittleren Wert darstellt. Viele lc0-Tests laufen mit 1'+1'' oder 3'+3'' (potato chess z.B.) ab, was nur ein Verhältnis von 60:1 ist. Das ist schon sehr wenig, insbesondere, wenn man nur sehr kurze Eröffnungsvorgaben nutzt, sodaß schon viel Zeit in der Eröffnung verrechnet werden muß. Daher sehe ich diese Bedenkzeitverhältnisse mittlerweile als kritisch an. Aber das muß natürlich jeder selbst entscheiden.


Man muss vor allem aufpassen, dass man nicht alles nur auf Leela abstimmt und "extra freundliche" Bedingungen schafft.
Damit bist ausdrücklich nicht Du gemeint! Deine Bedenkzeit mit 2,5 + 1,5"/Zug passt gut, entspricht exakt "halber IPON" oder "halber CEGT" (5+3).
Parent - - By Stefan Pohl Date 2019-04-08 20:27 Edited 2019-04-08 20:36
Naja, dafür teste ich mit meine sehr kurzen 4moves SuperGM Eröffnungen. Das ist schon ziemlich Leela-freundlich. Aber es senkt die Remisquoten wenigstens ein bißchen (natürlich kein Vergleich zu meinen Drawkiller Eröffnungen), denn die Remisquote von lc0 gegen Stockfish und Houdini ist schon arg hoch. Und wäre mit längeren Eröffnungs-Vorgaben eben noch höher. Man darf ja nicht vergessen, daß ich lc0 zwar mit kurzer Bedenkzeit teste, dabei aber die Gegnerengines mit 11 von 12 Threads auf einer HexacoreCPU laufen und lc0 auf einer RTX 2060. Da kommen schon hohe Suchtiefen zustande...
Parent - By Wolfgang Battig Date 2019-04-08 21:30
Die 4moves Datenbanken von dir nutze ich derzeit auch für meine Tests. Gerhard nutzt durchschnittlich etwas längere Vorgaben, 0 (Grundstellung) bis 10 Züge. Insgesamt sollten unsere LC0 Tests im Durchschnitt mit 4 bis 6 vollen Zügen laufen. Wenn das Leela nicht passt hat er/sie/es Pech gehabt... . Die anderen müssen das ja auch können
Parent - By Clemens Keck Date 2019-04-08 22:51
Stefan Pohl schrieb:

.... Dies liegt zum einen an der nachwievor schlechten Zeiteinteilung von lc0. Lc0 verbraucht die Basiszeit in der Regel bis Zug 60 praktisch komplett und zieht dann (gezwungenermaßen) im Tempo des Fischerbonus.


Bei mir (5m +3s ponder ON) sieht das so aus:

Ohne Angleichung des slow mover parameters lassen sich kaum spielbare Tests produzieren. Und das gilt für Stockfish genauso wie für Lc0 !

Stockfish spielt völlig unbrauchbar in der Fritz gui mit den Standard Werten(shredder gui übrigens auch). Da ist bereits bei 20 berechneten Zügen nur noch 30 Sekunden BZ übrig.
Lc0 hat so ab Zug 40 -45 fast schon Zeitprobleme.

Deshalb habe ich nach ausgiebigen Tests für Stockfish den slow mover auf 20 runter gesetzt. Das führt zu einer homogenen Zeiteinteilung, keine überhasteten Züge
Bei Lc0 habe ich einen slow mover von 20000 gewählt. D.h. es werden 20 sekunden pro Zug von der normalen Zeiteinteilung subtrahiert. Das führt zu einer sehr homogenen Zeiteinteilung ohne Zeitnotphase.

C.K.
Parent - By Stefan Pohl Date 2019-04-08 16:36 Edited 2019-04-08 16:41
Ergänzende Info: Alle Gewinnpartien von Lc0 gegen Stockfish 10 aus dem aktuellen Testrun können auf meiner Website in der "View LC Zero games"-Sektion direkt auf der Website nachgespielt werden, auf Wunsch mit mitlaufender Fritz 16 Engine als Analysetool (auch Multi-PV zuzuschalten ist dort möglich!).

https://www.sp-cc.de/view-lc-zero-games.htm

Möglich ist das dank des großartigen pgn-replayer Tools von ChessBase. Dieses läßt sich extrem einfach auf einer beliebigen Website einbetten, man braucht nur 3 Zeilen Code einzufügen - echt idiotensicher (und was Webdesign angeht, bin ich ein Idiot)! Kann ich jedem Computerschach-Websiten-Betreiber nur ans Herz legen.

Mehr Infos hier:
https://www.schach.de/HowTo/EmbedPGN
Parent - - By Wolfgang Battig Date 2019-04-08 19:59 Upvotes 1
Stefan Pohl schrieb:

... damit wir hier mal von den statistischen Albernheiten mit 50, 70 oder 100 Test-Partien mit einem Lc0-Net wegkommen.

Danke Stefan, erstens für deine Tests und zweitens für den Satz oben . Das trifft es auf den Punkt!!
Zitat:
Und immer nur gegen Stockfish zu testen ist auch nicht das Gelbe vom Ei, da Lc0 bekanntermaßen gegen schwächere Gegner auch schwächer performt. Auch mit 700 Partien ist die Errorbar noch sehr, sehr groß (ca. +/- 40 Elo).

Völlig klar, aber nur so kann man die Illusion aufrecht erhalten oder sich vormachen LC0 habe gleichgezogen oder SF überholt. Gleichzeitig wird "gefordert", aktuelle LC-Versionen zu testen. Bei SF wird es mit der Aktualität aber nicht so genau genommen, obwohl aktuelle SF-Versionen (bei dir glaube ich vom 10.3., bei uns vom 20.3., http://cegt.forumieren.com/t1115-testing-stockfish-20190320-dev) deutlich zugelegt haben, ca. +30.

Zitat:
...konnte zwar den 100-Partien Direktvergleich gegen Stockfish 10 knapp gewinnen, in der Gesamt Elo-Performance liegt es aber noch gut 60 Elo schlechter als Stockfish 10...das bedeutet aber dennoch den zweiten Platz im High-End Computerschach hinter Stockfish und vor Houdini 6 und Komodo 12.3, was ja ein starkes Ergebnis ist!

So läuft es bei mir/uns auch fast immer. Das direkte Match gegen SF10 verläuft halbwegs ausgeglichen mit minimalen Vorteilen für Leela. Über alle Matches hinweg sieht es dann doch (deutlich!) anders aus. Noch zumindest...

Trotzdem ist es erstaunlich, was da in der kurzen Zeit passiert ist. Daumen hoch!
Parent - By Hauke Lutz Date 2019-04-08 20:33
Falls mich meine Erinnerungen nicht täuschen war es auch mit Stockfish so, als es an Houdini 4 vorbei ziehen wollte.
Der direkte Vergleich war schon lange gut, aber gegen Engines mit etwas weniger Elo wurde sehr viel verschenkt.
Parent - - By Reinhold Stibi Date 2019-04-09 08:07 Edited 2019-04-09 08:12
Hauptsächlich an Stefan Pohl:

Waren deine gespielten 36 Partien pro Engine auch statistische Albernheiten ?

Vielleicht bleiben hier im Forum nur ein paar Statistiker übrig und ihr könnt euch dann streiten
wer der beste Statistiker ist.
Parent - By Guenter Stertenbrink Date 2019-04-09 09:33 Edited 2019-04-09 09:43
ich wunder mich immer, wie Leute versuchen, Zahlen (insbesondere Wahrscheinlichkeiten)
in Worte zu uebersetzen. Meistens zwecks Verunklarung. Meinungsmache. Agenda.

1/4 so viele Partien ergeben halbe Elo-Genauigkeit , man kann die Partien auch mit anderen
Ergebnissen aufsummieren.

Ab welcher Zahl die "Albernheit" anfaengt .. da hat wohl jeder seine eigene Meinung.

Lc0 spielt bei laengerer Bedenkzeit besser, hat mehr Elo (konstantes LR) , ich bin nicht sicher, wieviel das ausmacht
Vielleicht so 20 Elo pro Bedenkzeitverdopplung schaetz ich mal .
Bis hin zu TCEC-level.  Dann wird's flacher und die Elo bleibt gleich

----------------------------

btw. bei CCCC : nach 46 Partien hatte Lc0 100 Elo bessere Performance als Sf
nach 121 Partien nur noch 38 Elo .
Wahrscheinlichkeit fuer so was ist ...
Parent - - By Stefan Pohl Date 2019-04-09 12:05 Edited 2019-04-09 12:16 Upvotes 4
Selbst in meinem long thinking-time Turnier hab ich immer versucht, so auf 200-300 Partien zu kommen. Die Einzelergebnisse, die dann ggf. Nur 30 oder 40 Partien waren, sind dann statistische Albernheiten. Ganz klar. Bei so wenigen Partien sind die Einzelergebnisse witzlos, nur der Gesamtscore kann dann etwas aussagen. Letzlich war das long thinkingtime Turnier auch primär zu Unterhaltungszwecken gedacht.

Letzlich ist es nun mal so, die Errorbar lügt nicht...wenn man aus Ergebnissen Schlüsse zieht, die über die statistische Sicherheit der Errorbar hinausgehen, dann ist das eine statistische Albernheit. Und deshalb macht es einfach keinen Sinn, zeitllich eng verwandte lc0-Nets mit weniger als 100 Partien (und nur gegen einen Gegner) spielen zu lassen und dann zu sagen, Net X ist besser als Net Y. Das ist und bleibt schlicht eine statistische Albernheit (Errorbar bei 100 Partien: +/-55 Elo). Und letzlich eine Respektlosigkeit den Ranglistenbetreibern gegenüber, die viel Aufwand betreiben, um echte Ergebnisse zu generieren, weil so eine Vorgehensweise ja impliziert, das der ganze Aufwand in den Ranglisten ja völlig überflüssig ist.
Parent - - By Stefan Pohl Date 2019-04-09 12:25 Edited 2019-04-09 12:48
Noch eine Ergänzung zur Errorbar: diese ist ja nur die Ungenauigkeit eines einzelnen Engineergebnisses. Will man sich sicher sein, daß Engine A besser ist als Engine B, dann muß man die vergleichende Errorbar bilden. Diese ist SQRT((Error A * Error A) + (Error B * Error B)), also beide Errorbars quadrieren, die Ergebnisse addieren und dann die Quadratwurzel ziehen.

Spielt man nun nur 100 Partien pro Engineversion oder Net (Errorbar ist dann jeweils +/-55), so ergibt sich eine vergleichende Errorbar von sogar (gerundet) 78 Elo (!). Ergo müßte ein Net schon gut 80 Elo besser abschneiden, als ein anderes, damit man sagen kann, das es besser ist.

Spielt man jeweils 700 Partien, so wie ich es plane, so ist die.Errorbar pro Ergebnis +/-25 und die vergleichende Errorbar somit +/-35 Elo. Auch hier müßte ein Net also schon erheblich besser scoren (eben mindestens 35 Elo besser), damit man wirklich sagen kann, daß es auch besser ist. Das sollte klarmachen, daß selbst 700 Partien sehr, sehr wenig sind...
Parent - - By Thomas Plaschke Date 2019-04-09 20:27

>Spielt man nun nur 100 Partien pro Engineversion oder Net (Errorbar ist dann jeweils +/-55), so ergibt sich eine vergleichende Errorbar von sogar (gerundet) 78 Elo (!). Ergo müßte ein Net schon gut 80 Elo besser abschneiden, als ein anderes, damit man sagen kann, das es besser ist.


Für den Statistik-Analphabeten: Die 78 Elo-Punkte auch +/-, so dass erst eine Differenz von mindestens 156 Elo-Punkten 95 %ige Wahrscheinlichkeit für die Aussage "Engine A ist sicher besser als Engine B" bedeutet?

Viele Grüße
Th. Plaschke
Parent - By Stefan Pohl Date 2019-04-10 05:21
Nein. So schlimm ist es nun doch nicht...
Parent - - By Benno Hartwig Date 2019-04-09 17:06 Edited 2019-04-09 17:09
Bei jeder gespielten Partienzahl kannst du einen Schätzwert für eine relative Spielstärke angeben.
Und zu jeder gewünschte Verlässlichkeit für deine Aussage kannst du eine Intervallbreite angeben.

Und so kommst du dann eben bei sehr wenigen Partien zu seehhr breiten Intervallen.
Wenn dir das genügt, dann gib gerne so breite Intervalle an. Mancher sieht darin aber eine Albernheit.

Wenn du hingegen schmalere Intervalle angibst, wirst du seehhr häufig erleben, dass die tatsächliche relative Spielstärke außerhalb deines Intervalles liegt (deine Schätzung eben ein Irrtum).
Wenn du das machst, erntest du eben fragende Blicke, weil auch das vermutlich als Albernheit gewertet wird.

Und wenn du denken würdestst, dass du ganz um die Betrachtung solcher Intervalle gänzlich herum kommen könntest, dann wäre das abermals eine Albernheit.

Aber du entscheidest, was du machen willst.
Sogar darüber, ob du Statistiker-Witzchen machen möchtest.

Benno
Parent - - By Reinhold Stibi Date 2019-04-09 18:55
Darüber haben wir uns schon öfters ausgetauscht.

Ich akzeptiere deine Meinung, erwarte von dir aber auch dass du Meine akzeptierst.

Ich will auch kein Statistiker sein und glaube nicht an dessen absolute Wahrheit.

Leider sind auch viele Statistiken falsch und manipuliert.

Deine Forderung immer ein paar hundert Partien zu spielen geht halt oft nicht aus Zeitgründen,
Stromverbrauch und Sonstiges. 

Dies war besonders früher der Fall, da die Hardware nicht so gut war. Dies dürfte auch der
Grund gewesen sein, dass Stefan Pohl selbst auch nur Matches von 36 Partien gegen eine Engine ausgetragen hat.

Inzwischen ist die Hardware wesentlich besser und man kann durch ganz kurze Bedenkzeiten  viel mehr
aussagekräftige Partien spielen.

Von dir selbst höre ich aber nicht, dass du Matches mit ein paar hundert Partien ausgetragen hast.
Parent - - By Benno Hartwig Date 2019-04-09 19:03

> Inzwischen ist die Hardware wesentlich besser und man kann durch ganz kurze Bedenkzeiten  viel mehr
> aussagekräftige Partien spielen.


Hier stimme ich dir sehr ausdrücklich zu!!!
Nur inwieweit kurzzeit-Ergebnisse als Schätzwert auch für längere Zeiten gelten können, ist mir bei NN-alphabeta-Begegnungen zur Zeit noch unklar.

Benno
Parent - By Clemens Keck Date 2019-04-10 09:29
Also bei mir ist die Rate der Lc0 Patzer erschreckend hoch.
Ich spiele 5m+3s mit ponder ON.
Stockfish hat viele Gewinnpartien mit nur 28 - 33 Zügen.
Ich bin schon am Zweifeln ob mein Setup fehlerhaft ist.

In meinen online Spielen kommen solche Lc0 Patzer alle 50 Partien mal vor.

C.K.

Benno Hartwig schrieb:

Hier stimme ich dir sehr ausdrücklich zu!!!
Nur inwieweit kurzzeit-Ergebnisse als Schätzwert auch für längere Zeiten gelten können, ist mir bei NN-alphabeta-Begegnungen zur Zeit noch unklar.

Benno
Parent - - By Stefan Pohl Date 2019-04-09 12:44 Edited 2019-04-09 13:15
Stefan Pohl schrieb:
Auch mit 700 Partien ist die Errorbar noch sehr, sehr groß (ca. +/- 40 Elo).


Sorry, dummer Fehler meinerseits. Bei 700 Partien ist die Errotbar “nur“ circa +/-25 Elo...
Parent - - By Reinhold Stibi Date 2019-04-09 13:32 Edited 2019-04-09 13:59
Deine sog. statistischen Albernheiten (36 Partien gegen eine Engine) kamen aber sehr oft und für einen längeren Zeitraum zustande.
Außerdem waren dies keine Lang- sondern Kurzzeitpartien

Jetzt davon zu Unterhaltszwecken zu reden finde ich schon merkwürdig. Glaube, dass Computerschach schon eine gewisse Ernsthaftigkeit darstellt.
Zu Unterhaltszwecken schaue ich mir einen Spielfilm ein.

Ich habe nur meine Matchergebnisse mitgeteilt und wenn ich daraus Schlüsse gezogen habe, ist das mein gutes Recht.
Es steht ja jedem offen eine andere Meinung zu haben und dies mitzuteilen; dann von Respektlosigkeit gegen Ranglistentestern zu sprechen
ist schon weit hergeholt da ich auch öfters hier im Forum die mühevolle Arbeit der Tester gewürdigt habe.
Parent - By Reinhold Stibi Date 2019-04-09 22:26
Habe mir einen witzigen Verschreiber erlaubt.

Muss natürlich nicht zu Unterhaltszwecken sondern zu Unterhaltungszwecken lauten.
Parent - - By Stefan Pohl Date 2019-04-09 17:11 Edited 2019-04-09 17:20
Kleiner Zwischenstand für Net 41665 (noch sehr unsicher): Nach knapp 200 Partien sieht es nach ca. +15 Elo zu Net 32930 aus. Also nicht wirklich der Rede wert und noch weit innerhalb der Errorbars, es könnte auch eine reine Zufallsfluktuation sein. Etwas mehr hatte ich mir wegen der neuen internen Struktur der Nets (SE-Nets) eigentlich schon erhofft. Allerdings war auch bei potato chess das Net 32930 schon nicht viel schwächer als die besten 4xxxx. Aber dort werden ja immer nur 200 Partien gespielt. Das ist natürlich sehr, sehr wenig und somit die Zufallsfluktuation sehr hoch (bzw. sie kann sehr hoch sein - leider weiß man das nie).
Also sooo dolle scheinen die 4xxxx Nets bisher wohl noch nicht zu sein. Naja, mal abwarten, wie es nach 700 Partien aussehen wird. Auffallend bisher eine exorbitant hohe Remisqoute gegen Stockfish 10. Hoffentlich schwächt sich diese noch ab.

Generell ist für mich die Frage, ob Leela mittlerweile (bei einer halbwegs vernünftigen Leela-Ratio irgendwo zwischen 0.5 und 1.5) eine Art Grenze der Spielstärkeentwicklung erreicht hat?!? Letztlich ist und bleibt die Taktik - verglichen mit den besten AB-Engines - eine Vollkatastrophe, welche zwangsläufig eine Menge Partieverluste nach sich ziehen muß. Wieweit die Weiterentwicklung der NeuralNetze Leela dann Elomäßig trotzdem noch nach oben hieven kann, das ist eben die Frage. Wobei ich gerne zugebe, daß ich schon jetzt staune, daß Leela es überhaupt bis auf Platz 2 des High-End Computerschachs geschafft hat. Hätte ich nicht gedacht.
Parent - - By Peter Martan Date 2019-04-09 18:09 Upvotes 1
Stefan Pohl schrieb:

Auffallend bisher eine exorbitant hohe Remisqoute gegen Stockfish 10. Hoffentlich schwächt sich diese noch ab.

Wieder mal eine Zwischenfrage, von der ich nur hoffen kann, du hast es nicht ohnehin schon begründet, und ich hab's nur überlesen, aber warum beim Leela- Testen keine Drawkiller- Eröffnungen?
Parent - - By Reinhold Stibi Date 2019-04-09 19:07
Nach meiner Meinung sind die Drawkiller-Eröffnungen eine Abwandlung vom 960er Schach und
haben mit dem normalen Schach nicht so viel zu tun.

Habe Mal einen kurzen Zwischentest mit den Drawkiller-Eröffnungen mit Lc0 gegen Stockfish 10 gemacht.

Stockfish 10 schnitt damit wesentlich besser ab als Lc0.

Hoffe, dass Stefan Pohl, mir wegen meiner Meinung "nicht an die Gurgel" geht.

Die vielen Remispartien könnte man wahrscheinlich vermeiden mit Gambit-Vorgabeeröffnungen.

Zu überlegen wären auch Vorgabe-Turniere mit einem oder 2 Bauern weniger mit abwechselden Farben.
Parent - By Hauke Lutz Date 2019-04-09 19:20 Edited 2019-04-09 19:24
Gambitvarianten wären denkbar, aber Engines spielen die meistens falsch zu Ende.
Engines mit weniger Material forcieren eine schnelle Rückgewinnung und dann endet das wieder mit Remis.
Parent - - By Stefan Pohl Date 2019-04-10 05:40 Edited 2019-04-10 05:45
Peter Martan schrieb:

Stefan Pohl schrieb:

Auffallend bisher eine exorbitant hohe Remisqoute gegen Stockfish 10. Hoffentlich schwächt sich diese noch ab.

Wieder mal eine Zwischenfrage, von der ich nur hoffen kann, du hast es nicht ohnehin schon begründet, und ich hab's nur überlesen, aber warum beim Leela- Testen keine Drawkiller- Eröffnungen?


Ich hab darüber natürlich nachgedacht. Aber es geht bei Leela (zumindest mir) nicht nur um die reine Elomessung, sondern auch darum, wie Leela spielt. Weswegen ich ja auch Gewinnpartien zum Nachspielen auf meiner Website anbiete. Und dafür sind natürlich “normale“ Eröffnungen interessanter und das Spiel für Menschen leichter nachzuvollziehen.
Zudem ist die.Bedenkzeit ja sehr kurz und ich nutze ein Notebook und keinen Monsterrechner, insofern sollte die Remisqoute insgesamt (nicht unbedingt bei Leela vs. Stockfish) sich noch in einem erträglichen Rahmen bewegen (auch im jetzt laufenden Testrun liegt sie bei ca. 50%).
Zudem können Partien, die aus 4 SuperGM-Zügen Vorgaben heraus entstehen, auch noch als Datengrundlage für Thomas Zipproths Cerebellum genutzt werden, welches zukünftig ja auch mit Leela-Kalkulationen gefüttert werden wird. Thomas kann dann mit den jetzt von mir gespielten Partien gezielt nach “Löchern“ im Cerebellum suchen. Oder nach Punkten, wo noch Potential für Kalkulationen liegt. Das geht natürlich mit Drawkiller Vorgaben nicht.
Aus diesen drei Gründen habe ich mich so entschieden. Generell ist es ja so, und das habe ich ja auch immer gesagt, daß das Drawkiller-Projekt in die Zukunft gerichtet ist. Wenn eben die Rechner noch schneller werden. Oder man schon heute schnelle Rechner und lange Bedenkzeiten nutzt (TCEC z.B.). Und dadurch die Remisqouten immer weiter ansteigen...dann braucht man Drawkiller, bzw. dann.wird man Drawkiller brauchen.
Auf einem Notebook mit einer Bedenkzeit von 150“+1500ms sollte es heutzutage eigentlich noch ohne Drawkiller gehen.
Parent - - By Guenter Stertenbrink Date 2019-04-10 05:53
fuer wie wahrscheinlich haeltst du es denn mittlerweile, dass Lc0 bei drawkiller nicht schwaecher spielt ?
Parent - - By Reinhold Stibi Date 2019-04-10 08:13
Teste doch mal selber Lc0  gegen Stockfish  10 mit Drawkiller-Eröffnungen.

Damit wird Lc0, soviel ich nach einem Kurz-Zwischen-Test in Erinnerung habe, richtig niedergemetzelt.
Glaube, es waren ca. 200 Elo plus für Stockfish 10, bin darüber richtig erschrocken. Möchte mich darüber aber nicht genau festlegen.

Kommt wahrscheinlich auch auf die Hardware drauf an. Mit einer Spitzenhardware mag das Ergebnis besser ausfallen. 

Lc0 müsste wahrscheinlich, um damit mit Stockfish 10 mithalten zu können, speziell abgestimmt werden was sehr aufwendig wäre.
Parent - By Horst Sikorsky Date 2019-04-10 09:16
Reinhold Stibi schrieb:

Teste doch mal selber Lc0  gegen Stockfish  10 mit Drawkiller-Eröffnungen.

Damit wird Lc0, soviel ich nach einem Kurz-Zwischen-Test in Erinnerung habe, richtig niedergemetzelt.
Glaube, es waren ca. 200 Elo plus für Stockfish 10, bin darüber richtig erschrocken. Möchte mich darüber aber nicht genau festlegen.

Kommt wahrscheinlich auch auf die Hardware drauf an. Mit einer Spitzenhardware mag das Ergebnis besser ausfallen. 

Lc0 müsste wahrscheinlich, um damit mit Stockfish 10 mithalten zu können, speziell abgestimmt werden was sehr aufwendig wäre.

also, ich beginne 1min +6s ohne Pondern, LcO RTX 2070 halbe Kraft gegen den besseren CorChess (als Stockfish 10) 6 CPU ... mal sehen wie lange ich durchhalte
Parent - - By Stefan Pohl Date 2019-04-10 12:36
Völliger Nonsens. Ich habe ja einige Zeit lc0 gegen Stockfish in meinem long thinkingtime Turnier spielen lassen. Auf einer langsamen mobile Gtx 950m mit ca. 1200 n/s. Gegen Stockfish 10 singelcore, mit einer schlechten Leela-Ratio von 0.67. Da kam lc0 mit verschiedenen Nets gut mit drawkiller Eröffnungen zurecht. Natürlich lag lc0 gegen Stockfish unter 50%, aber keinesfalls -200 Elo. Die Partien können in der Download-Sektion meiner Website ja auch noch heruntergeladen werden.
Parent - By Reinhold Stibi Date 2019-04-10 14:10
Da habe ich mich mit meiner Erinnerung vertan

Beim nachschauen in meiner Datenbank habe ich die Partien gefunden die ich mit Drawkiller
am 15.03.19 mit Lc0 v0.21.0-rc1  GTX 1050 Ti  Net 41513   gegen   Stockfish 10  Xeon E5345  3 CPU   je mit 2 Min.6 Sek.pro Zug
gespielt habe.

100 Partien   + 22   =32   -46   =38.0 %   = -85  Elo      Also Stockfish 10 hat doch deutlich gewonnen.

Normalerweise war Lc0 mit deinen 4 Züge-Vorgabeeröffnungen schon auf Gleichstand mit Stockfish 10.
Auffallend sind die sehr vielen Niederlagen von Lc0.

Das war schon eine große Enttäuschung, die sich in der Erinnerung verstärkt hat.

Bin auch weiterhin der Meinung, dass Lc0 sich mit Drawkiller-Eröffnungen schwer tut, wenn auch nicht so
gravierend wie in meiner Erinnerung.

Das müssten weitere Tests ergeben. Könnte mir aber mit einer Super-Hardware, die wir jetzt ja beide haben,
schon vorstellen dass Lc0 wesentlich besser dasteht.

Wollte wirklich nicht deine Drawkiller-Eröffnungen schlecht machen.
Es ist zu bewundern wie du Drawkiller entwickelt hast mit schon wissenschaftlicher Kompetenz und ausgezeichneter Darstellung.
Parent - - By Stefan Pohl Date 2019-04-10 14:15 Edited 2019-04-10 14:18
Stefan Pohl schrieb:

Völliger Nonsens. Ich habe ja einige Zeit lc0 gegen Stockfish in meinem long thinkingtime Turnier spielen lassen. Auf einer langsamen mobile Gtx 950m mit ca. 1200 n/s. Gegen Stockfish 10 singelcore, mit einer schlechten Leela-Ratio von 0.67. Da kam lc0 mit verschiedenen Nets gut mit drawkiller Eröffnungen zurecht. Natürlich lag lc0 gegen Stockfish unter 50%, aber keinesfalls -200 Elo. Die Partien können in der Download-Sektion meiner Website ja auch noch heruntergeladen werden.


Hier die Rating-Tabelle von lc0 (plus einmal LeelaFish) mit Drawkiller-Eröffnungen gegen SF 10 (mit einer langsamen GTX 950mobile (Leela-Ratio nur 0.67!))
Bedenkzeit 8'+7'' (würde auf meiner RTX 2060 ungefähr 48''+700ms entsprechen, wenn ich die RTX 2060 (so wie ich es jetzt mache) um 30% abbremse. Sonst wäre die Zeit noch kürzer!)


     Program                         Elo    +    -   Games   Score   Av.Op.  Draws

   1 LF 0.3 N:32930 A:Houdini 6    : 3367   26   26   304    50.3 %   3365   49.3 %
   2 Stockfish 10 64 BMI2          : 3365   10   10  1875    60.2 %   3291   38.7 %
   3 Lc0 v0.20.1 N:32890           : 3307   26   26   308    41.9 %   3365   37.7 %
   4 Lc0 v0.21.0 N:41476           : 3306   29   29   270    41.7 %   3365   38.1 %
   5 Lc0 v0.20.1 N:32567           : 3300   29   29   246    40.9 %   3365   41.1 %
   6 Lc0 v0.21.0 N:41390           : 3299   33   33   178    40.7 %   3365   32.0 %
   7 Lc0 v0.20.2 N:40695           : 3235   28   28   283    32.3 %   3365   35.7 %


Die besten Nets liegen weniger als 65 Elo hinter SF 10. Ergo: Leela kommt mit Drawkiller-Eröffnungen sehr gut zurecht, ohne darauf trainiert worden zu sein. Was auch völlig logisch ist, da Drawkiller Eröffnungen im Prinzip nichts anderes sind, als die Grundstellung, in der die Rochaden auf gegenüberliegende Brettseiten künstlich eingefügt wurden. Plus ein paar Bauernzüge, um genügend Diversität zu erzeugen. Mehr ist das ja nicht. Nur 5 von 16 nicht-Bauern Figuren stehen nicht auf den Feldern, auf denen sie in der normalen Schachgrundstellung stehen(!) Drawkiller hat also nichts, aber auch gar nichts, mit Chess960 zu tun. Und ist sehr nahe an der normalen Grundstellung. Und sich selbst aufzubauen liegt Leela ja bekanntermaßen. Und Königsangriffe auch. Warum sollte ihr also Drawkiller nicht liegen??? Eben. Eher würde ich noch glauben, daß Drawkiller Leela gegenüber AB-Engines sogar bevorteilt.
Parent - By Reinhold Stibi Date 2019-04-10 15:03
Mit einem guten 41er Net erreicht Lc0 inzwischen Gleichstand mit Stockfish 10
wenn nicht sogar mit kleinem Vorteil bei der direkten Begegnung.

Dies konnte ich schon mehrfach durch verschiedene Testreihen feststellen.

Bin schon der Meinung, dass Lc0 mit deinen 4 Züge-Vorgaben Eröffnungen  um einiges besser
dasteht als mit den Drawkiller-Eröffnungen.

Das müssten aber weitere Testreihen, auch von deiner Seite, ergeben.
Parent - By Guenter Stertenbrink Date 2019-04-10 15:33
na, wer weiss wie die "black-box"-NNs darueber denken.
Trainiert haben sie's jedenfalls nicht. Und bei CCCC in anderen Stellungen,
die auch teilweise diese Kriterien erfuellen
war eine fruehere (taktisch schwache) Version extrem schlecht damit.

Man koennte mal warm probieren, das liegt lc0 vermutlich gar nicht.
Parent - - By Clemens Keck Date 2019-04-10 16:55
Das NN 33000 hat bei mir so gut gespielt online.
Jetzt im 5m+3s ponder ON gegen Stockfish (13cpu) geht Lc0 - 33000 ziemlich unter. Nach 71 Spielen konnte Lc0 nur 4 gewinnen. Sf dagegen 14.

C.K.
Parent - By Wolfgang Battig Date 2019-04-10 18:43 Upvotes 1
Na ja, "untergehen" ist schon was anderes.
+4 / -14 / =53 (71 Partien) = ca. 43% => ca. -49 ELO.

Zumindest aber (ein wenig) ungewöhnlich. Im direkten Duell ist LC0 normalerweise mittlerweile auf Augenhöhe, aber eben nur da.
In unserem 5'+3"-Test mit Ponder hat LC0 (32930, das Network vom letzten TCEC-Finale) das Match gegen SF10 mit 53,5:46,5 gewonnen, also ca. +24 ELO. Nach 1300 Partien gegen insgesamt 13 Gegner liegt Leela aber 25 Punkte zurück. Effektiv dürfte es eher mehr sein, die Leela-Ratio liegt bei 1,4, also recht freundlich

In unserer Rangliste mit 40 Züge / 3 Minuten ähnlich. Hier ging das Match gegen SF 10 knapp verloren (- 25 Punkte), der Abstand in der Liste beträgt aber 44 Punkte (1800 Partien).

Oder gegen eine Stockfish-Development Version (vom 20.3.): direktes Match +7 ELO, Abstand vermutlich aber um die 60-70 ELO, da die Stockfish-Dev. ca. 25-30 Punkte stärker sein dürfte als SF10. Schreibe bewusst "dürfte" und "vermutlich", weil die Rangliste erst am Freitag aktuell sein wird.

Wir werden dieses Network auch noch mit 3'+1" (mit Ponder), 40/20 (ohne Ponder) und evtl. auch 40/120 (ohne Ponder) testen. Das dauert aber seine Zeit.
Da wir aber nur 2 bis 3 Networks pro Jahr in diesem Umfang testen werden, bin ich da ganz entspannt...
Parent - - By Peter Martan Date 2019-04-10 06:12
Stefan Pohl schrieb:

Zudem können Partien, die aus 4 SuperGM-Zügen Vorgaben heraus entstehen, auch noch als Datengrundlage für Thomas Zipproths Cerebellum genutzt werden, welches zukünftig ja auch mit Leela-Kalkulationen gefüttert werden wird. Thomas kann dann mit den jetzt von mir gespielten Partien gezielt nach “Löchern“ im Cerebellum suchen.

Das ist natürlich auch ein triftiger Grund. Danke mal wieder für die viele gute Arbeit, Stefan.
Parent - By Stefan Pohl Date 2019-04-10 14:24 Edited 2019-04-10 14:30 Upvotes 1
Peter Martan schrieb:

Stefan Pohl schrieb:

Zudem können Partien, die aus 4 SuperGM-Zügen Vorgaben heraus entstehen, auch noch als Datengrundlage für Thomas Zipproths Cerebellum genutzt werden, welches zukünftig ja auch mit Leela-Kalkulationen gefüttert werden wird. Thomas kann dann mit den jetzt von mir gespielten Partien gezielt nach “Löchern“ im Cerebellum suchen.

Das ist natürlich auch ein triftiger Grund. Danke mal wieder für die viele gute Arbeit, Stefan.


Gerne. Meine normalen Stockfish-Testruns und die dazugehörige Mini-Rangliste laufen ja aus demselben Grund mit den HERT-Vorgaben von Thomas und nicht mit Drawkiller oder (wie früher mal) mit SALC-Eröffnungen. Die damit einhergehende höhere Remisqoute nehme ich in Kauf, zumal sie ja auf meiner nicht schnellen Hardware (plus den kurzen Bedenkzeiten) noch in einem vertretbaren Rahmen liegt. Ich habe nun mal recht begrenzte Ressourcen, daher ist es für mich besonders wichtig, diese optimal zu nutzen. Und so generieren meine 2 im Dauerbetrieb laufenden Notebooks eben nicht nur die Ergebnisse, sondern auch Partienmaterial, welches Thomas Zipproth für die Verbesserung von Cerebellum verwenden kann (und das auch tut!). So schlage ich gewissermaßen 2 Fliegen mit einer Klappe, bzw. 4 Fliegen mit 2 Notebooks...
Und die Erstellung von Drawkiller / SALC hat ja auch ordentlich Ressourcen gefressen. Bewertungen der Endstellungen mit dem pgnscanner und dann die vielen Testruns, um Eval-Schwellwerte festzulegen und die Testturniere, um nachzuweisen, daß das Ganze auch wirkt. Da sind einige CPU-Jahre für draufgegangen seit SALC v1.0...
Parent - - By Stefan Pohl Date 2019-04-10 14:39
Stefan Pohl schrieb:

Kleiner Zwischenstand für Net 41665 (noch sehr unsicher): Nach knapp 200 Partien sieht es nach ca. +15 Elo zu Net 32930 aus.


Neuer Zwischenstand nach 345 Partien: knapp +30 Elo zu Net 32930. Also jetzt fast doppelt so viel Elo-Zugewinn von Net 41665 zu Net 32930 im Vergleich zum Zwischenstand bei knapp 200 Partien. Zeigt sehr schön, warum viele Partien zu spielen eben so wichtig ist. Bin gespannt, ob sich der Score noch weiter verbessert, oder ob das nur ein temporärer Ausreißer nach oben ist, und der Score wieder runtersackt. Gibt nur einen Weg, das herauszufinden: mehr Partien!
Ed Schröder wußte es schon vor 25 Jahren: "Randomness is a monster and you beat it by volume" - Ed Schröder
Parent - - By Reinhold Stibi Date 2019-04-10 16:58 Edited 2019-04-10 17:01
Der Unterschied wäre wahrscheinlich noch größer mit dem neueren Net 41876  3155 Net Elo  32.739 Partien  vom 10.04.19
                                                                                                             Net 41665  3069    "        32.334    "           "   23.03.19
                                                                                                                   -------
                                                                                                              = +   86  Net Elo   und das ist schon recht viel

Dieses Net werde ich nun testen. Bin gespannt.
Up Topic Hauptforen / CSS-Forum / Lc0 N:32930 Ergebnis online
1 2 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill