Drawkiller-32583-32463

By Stefan Pohl Date 2019-01-14 16:08 Edited 2019-01-14 16:16

Erstaunlich hohe Remisqoute für Drawkiller-Verhältnisse. Welche Drawkiller Eröffnungen.waren es (small500, tournament, normal) ?
Wäre zu Forschungszwecken interessant, wenn du das Ganze (mit sonst identischen Bedingungen) mit einem Standard-Eröffnungsset wiederholen könntest (HERT (kannst du dir auf meiner Website runterladen) FEOBOS, Stockfish Framework 8moves oder so). Bzgl. Remisqoute und Ergebnisspreizung. Mit 1'+2“ dürfte das ja nicht lange dauern. Das wäre nett.
Zu Versuchen mit Drawkiller im Leela-Selfplay bin ich bisher leider noch nicht gekommen. Hier besteht also noch Forschungsbedarf! Und deine Grafikkarte ist viel schneller als meine.

By Horst Sikorsky Date 2019-01-15 08:32

Hallo Stefan,
es waren die tournament Eröffnungen.
ich beginne mit HERT aber auch nur 200 Partien.

By Stefan Pohl Date 2019-01-15 11:59

Horst Sikorsky schrieb:

Hallo Stefan,
es waren die tournament Eröffnungen.
ich beginne mit HERT aber auch nur 200 Partien.

Super, vielen Dank!
Ja, klar, 200 Partien, alle Einstellungen wie beim ersten Match.

By Stefan Pohl Date 2019-01-15 12:05

Schön wäre auch, wenn du mir die dann insgesamt 400 Partien als geziptes pgn-File per email-Anhang zusenden könntest. Ich schicke dir gleich eine PM mit meiner email-Adresse.

By Horst Sikorsky Date 2019-01-15 14:49

Lc0 v0.20.1-rc2 32583-32463 +11 =51 -4
bis Morgen Horst

By Horst Sikorsky Date 2019-01-16 07:50

Horst Sikorsky schrieb:

Lc0 v0.20.1-rc2 32583-32463 +11 =51 -4
bis Morgen Horst

Endstand mit hoher Remis-Quote mit HERT

32583-32463, Blitz 1m+2s  2019

                            
1   Lc0 v0.20.1-rc2     +5  +24/=155/-21 50.75%  101.5/200
2   Lc0 v0.20.1-rc2x    -5  +21/=155/-24 49.25%   98.5/200

By Stefan Pohl Date 2019-01-16 13:07

Danke sehr, Horst. Sehr informativ. Drawkiller senkt auch hier die Remisqoute deutlich, wenn auch nicht so stark, wie in anderen Testsetups. Und die Elospreizung ist auch hier mit Drawkiller deutlich höher und macht überhaupt erst die Beurteilung möglich, daß das Net 32583 stärker als das Net 32463 ist.

By Peter Martan Date 2019-01-16 17:39

Stefan Pohl schrieb:

Drawkiller senkt auch hier die Remisqoute deutlich, wenn auch nicht so stark, wie in anderen Testsetups. Und die Elospreizung ist auch hier mit Drawkiller deutlich höher und macht überhaupt erst die Beurteilung möglich, daß das Net 32583 stärker als das Net 32463 ist.

Das verstehe ich nun allerdings eigentlich auch immer noch nicht ganz, Stefan, wenn's nur aufs Ranking ankommt, also welche Engine oder welche Netzwerk- Version den ersten und welche den zweiten Platz einnimmt, ist doch der Abstand der Elo völlig egal.

Die Errorbar der Elo ist das eine, aber die von zwei Plätzen zueinander ist eine andere, wie groß die sein muss, hängt auch nur insofern von der Partiezahl ab, wenn du im einen Fall bei 1000 Partien noch dauernd die zwei Plätze tauschen siehst und im anderen Fall bei 2000 nicht mehr.
Wie deine Verteilungskurve von ganzen und halben Punkten über die Anzahl der Partien ist, davon hängt meiner Meinung nach die Errorbar der Verlässlichkeit der Rankingmessung auschließlich ab.

Die Merkmalsdifferenz ist hier nicht in Elo in Punkten gefragt, sonst käme es ja auf deren absolute Höhe sehr wohl an, sondern nur Platz 1 und Platz 2 zählt, wie groß da die Datenmenge ist, die du für eine bestimmte Errorbar brauchst, musst du einen Statistiker fragen, der die entsprechende Formel für deinen bestimmten Pool an Engines bei genau zwei Plätzen ausrechnet, mit der Eloformel hat diese Errorbar gar nichts zu tun, oder sehe ich da was statistisch betrachtet falsch?

By Stefan Pohl Date 2019-01-16 20:46

Ich bezog mich hier auf die konkrete Situation der zwei Testruns, die Horst gemacht hat. Und da war es nun mal so, daß der Testrun mit dem Hert-Set so knapp ausging, daß man gar kein Ranking bekam, will sagen, daß beide Engineversionen so gleichauf lagen, daß man seriös nur Gleichstand daraus ablesen konnte. Und ein Ranking gab es eben mit Drawkiller, wenngleich ich gerne zugebe, daß auch dort der Abstand mit 30 Elo geringer war, als die Errorbar nach 2x200 Partien. Dennoch war das eben schon ein gewisser Abstand, der diesen Begriff auch verdient, insofern gab es halt ein Ranking.

By Stefan Pohl Date 2019-01-16 20:56 Edited 2019-01-16 21:00

Mit einem Bild wird das evt. deutlicher: Wenn das Ranking der Kuchen ist, ist das Rating die Sahne: man kann Kuchen ohne Sahne durchaus geniessen, aber nicht Sahne ohne Kuchen.
Meint übersetzt: Natürlich ist die Elospreizung mithilfe der Drawkiller Eröffnungen eine Streckung und damit in gewisser Weise eine Verfälschung der Ratings. Letzlich also Kuchen ohne Sahne.
Nutzt man aber ein klassisches Eröffnungsset zur realitätsnäheren Ratingbestimmung, dann wäre das die Sahne. Ergeben nun aber diese Sahne-Ratings so enge Abstände zwischen den Engines, daß keine seriöse Bestimmung eines Rankings mehr möglich ist, dann verschwindet der Kuchen in der Errorbar und man hat nur Sahne auf dem Eloteller...also einen Ergebnisbrei ohne feste Form. Insofern ein wirklich passendes Bild.

By Peter Martan Date 2019-01-16 21:05 Edited 2019-01-16 21:17

Stefan Pohl schrieb:

Insofern ein wirklich passendes Bild.

Ja, Stefan, so wie der Vergleich zwischen Bilderkennungssoftware und der Mustererkennung von AI im Schach, es hilft der Vorstellung auf die Sprünge, wo das wirkliche exakte Verständnis für die Rechenvorgänge fehlt.
Fachlich statistisch- rechnerisch betrachtet, irrst du dich, meiner Meinung nach.
Du verwechselst die Errorbar bestimmter Elowerte bestimmter Höhe mit der für das Ranking allein.
Letztere bedarf keiner Eloformel, du kannst die Elowerte anstelle der genau richtigen Formel zur Berechnung der bestimmten die Errorbar des Rankings statistisch ausmachenden verwenden, aber das erspart dir nicht, die Merkmalsdifferenz Engine 1 vor Engine 2 eigens zu berechnen, wenn du die genau richtige Partiemenge für eine bestimmte reine Ranking- Errorbar eines bestimmten Engine- Pools wissen willst. Schon hängt sie auch von den Eröffnungsstellungen ab, aber nicht in der gleich quantitativen Relation wie die der Elo, sonst könnte es ja auch nicht egal sein, wie hoch die (die Elo) absolut sind.

Wenn du die Partiemenge nach der Errorbar, die von den (beliebig hoch oder niedrig einsetzbaren) Elowerten bestimmt wird, willkürlich annimmst, ist das Bias.

Die Errorbar, die du zur Bestimmung eines Rankings von 1-x (je nach Zahl der Teilnehmer) allein notwendig, abhängig von der Partiemenge, errechnen solltest, die hat mit Elo und Eloformel a priori nix zu tun. Man verwendet sie beim Schach einfach aus Gewohnheit.

By Peter Martan Date 2019-01-16 08:07

Stefan Pohl schrieb:

Zu Versuchen mit Drawkiller im Leela-Selfplay bin ich bisher leider noch nicht gekommen. Hier besteht also noch Forschungsbedarf!

Naja, eine Schwachstelle der "Elospreizung" wird da aber, auch wenn sie genau so funktioniert, wie du das immer beschreibst, schon mal offensichtlich, eine quantitative Abschätzung des Fortschritts einer Version gegen die andere ein und derselben Engine ist so nicht möglich, wenn du nur die beiden allein gegeneinander spielen lässt.
Weil es da ja gerade auf den quantitativen Unterschied ankäme, wenn du den spreizt, machst du dir selbst was vor, oder jedenfalls weißt du nicht, um wieviel du ihn gespreizt hast.
Also prinzipiell dasselbe Problem wie bei den intern ermittelten LC0-Selfplay-Elo, die haben auch irgendwas mit dem Fortschritt zu tun, nur wieviel, weiß man halt nie.

Ich finde überhaupt, je weniger Engines du da im Pool hast, desto mehr fehlt der Zusammenhang und die Vergleichbarkeit zu beliebigen anderen Testsets und zu anderen Pools, und genau genommen müsste es halt immer genau derselbe Pool sein, damit wenigstens das Ranking vegleichbar bleibt.

By Stefan Pohl Date 2019-01-16 13:03 Edited 2019-01-16 13:35

Peter Martan schrieb:

Sachstelle der "Elospreizung" wird da aber, auch wenn sie genau so funktioniert, wie du das immer beschreibst, schon mal offensichtlich, eine quantitative Abschätzung des Fortschritts einer Version gegen die andere ein und derselben Engine ist so nicht möglich, wenn du nur die beiden allein gegeneinander spielen lässt.

Ist das so? Im Prinzip schon. ABER: Auch im Selfplay geht Ranking erst mal vor Rating. Und bei Lc0 gilt zudem, daß ja auf einem PC immer nur eine Partie simultan laufen kann, sodaß man nur sehr viel weniger Partien in so einem Selfplay-Vergleich spielen kann, als wenn man AB-Engines im Selfplay auf 4, 6, 8 oder gar 16 cores testet und ebensoviele Partien simultan laufen können. Und dann hat man zunächst mal ein Ranking-Problem, was uns die beiden Testruns, die Horst freundlicherweise gemacht hat, deutlich vor Augen führen:

Drawkiller_tournament:
1   Lc0 v0.20.1-rc2 N:32583 +31 +52/=114/-34 54.50% 109.0/200
2   Lc0 v0.20.1-rc2x N:32463 -31 +34/=114/-52 45.50%   91.0/200
(Remisqoute: 57.0%)

HERT-Set:
1   Lc0 v0.20.1-rc2 N:32583 +5 +24/=155/-21 50.75% 101.5/200
2   Lc0 v0.20.1-rc2x N:32463 -5 +21/=155/-24 49.25%   98.5/200
(Remisqoute: 77.5%)

Nur dank der Elo-Spreizung durch Drawkiller kann man hier nach 200 Partien überhaupt einen Spielstärkezugewinn von Net 32583 erkennen. Mit dem HERT-Set nicht. Und dann nützt mir auch ein "praxisnäheres" Elo-Rating nichts, wenn ich damit überhaupt kein Ergebnis bekomme, was ein Net gegenüber einem anderen favorisiert, oder zigtausende von Partien spielen müßte, um ein solches Ergebnis zu bekommen (was gerade mit lc0 sehr lange dauern würde!)

Und das alles ist Stand HEUTE. Denk dir mal 10 Jahre Hardware-Geschwindigkeitsboost und 10 Jahre Engine-Entwicklung dazu. Dann geht ohne Drawkiller nichts mehr. Weder im Selfplay noch im absoluten Top-Bereich des Computerschachs bekommt man dann mit Standard-Eröffnungen noch Ergebnisse, die irgendetwas statistisch Belastbares aussagen. Es sein denn man spielt zehn- oder hunderttausende von Partien. Und für diese Zukunft ist Drawkiller primär gedacht und gemacht! Deswegen nenne ich Drawkiller ja auch auf meiner Website "Future of Computerchess". Ich konnte und wollte nun mal nicht darauf warten, daß das Computerschach voll vor die Remis-Wand gefahren wird und dann erst anfangen, mir Gedanken zu machen, was man tun könnte, um das Computerschach zu retten.

By Guenter Stertenbrink Date 2019-01-17 04:38

man kann auch die eval-charts pro Zugnummer aufmalen.

Da sieht man auch bei Remispartien, wem es gelingt die eval zu erhoehen.

By Horst Sikorsky Date 2019-01-17 22:01

ich starte mal Lc0 v0.20.1-rc2 N:32646 - Lc0 v0.20.1-rc2x N:32583
1min+1s 200 Partien Drawkiller tournament
das wird knapp ?

By Horst Sikorsky Date 2019-01-18 14:43

32656 drkill-32583, Blitz 1m+1s  2019

                            
1   Lc0 v0.20.1-rc2     +9  +39/=127/-34 51.25%  102.5/200
2   Lc0 v0.20.1-rc2x    -9  +34/=127/-39 48.75%   97.5/200

ich hatte mich verschrieben Lc0 v0.20.1-rc2 hat mit 32656 gespielt

By Guenter Stertenbrink Date 2019-01-18 03:33

Stefan Pohl schrieb:

r zigtausende von Partien spielen müßte, um ein solches Ergebnis zu bekommen

nun uebertreibst du aber. Doppelt soviele, also 400 ergeben etwa die gleiche
Zahl von nicht-Remisen. Das muesste doch genauso gut sein, oder ?

By Stefan Pohl Date 2019-01-18 04:23 Edited 2019-01-18 05:05

Guenter Stertenbrink schrieb:

Stefan Pohl schrieb:

r zigtausende von Partien spielen müßte, um ein solches Ergebnis zu bekommen

nun uebertreibst du aber. Doppelt soviele, also 400 ergeben etwa die gleiche
Zahl von nicht-Remisen. Das muesste doch genauso gut sein, oder ?

Nein! Es wäre schön, wenn das so wäre.
Aber es geht auch um die Spreizung der Elo-Ergebnisse und die Errorbars, aus denen man so eben früher herauskommt (mir Drawkiller), oder eben nicht (ohne Drawkiller), nicht um die Remisquote allein. Errorbars zum Beispiel halbieren sich eben nicht mit doppelt so vielen Partien.
Siehe meine Mini-Rangliste auf meiner Hauptseite:
Lc0 hat dort gerade 1200 Partien gespielt: Errorbar +/-14
Der direkte Tabellennachbar Komodo 12.3 hat eine halb so breite Errorbar (+/-7). Dafür waren 6200 Partien nötig. Also mehr als das 5fache an Partien!!!
Wenn man also mit Drawkiller ein Ergebnis erhält, daß nur 8 Elo weiter gespreizt ist, als mit einem klassischen Eröffnungsset, muß man weniger als ein Fünftel (!) der Partienmenge spielen, um aus der Errorbar herauszukommen - in diesem konkreten Beispiel. Und im allgemeinen spreizt Drawkiller die Ergebnisse weit stärker, als nur um 8 Elo. In Horsts Testruns mit Drawkiller und Hert waren es z.B. 26 Elo (31 Elo Abstand statt 5). Und um eine Errorbar von +/-31 auf +/-5 zu drücken, sind Unmengen von Partien nötig. In meiner Rangliste hat Komodo 12 12000 Partien spielen müssen, um +/-5 Errorbar zu bekommen. Für +/-31 reichen ein paar Hundert Partien (in meinem Long thinking-time Turnier sind es 235 Partien, die eine lc0-Version gespielt hat). Ergo wären es 12000/235 = gut 50 mal mehr Partien, die man in diesem konkreten Beispiel spielen müßte, um mit dem HERT-Set wenigstens an den Rand der Errorbar zu kommen im Vergleich zu Drawkiller. Und nicht doppelt so viele.
Ergo habe ich eben nicht übertrieben. Auch nicht, als ich in der Dokumentation zu Drawkiller schrieb, daß Drawkiller der Durchbruch in eine neue Dimension des Computerschachs ist. Das sollten diese Zahlen verdeutlichen.

By Guenter Stertenbrink Date 2019-01-18 05:48

naja, dies war just ein Beispiel, 200 Partien , sieht nicht repraesentativ aus.
http://magictour.free.fr/POHL19A.GIF - hier "spreizte" dk die Hert-Elo
von 320 auf 460 , also etwa 50% , 1.5*1.5=2.25 mal so viele Partien wuerde
HERT benoetigen dafuer (zugegeben, das ist jetzt naiv gerechnet ohne lange zu ueberlegen)

Zur Halbierung der "Errorbars" oder durchschnittliche Elo-Abweichung oder so
brauchst du 4mal soviele Partien, das ist genau quadratisch.

By Stefan Pohl Date 2019-01-18 06:55

Abwarten.
Bisher ist Drawkiller auf möglichst niedrige Remisqouten hin optimiert. Daher wurden Stellungen benutzt, in denen die Komodo-Eval ein Stück unausgeglichen waren:
Drawkiller tournament-files: Komodo eval [-0.39;-0.20] or [+0.20;+0.39]

Ich teste gerade, wie sich ein Drawkiller-Stellungsset verhält, in dem die Komodo-Eval um Null herum liegt (eval von -0.20 bis +0.20).
Dies könnte die Elo-Spreizung (bei möglicherweise etwas höheren Remisqouten) nochmals erhöhen. Mal gucken.
Falls ja, packe ich diese Stellungen noch in den Drawkiller-Download dazu.
Dann kann man wählen zwischen möglichst hoher Elo-Spreizung oder möglichst niedriger Remisqoute.