Leela-Ratio und das Test(er)problem

By Stefan Pohl Date 2018-08-10 09:15 Edited 2018-08-10 09:25 Upvotes 1

Peter Martan schrieb:

das sieht man schon überdeutlich bei den wenigen Monaten der Leela- Entwicklung, was da für Extrembeispiele von widersprüchlichen Elowerten stündlich auf einen einregnen.

Du hast damit natürlich völlig Recht. Das Problem ist die Leela-Ratio (https://blog.lczero.org/2018/07/04/leela-ratio), welche ja nichts anderes als ein vergleichender Geschwindigkeitstests zwischen CPU-Engines und Leela ist. Hier hat beinahe jedes PC-System einen anderen Wert, der sich zudem radikal ändert, je nachdem, mit wievielen CPU-Kernen die klassischen Engines in solchen Testruns gegen Leela spielen. Ebenso ist der Wert extrem davon abhängig, mit welcher NN-Größe (10x128, 15x192, 20x256) Leela spielt, weil sich mit jeder dieser Größen in aufsteigender Richtung die Rechengeschwindigkeit von Leela in etwa halbiert (somit auch der Leela-Ratio Wert). Das Problem ist eben, daß im Gegensatz zu "normalen" Tests, Leela und ihre Gegner eben nicht auf der identischen Hardware laufen, sie ist im Gegenteil sogar grundverschieden. Das macht das seriöse Testen extrem schwierig - falls es überhaupt möglich ist.
Viele Leute posten den Leela-Ratio Wert gar nicht mit, wenn sie Testruns machen. Diese Ergebnisse kann man dann eigentlich gleich vergessen. Ohne den Ratio-Wert sagen sie schlicht nichts aus. Denn das ist so, als würde man klassische AB-Engines gegeneinander spielen lassen, aber mit unterschiedlichen Bedenkzeitstufen, und diese Bedenkzeitstufen würde man verschweigen. Wer würde solche Test ernst nehmen? Genau: Niemand. Und das ist exakt die Situation, wenn irgendwelche Leela Testergebnisse ohne Leela-Ratio veröffentlich werden - schlicht wertlos und unseriös.
Leider ist es aber auch so, daß noch lange nicht "alles gut wird", sobald der Leela-Ratio Wert einer Testumgebung mitveröffentlicht wird. Denn wie soll man diesen einordnen? Welcher Wert ist "fair" in einem Trestrun von Leela und AB-Engines? Welcher nicht?
Ich habe dazu folgende Meinung - welche aber nicht die alleinseligmachende sein soll - einfach mal als Diskussionsgrundlage:
Ich gehe davon aus, daß Google bei seinem Wettkampf von AlphaZero gegen Stockfish 8, welcher ja als PR für Googles KI- und NeuralNetz-Forschung dienen sollte, sicher keine Testbedingungen geschaffen hat, die für AlphaZero von Nachteil waren. Dafür spricht, die merkwürdige fix-Bedenkzeit pro Zug und die viel zu kleinen Hashtables von Stockfish. Und in diesem Wettkampf war die Leela-Ratio genau 1.0 (die Formel wurde ja aufgrund dieses Wettkampfes entwickelt). Davon ausgehend wäre m.E. zu folgern, daß für halbwegs seriöses Testen von Leela (wenn diese ebenfalls mit einem 20x256 NN spielt, wie AlphaZero), der Leela-Ratio Wert keinesfalls über 1.0 liegen sollte - besser darunter. Das ist für das aktuelle TCEC eine gute Nachricht, denn dort sollte die Ratio um 0.3-0.35 liegen (und Leela spielt dort mit 20x256 NN). Und auch für meine long thinking-time Testruns, denn seit dem jetzt laufenden, ersten Testrun mit 20x256 NN, liegt die Leela-Ratio dort bei 0.67 (langsame mobile Grafikkarte gegen langsam laufende AB-Engine im singlethread-Betrieb).
Viele Enthusiasten nutzen aber bombastische Grafikkarten (auf twitch spielt einer mit 2 Titan V GPUs (!!)), und dann ergeben sich Leela-Ratio-Werte, die, selbst wenn die gegnerischen AB-Engines mit vielen Cores laufen, einfach viel zu hoch sind (Werte von 3-6 und mehr sind keine Seltenheit). Dann bekommt man natürlich tolle Elo-Erfolge von Leela, das ist klar. Aber diese sind m.E. nicht wirklich realistisch. Aber, wer sich extra tolle, neue Grafikkarten zulegt, berauscht sich dann natürlich auch gern an solchen Resultaten, das ist verständlich. Nur seriös ist eben leider nicht.
Das ist doppelt schade, da Leela solche Pseudo-Erfolge gar nicht nötig hätte. Wer sich den Ergebnisverlauf meiner bisherigen Leela-Tests anschaut, sieht, daß Leela sich ja extrem schnell steigert. Und mein erster Testrun mit dem 20x256 NN 10480 läuft bisher unfaßbar gut. Genaues kann und möchte ich noch nicht sagen, dafür ist der Testrun noch nicht weit genug fortgeschritten. Aber bisher ist das Ergebnis ganz erstaunlich. Umso mehr, als daß Leela auf meiner langsamen GPU (GTX 950m (eine GTX 1080 ist mindestens 6x-10x schneller!)) mit dem großen 20x256 NN nur noch gute 1000-1300 Rollouts/s schafft. Das ist nun wirklich sehr, sehr wenig und kommt Leelas taktischer Schwäche sicher nicht zugute.

By Horst Sikorsky Date 2018-08-10 09:47

sind die neueren Networks alles schlechter als das alte 20x256 NN 10480 ...

Leelas taktischer Schwäche ? Leelas taktischer Stärke soll es bestimmt heißen.
auch ihre Endspielschwäche wird schwächer
Horst

By Stefan Pohl Date 2018-08-10 10:30

Horst Sikorsky schrieb:

sind die neueren Networks alles schlechter als das alte 20x256 NN 10480 ...

Leelas taktischer Schwäche ? Leelas taktischer Stärke soll es bestimmt heißen.
auch ihre Endspielschwäche wird schwächer
Horst

Ja, taktische Stärke sollte es natürlich heißen, sorry.

Wie die neueren 20x256 Networks im Vergleich zum 10480 abschneiden, kann ich (noch) nicht sagen. Ich brauche ja noch 5 Tage für den Testrun von Net 10480. Erst danach kann ich weitere Networks testen. Den Selfplay Elo-Graph auf der Testserver Website würde ich jedenfalls nicht überbewerten.
Wegen des verzögerten Starts von Division 3 wurde laut Discord-App jetzt Net 10520 ans TCEC gesendet, statt 10480...
Doof. Was mache ich jetzt? Ich wollte doch das TCEC-Net testen...
Und sollte sich Div3 weiter verzögern, kommt evt. noch ein neures Net zur Anwendung. Alles sehr unwägbar...

By Stefan Pohl Date 2018-08-10 12:42 Edited 2018-08-10 12:56

Auf twitch läuft seit einiger Zeit ein schöner Bullet-Test mit diversen NNs gegen eine breite Gegnerzahl. Da kann man ganz gut sehen, welches Net gut scored. Sehr genau natürlich nicht, aber es ist ein guter Anhaltspunkt:

https://www.twitch.tv/potato_chess

Momentan läuft der Test von Net 10555 und der läuft überragend. Selbst Stockfish 9 liegt nur knapp über 50%, lediglich Houdini 6 scored noch wirklich sehr überlegen. Alle anderen Engines (inklusive Fire 7) bekommen gar kein Bein auf den Boden. Die Leela-Ratio liegt bei 1.5. Das ist nicht wenig, aber auch nicht absurd hoch.

Daher habe ich meinen Testrun von Net 10480 abgebrochen und starte mit Net 10555 neu. Denn Net 10480 kommt ja nun doch nicht im TCEC zum Einsatz und da - Stand jetzt - niemand weiß, ob und wann Division 3 startet, ist auch unklar, welches Netz nun wirklich dort zum Einsatz kommen wird. Geplant ist zwar 10520, aber das kann sich ja schnell wieder ändern...Es hat also keinen Sinn, dort zu spekulieren.
Da der Testrun von Net 10480 bis zum Abbruch (knapp 70 Partien) schon so überragend lief, habe ich mich entschlossen, auch die 10 Gegner-Engines in meinem Testrun nochmals zu verstärken. Nun auch letztmals. Denn ich habe jetzt die maximale Stärkestufe erreicht. Es spielen nun die 10 besten Engines aus der CEGT (40Züge/20min-singlethread) Ratinglist, also:
Stockfish 9 (Elo 3380), Houdini 6 (Elo 3349), Komodo 11.3 (Elo 3329), Fire 7.1 (Elo 3233), Booot 6.3.1 (Elo 3166), Shredder 13 (Elo 3156), Fizbo 2 (Elo 3134), Ethereal 10.55 (Elo 3132), Andscacs 0.94 (Elo 3122), Gull 3 (Elo 3078)
Das ergibt einen Elodurchschnitt von 3208 CEGT-Elo. Mehr geht z.Zt. nicht. Das ist eine Erleichterung. Langsam bin ich es nämlich wirklich leid, alle paar Wochen neue Gegner für Leela zusammenzustellen, weil der Spielstärkefortschritt so rasant ist. Vor 6 Monaten habe ich noch Brettcomputer-Emulationen mühsam in der FritzGUI zum Laufen gebracht, weil selbst schwächste normale Engines für Leela zu stark waren. Und jetzt könnte Leela selbst mit sehr mäßigen Leela-Ratio Werten schon Nummer 4 der Welt sein (also hinter den großen 3 und vor Fire 7.1). Unglaublich. Bin sehr gespannt. Der Bullettest auf potato_chess läuft jedenfalls in diese Richtung.

By Horst Sikorsky Date 2018-08-19 10:52

sf9 ist mir zum testen viel zu schwach. nehme lieber Houdini 6 und den neusten Brainfish, aber mit meinen Vorgaben!

einmal teste ich mit Ryzen7 1800 -6 cpu 3,6 GHz gegen GTX 1070 und i7 4930 -4cpu 3,4 GHz gegen GTX 1080 ... also immer 2cpu weniger als echte Kerne!
stimmt das alte Leela-Ratio noch? und wie sieht es in den beiden Beispielen bei mir aus?
Freundliche Grüße Horst

By Guenter Stertenbrink Date 2018-08-19 12:06

> sf9 ist mir zum testen viel zu schwach. nehme lieber Houdini 6

die mir bekannten Ratinglisten sehen das anders

By Horst Sikorsky Date 2018-08-19 12:13

Guenter Stertenbrink schrieb:

die mir bekannten Ratinglisten sehen das anders

mir geht es um den Vergleich und nicht die für mich nicht so wichtigen Ratinglisten.

By Peter Martan Date 2018-08-10 10:38

Horst Sikorsky schrieb:

Leelas taktischer Stärke soll es bestimmt heißen.

Schon gut, Horst, was ich an Partien auf TCEC gesehen habe, ist es teilweise besser geworden, aber Günter Stertenbrink hat schon ein paar echte Schnitzer gezeigt und ich hab auch ein bisschen was beigetragen.

http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=114306#pid114306

Schau dir die nächsten 5,6 Postings unter dem vom Link an, in denen Diagramme vorkommen.

Hast du mal wieder den WAC durchlaufen lassen mit einem der neueren Netzwerke?

By Horst Sikorsky Date 2018-08-10 12:23

Hallo Peter,
da kann ich nichts dafür

bei mir 106.f3! 27s (noch zu lange) und das 36.c5! mit der Mattmöglichkeit dauert 00:00:01s
Horst