Peter Martan schrieb:
das sieht man schon überdeutlich bei den wenigen Monaten der Leela- Entwicklung, was da für Extrembeispiele von widersprüchlichen Elowerten stündlich auf einen einregnen.
Du hast damit natürlich völlig Recht. Das Problem ist die Leela-Ratio (
https://blog.lczero.org/2018/07/04/leela-ratio), welche ja nichts anderes als ein vergleichender Geschwindigkeitstests zwischen CPU-Engines und Leela ist. Hier hat beinahe jedes PC-System einen anderen Wert, der sich zudem radikal ändert, je nachdem, mit wievielen CPU-Kernen die klassischen Engines in solchen Testruns gegen Leela spielen. Ebenso ist der Wert extrem davon abhängig, mit welcher NN-Größe (10x128, 15x192, 20x256) Leela spielt, weil sich mit jeder dieser Größen in aufsteigender Richtung die Rechengeschwindigkeit von Leela in etwa halbiert (somit auch der Leela-Ratio Wert). Das Problem ist eben, daß im Gegensatz zu "normalen" Tests, Leela und ihre Gegner eben nicht auf der identischen Hardware laufen, sie ist im Gegenteil sogar grundverschieden. Das macht das seriöse Testen extrem schwierig - falls es überhaupt möglich ist.
Viele Leute posten den Leela-Ratio Wert gar nicht mit, wenn sie Testruns machen. Diese Ergebnisse kann man dann eigentlich gleich vergessen. Ohne den Ratio-Wert sagen sie schlicht nichts aus. Denn das ist so, als würde man klassische AB-Engines gegeneinander spielen lassen, aber mit unterschiedlichen Bedenkzeitstufen, und diese Bedenkzeitstufen würde man verschweigen. Wer würde solche Test ernst nehmen? Genau: Niemand. Und das ist exakt die Situation, wenn irgendwelche Leela Testergebnisse ohne Leela-Ratio veröffentlich werden - schlicht wertlos und unseriös.
Leider ist es aber auch so, daß noch lange nicht "alles gut wird", sobald der Leela-Ratio Wert einer Testumgebung mitveröffentlicht wird. Denn wie soll man diesen einordnen? Welcher Wert ist "fair" in einem Trestrun von Leela und AB-Engines? Welcher nicht?
Ich habe dazu folgende Meinung - welche aber nicht die alleinseligmachende sein soll - einfach mal als Diskussionsgrundlage:
Ich gehe davon aus, daß Google bei seinem Wettkampf von AlphaZero gegen Stockfish 8, welcher ja als PR für Googles KI- und NeuralNetz-Forschung dienen sollte, sicher keine Testbedingungen geschaffen hat, die für AlphaZero von Nachteil waren. Dafür spricht, die merkwürdige fix-Bedenkzeit pro Zug und die viel zu kleinen Hashtables von Stockfish. Und in diesem Wettkampf war die Leela-Ratio genau 1.0 (die Formel wurde ja aufgrund dieses Wettkampfes entwickelt). Davon ausgehend wäre m.E. zu folgern, daß für halbwegs seriöses Testen von Leela (wenn diese ebenfalls mit einem 20x256 NN spielt, wie AlphaZero), der Leela-Ratio Wert keinesfalls über 1.0 liegen sollte - besser darunter. Das ist für das aktuelle TCEC eine gute Nachricht, denn dort sollte die Ratio um 0.3-0.35 liegen (und Leela spielt dort mit 20x256 NN). Und auch für meine long thinking-time Testruns, denn seit dem jetzt laufenden, ersten Testrun mit 20x256 NN, liegt die Leela-Ratio dort bei 0.67 (langsame mobile Grafikkarte gegen langsam laufende AB-Engine im singlethread-Betrieb).
Viele Enthusiasten nutzen aber bombastische Grafikkarten (auf twitch spielt einer mit 2 Titan V GPUs (!!)), und dann ergeben sich Leela-Ratio-Werte, die, selbst wenn die gegnerischen AB-Engines mit vielen Cores laufen, einfach viel zu hoch sind (Werte von 3-6 und mehr sind keine Seltenheit). Dann bekommt man natürlich tolle Elo-Erfolge von Leela, das ist klar. Aber diese sind m.E. nicht wirklich realistisch. Aber, wer sich extra tolle, neue Grafikkarten zulegt, berauscht sich dann natürlich auch gern an solchen Resultaten, das ist verständlich. Nur seriös ist eben leider nicht.
Das ist doppelt schade, da Leela solche Pseudo-Erfolge gar nicht nötig hätte. Wer sich den Ergebnisverlauf meiner bisherigen Leela-Tests anschaut, sieht, daß Leela sich ja extrem schnell steigert. Und mein erster Testrun mit dem 20x256 NN 10480 läuft bisher unfaßbar gut. Genaues kann und möchte ich noch nicht sagen, dafür ist der Testrun noch nicht weit genug fortgeschritten. Aber bisher ist das Ergebnis ganz erstaunlich. Umso mehr, als daß Leela auf meiner langsamen GPU (GTX 950m (eine GTX 1080 ist mindestens 6x-10x schneller!)) mit dem großen 20x256 NN nur noch gute 1000-1300 Rollouts/s schafft. Das ist nun wirklich sehr, sehr wenig und kommt Leelas taktischer Schwäche sicher nicht zugute.