T60-Netze gegen SF10

By Lothar Jung Date 2019-11-07 21:30

...sind fast gleichauf:

Round Robin: stockfish_10 vs lc0.net.61055
LC0-version: lc0-v0.22, cuda, Default parameters
SF-version: stockfish_10_x64_popcnt, Threads=4, Default parameters
LC0 options: Backend=cudnn-fp16
Hardware: RTX2060 / i5
Software: Cutechess-CLI
Time control: LC0: 1k nodes/move, sf_10: 500k nodes/move
Book: openings-8ply-10k.pgn, 8 plies, sequential, color reversed
Tablebases: Syzygy 5-men

# PLAYER    : RATING ERROR POINTS PLAYED W L D D(%) CFS(%)
1 stockfish_10    :    0.0   11.7   255.0    500 152 142 206 41 73
2 lc0.net.61055 : -7.2   11.7   245.0    500 142 152 206 41    ---

White advantage = 60.92 +/- 11.71
Draw rate (equal opponents) = 42.30 % +/- 2.21

By Lothar Jung Date 2019-11-08 09:25

Ein aktuelles T60-Netz nimmt wohl an dem bald beginnenden CCC-Tunier teil.

By Lothar Jung Date 2019-11-09 14:17

Im CCC-Bullet nimmt T60 derzeit den dritten Platz ein.
Nur Stockfish und LC0 stehen besser.

By Stefan Pohl Date 2019-11-10 16:53 Edited 2019-11-10 17:14

Hier mal ein Test von discord, der zur Abwechslung nicht völlig Banane ist. Leela-Ratio etwa 0.85 (und nicht über 2.6, wie in dem hier eingangs geposteten Test, was natürlich viel zu viel ist, insbesondere bei dem dort gespielten Hyperbullet (Stockfish nur 500000 Knoten pro Zug(!!!)) - völlig klar, daß lc0 da sehr gut abschneidet, nur sind diese Testbedingungen eben komplett lächerlich), wenn man die angegebene Verarbeitungsgeschwindigkeit auf ein 256x20 Netz umrechnet (ca. x1.5, da die hier getesten Netze ca. 50% größer (und somit langsamer) als 256x20 sind). Und keine fixen Knoten, sondern richtige Bedenkzeit.
Tja, und schon ist es vorbei mit der schönen Illusion, daß T60 schon Richtung SF 10 oder den besten T40-Netzen linst. Von "fast gleichauf" kann also noch gar keine Rede sein - reines Wunschdenken. Hätte mich auch sehr gewundert. Das dauert eben noch. Was ja auch gar nicht schlimm ist, nur etwas mehr Geduld sollte man halt aufbringen. 100 Elo schlechter als SF10 muß man auch erst mal sein. Das ist ja schon ein sehr hohes Niveau! Nur die letzten 100 Elo sind halt die schwersten...

Time control: 1 min + 1s
Speed: SF-10: i9-9900K, 12 threads, 4GB Hash ~ 20,000,000 nps
T60,J13B: RTX 2080 ~ 13,000 nps
Book: Chad's openings-6ply-1000.pgn, sequentially, switched colors
Tablebases: 6-men syzygy
Adjudication: TB's, loss=-800 centipawns, draw=400 moves or 200 moves and value=0.00
Software: Arena
Results:

Zitat:

   # PLAYER : RATING ERROR POINTS PLAYED   (%) CFS(%) W D L D(%) OppN
   1 Stockfish_10_x64_bmi2 :    0 8   910.0 1500 60.7 62 463 894 143 59.6    3
   2 lc0.net.J13B.2-136    : -3    15   248.0    500 49.6    100   76 344   80 68.8    1
   3 lc0.net.60986 : -106    16   177.5    500 35.5 93   32 291 177 58.2    1
   4 lc0.net.61055    : -126    16   164.5    500 32.9    ---   35 259 206 51.8    1 *new*

White advantage = 38.25 +/- 5.59
Draw rate (equal opponents) = 66.68 % +/- 1.42

By Eduard Nemeth Date 2019-11-10 17:02

Ist J13b nicht ein grosses Netz, aber trainiert mit T40 Partien?

By Stefan Pohl Date 2019-11-10 17:05

Eduard Nemeth schrieb:

Ist J13b nicht ein grosses Netz, aber trainiert mit T40 Partien?

Jup.

Alle drei Netze in dem Test sind 320x24. Das muß man natürlich bei der Leela-Ratio berücksichtigen. Also LR = (Knotenzahl von lc0 mit diesen Netzen * 1.5 * 875) / Stockfish Knotenzahl

By Lothar Jung Date 2019-11-11 09:57 Edited 2019-11-11 10:00

In einem heute veröffentlichten Test von mattblachess schlägt Net61046 SF9 deutlich und das mit einem Elo-Abstand, der an SF10 heranreicht (CEGT und CCRL-Rating für SF9/10 mit 4 Kernen).
Leela-Ratio war 0,85.
Die Spielstärke der aktuellen T60-Netze schwanken stark.

Match: lc0.22.0.61046 vs Stockfish 9 4CPU - 100 rapid games
LC0-version: v22.0 cuda
LC0-options: --nncache=6000000 --max-collision-events=256 --minibatch-size=256 --cpuct=3.3 --cpuct-base=10000 --backend=multiplexing
Time control: 15min + 2s (CCRL 40/40)
Hardware: CPU i7-8700 4 cores vs 1070Ti GPU
Book: Custom short lines played from both sides ever test (!sheet4 for opening list)
Tablebase: 6 piece syzygy (DTZ + WDL) for both engines
Software: Arena
Speed: Leela ratio ~0.85; Lc0 npm~200K, SF npm~200M
Context: !sheet4 for test history
Comment: First match win over Stockfish 9
# PLAYER : RATING ERROR POINTS PLAYED   (%) CFS(%) W D L D(%)
1 lc0.22.0.61046 : 3460.5   39.2 54.0    100 54 93   21   66   13 66
2 Stockfish_9_x64_bmi2 : 3431.0   ---- 46.0    100 46    ---   13   66   21 66

lc0.22.0.61046 - Stockfish_9_x64_bmi2 : 54.0/100 21-13-66 (===0=====1====1===1===10==01========10====10=0=01=1===1==10=1=====1=1==0=0=0==1=1=0=1===1=1===10==1=) 54% -> 3461 ordo score (40/40 rating)

By Lothar Jung Date 2019-11-11 12:22

Hier sieht man die Schwankungen zwischen den T60-Netzen:

**Round Robin:** stockfish_9 vs lc0.net.61105
**LC0-version:** lc0-v0.22, cuda, Default parameters
**SF-version:** stockfish_9, Threads=4, Default parameters
**LC0 options:** Backend=cudnn-fp16
**Hardware:** RTX2060 / i5
**Software:** Cutechess-CLI
**Time control:** LC0: 1k nodes/move, sf_9: 500k nodes/move
**Book:** openings-8ply-10k.pgn, 8 plies, sequential, color reversed
**Tablebases:** Syzygy 5-men
   ``` # PLAYER    : RATING ERROR POINTS PLAYED W L D D(%) CFS(%)
*1 lc0.net.61105 : 29.4   19.6   270.5    500 178 137 185 37 62
2 lc0.net.61052 : 24.3   19.5   267.0    500 176 142 182 36 71
3 lc0.net.61083 : 14.3   20.9   260.0    500 167 147 186 37 86
4 stockfish_9 :    0.0   10.4   702.5 1500 426 521 553 37    ---

White advantage = 48.90 +/- 7.10
Draw rate (equal opponents) = 37.57 % +/- 1.24```

By Lothar Jung Date 2019-11-11 20:39

Zum 11.11. Netz 61111 holt gegen 41800 auf, noch besser als SF10:

Match: 61111 vs 41800
LC0 version: 0.22
LC0 options: cudnn-fp16, 1 thread
Time control: Fixed nodes 1kn
Hardware: RTX 2070
Book: Hert 250 book, in sequence, reversed color
Tablebases: 6-man TB
Adjudication: 6-man TB, -draw movenumber=50 movecount=5 score=8 -resign movecount=5 score=1000
Software:cutechess-cli
Comments: 61111 vs 41800: +107 -114 =279 (-5 elo): Weird that 61111 falling so hard in self elo but the best net for me!

threads=1, fixed 1k nodes per move vs 41800, hert 250 book:
   # PLAYER    : RATING ERROR POINTS PLAYED   (%) CFS(%)    W    D    L
   1 lc0.net.41800 :    0   ---- 3552.5 6500 54.7 68 1852 3401 1247
+ 2 lc0.net.61111 : -5    20   246.5    500 49.3 63   107   279   114
   3 lc0.net.61000 :    -10    19   243.0    500 48.6 73   108   270   122
   4 lc0.net.61080 :    -18    20   237.0    500 47.4 50   107   260   133
   5 lc0.net.60927 :    -18    20   237.0    500 47.4 61   105   264   131
   6 lc0.net.61045 :    -23    21   234.0    500 46.8 52   104   260   136
   7 lc0.net.61030 :    -23    20   233.5    500 46.7 52 95   277   128
   8 lc0.net.61071 :    -24    20   233.0    500 46.6 58 99   268   133
   9 lc0.net.61018 :    -27    21   231.0    500 46.2 57   101   260   139
10 lc0.net.61100 :    -30    21   229.0    500 45.8 66   103   252   145
11 lc0.net.60950 :    -36    22   224.5    500 44.9 58 96   257   147
12 lc0.net.60900 :    -39    20   222.5    500 44.5 87 90   265   145
13 lc0.net.60853 :    -56    20   211.0    500 42.2    100 82   258   160
14 lc0.net.384x30-1024 : -125    23   165.5    500 33.1    --- 50   231   219

By Lothar Jung Date 2019-11-13 07:53

Ganz nah dran:

Round Robin: stockfish_10 vs lc0.net.61123
LC0-version: lc0-v0.22, cuda, Default parameters
SF-version: stockfish_10, Threads=4, Default parameters
LC0 options: Backend=cudnn-fp16
Hardware: RTX2060 / i5
Software: Cutechess-CLI
Time control: LC0: 1k nodes/move, sf_10: 500k nodes/move
Book: openings-8ply-10k.pgn, 8 plies, sequential, color reversed
Tablebases: Syzygy 5-men

# PLAYER    : RATING ERROR POINTS PLAYED W L D D(%) CFS(%)
1 stockfish_10    :    0.0   10.5   808.5 1500 519 402 579 39 73
2 lc0.net.61055 : -7.2   19.2   245.0    500 142 152 206 41 88
3 lc0.net.61081 :   -28.0   21.2   230.5    500 131 170 199 40 88
*4 lc0.net.61123 :   -49.0   19.8   216.0    500 129 197 174 35    ---

White advantage = 51.50 +/- 7.18
Draw rate (equal opponents) = 39.57 % +/- 1.30

By Lothar Jung Date 2019-11-14 07:38

In der 2. Runde von CCC liegt Lc0 T60 gut im Mittelfeld und dürfte die 3. Runde der besten 6 Engines erreichen, d.h. es spielt als 7. Engine weiter mit.

https://www.chess.com/computer-chess-championship

Lothar

By Lothar Jung Date 2019-11-14 07:50

Auch hier macht sich T60 ganz ordentlich:

https://www.twitch.tv/edosani

Lothar

By Lothar Jung Date 2019-11-15 13:22

T60 in CCC-Tunier jetzt auf Platz 4, nur einen halben Punkt hinter SFdev.
Unglaublich!
Nicht mehr zu ignorieren.

https://www.chess.com/de/computer-chess-championship

By Lothar Jung Date 2019-11-20 08:30

T60 hat SF10 fast erreicht und das auf einer schwachen 1070ti GPU .

Match: lc0.22.0.61168 vs Stockfish 10 4CPU - 100 rapid games
LC0-version: v22.0 cuda
LC0-options: --nncache=6000000 --max-collision-events=256 --minibatch-size=256 --cpuct=3.3 --cpuct-base=10000 --backend=multiplexing
Time control: 15min + 2s (CCRL 40/40)
Hardware: CPU i7-8700 4 cores vs 1070Ti GPU
Book: Custom short lines played from both sides ever test (!sheet4 for opening list)
Tablebase: 6 piece syzygy (DTZ + WDL) for both engines
Software: Arena
Speed: Leela ratio ~0.85; Lc0 npm~200K, SF npm~200M
Context: !sheet4 for test history
Comment: Outstanding! Most wins & least losses ever against SF10.
# PLAYER    : RATING ERROR POINTS PLAYED   (%) CFS(%) W D L D(%)
1 Stockfish_10_x64_bmi2 : 3466.0   ---- 53.0    100 53 84   21   64   15 64
2 lc0.22.0.61168    : 3444.5   42.2 47.0    100 47    ---   15   64   21 64

lc0.22.0.61168 - Stockfish_10_x64_bmi2 : 47.0/100 15-21-64 (======0=1==01==0======10===0=00=1==0==1===10=======1==10==11====00000===00=0======0=1=1=0===1=10=1==) 47%   -21
-> 3445 ordo score (40/40 rating) l

By Stefan Pohl Date 2019-11-20 09:49 Upvotes 1

100 Partien. Wie prickelnd.
Aber ich habe soeben den Testrun von Lc0 0.22.0 mit Netz 61211 gestartet (war ein Peak im Selfplay-Elo Graph). In 6 Tagen sind die 3000 Partien durch. Dann sehen wir, wie groß der Frotschritt zu meinem ersten T60 Testrun (Net 60891) wirklich ist.

By Benno Hartwig Date 2019-11-20 19:52

> 100 Partien. Wie prickelnd.

Ich finde gut, wenn hier auch etwas kleinere Testläufe gemeldet werden!
Und das ganz besonders dann, wenn längere Testläufe einfach noch nirgends erfolgt sind!
BTW: Danke Lothar.

By Lothar Jung Date 2019-11-21 12:45

Vielleicht sind 200 Partien mit noch besserem Ergebnis gegen SFdev noch prickelnder:
Auf Discord:
I recently tested a 611xx vs SF dev at 4min +2sec at 200 games and 611xx finished at -10 elo.... 2080ti +2070 vs Threadripper 1950x.

By Stefan Pohl Date 2019-11-21 13:27

Lothar Jung schrieb:

Bei mir sind jetzt 590 Partien durch und momentan ist das Netz 61211 nur 0.3% besser (2-3 Elo) als das Endergebnis von Netz 60891. Sehr enttäuschend.

By Lothar Jung Date 2019-11-21 16:19

Ich glaube nicht, dass die Leela-Ratio-Funktion (SF/Leela NN) eine lineare Funktion ist, die unabhängig von der Berechnungstiefe und der Netzgröße ist.
Kleine, mittlere und größere Netze skalieren unterschiedlich.
Auch hat die Bedenkzeit unterschiedliche Auswirkungen gerade auf die Elo-Stärke.
Leela spielt unter sehr geringen TC relativ schlechter als A/B-Programme.
Gerade die großen Netze brauchen fast 2mal so viel Zeit um die gleiche Nodeanzahl der 40er Netze zu erreichen.
Wie anders lässt es sich erklären, dass NN60 bei höherer Bedenkzeit (5-12 Minuten) und besserer Hardware auf beiden Seiten deutlich besser abschneidet.
Die Tunierergebnisse des CCC11 (3. Platz hinter SFdev und stärkstem T40-Derivat)und die bisher veröffentlichten Tests auf Discord (z.B. Mattblachess) zeigen dies deutlich.

By Stefan Pohl Date 2019-11-26 13:00

Stefan Pohl schrieb:

Lothar Jung schrieb:

Bei mir sind jetzt 590 Partien durch und momentan ist das Netz 61211 nur 0.3% besser (2-3 Elo) als das Endergebnis von Netz 60891. Sehr enttäuschend.

Tja. Der Testrun ist jetzt durch. Nun sind es immerhin +24 Elo geworden (von 60891 zu 61211). Zeigt mal wieder, was für unsichere "Ergebnisse" man nach 500-600 Partien so erzielt. Über +20 Elo kamen jenseits dieser Partiemenge noch hinzu, bis der Testrun durch war.

https://www.sp-cc.de/lc0-testing.htm

By Benno Hartwig Date 2019-11-26 16:22 Upvotes 1

> Über +20 Elo kamen jenseits dieser Partiemenge noch hinzu, bis der Testrun durch war.

Und dabei muss man noch bedenken:
Wenn zufallsbedingt nach den ersten 500 Partien x% weniger Punkte gewonnen wurden, als es der tatsächlichen Stärke entspräche, dann ist direkt zu erwarten dass nach deutlich mehr Partien immer noch zu wenig Punkte da sein werden.
Nach beispielsweise 1000 Partien wäre der Erwartungswert dann immer noch (x/2)% niedriger, als es der tatsächlichen Stärke entspricht.

Einmal entstandene "Fehler" werden nach und nach relativiert, sie bleiben aber in ihrer Wirkung fehlerverursachend erhalten. Große Fehler stärker als kleine Fehler.
Einmal entstandene "Fehler" in eine Richtung bewirken ja nicht, dass das Schicksal nun im Folgenden Ergebnisse häufiger macht, die diesen Fehler ausgleichen. Den Gefallen tut die Wirklichkeit uns in der Regel nicht.

By Lothar Jung Date 2019-11-28 17:29

Tja, auf sehr starker gleicher Hardware und zwischen verschiedenen Netzen stellt sich die aktuelle Stärke „etwas“ anders dar:

T60 61288 vs fat fritz in 1+1 bullet running on hardware dual 2080TI's on both engines results posted.

https://cdn.discordapp.com/attachments/539960268982059008/649642529859305499/T60_vs_fat_fritz.PNG

Nur 6 Elo ist T60 schlechter.

By Eduard Nemeth Date 2019-11-28 17:50

Mit welchen Settings spielt Fat Fritz (ich sehe die gleiche Engine-Datei)

By Lothar Jung Date 2019-11-28 18:20

Hier sind die Settings (Discord/Test Diskuss):

fat fritz is under the lc0 engine that i have as lc0 v23 +git.65e13d8 match testing it is using the same hyper parameters as what fat fritz defaults as cpuct 3.67, cpuctfactor 2.54, fpustrategy absolute with value -1, policytemp 1.940000. Leela T60 net is using defaults on the engine.

By Eduard Nemeth Date 2019-11-28 18:55

Die neuen FF Settings (von A. Silver) sind nun diese:
(Fritz 17 ENG Datei)

Cpuct=3.560000
CpuctFactor=2.740000
PolicyTemperature=1.840000
FpuStrategy=1
FpuValue=-1.000000

By Stefan Pohl Date 2019-11-28 20:49 Edited 2019-11-28 21:07

Lothar Jung schrieb:

Tja, auf sehr starker gleicher Hardware und zwischen verschiedenen Netzen stellt sich die aktuelle Stärke „etwas“ anders dar:

T60 61288 vs fat fritz in 1+1 bullet running on hardware dual 2080TI's on both engines results posted.

<a class='ura' href='https://cdn.discordapp.com/attachments/539960268982059008/649642529859305499/T60_vs_fat_fritz.PNG'>https://cdn.discordapp.com/attachments/539960268982059008/649642529859305499/T60_vs_fat_fritz.PNG</a>

Nur 6 Elo ist T60 schlechter.

Nein. Tut es nicht. FritzGUI schreibt es ja hin (man müßte es nur auch mal lesen): der 95%-Intervall (also die übliche Errorbar) geht bis -75 Elo. Und das ist das, was ich beim Abstand der aktuellen T60 Netze zu Fat Fritz auch gemessen habe. -74 Elo. Nur eben mit einer viel, viel kleineren Errorbar. Aber auch hier gibt es noch Spielraum mit je +/-9. Auch meine Abstandsmessung zwischen T60 und Fat Fritz hat also noch +/-18 Elo Spielraum also Errorbar.
Also stellt sich das Ergebnis gar nicht anders dar, wenn man nicht eine Bedeutung hininterpretiert, die es nicht gibt. Jedes Testergebnis ist so aussagekräftig, wie seine Errorbar. Jedes. Punkt. Und dann widerspricht dieses Ergebnis hier eben nicht meinem Ranglistentest. Beide Ergebnisse müssen nicht mal ganz am Rand ihrer jeweiligen Errorbar liegen, um sich nicht zu widersprechen!
Ist doch nun wirklich keine Raketenwissenschaft, die Errorbar. Man darf sie nur nicht ignorieren, dann ist man auf dem statistischen Holzweg.
Genau wegen solcher Abweichungen sind solche Kurztests eben so unsicher. Alles eine Frage des Zufalls. Den kann man nicht austricksen. Man kann ihn nur durch mehr Partien eingrenzen. Ist das echt so schwer zu verstehen?

By Olaf Jenkner Date 2019-11-28 22:18

Nun ja, bei den Arzneimitteltests sind sie nicht so zimperlich, und trotzdem steigt die Lebenserwartung.

By Peter Martan Date 2019-11-28 22:29 Edited 2019-11-28 23:27

95% ist bei medizinischen Studien sehr wohl auch das, was man allgemein unter Power versteht, aber zum Unterschied vom Computerschach sind die Fallzahlen, die man sich leistet, meistens viel geringer, dafür versucht man wenigstens so etwas wie ein Studiendesign und Randomisierung auch einzuhalten oder wenigstens vorzutäuschen. Dass man für geringere Remishäufigkeit oder damit es mehr oder weniger Unterschied macht, welche Engines man gegen welche bei welcher Hardware- TC gegeneinander antreten lässt, einfach willkürlich Eröffnungsstellungen wählt, würde von den "Konkurrenzfirmen" oder Kliniken, die auch was veröffentlichen wollen, nicht als good scientific practice durchgehen gelassen bei medizinischen Studien, die in einem Journal veröffentlicht werden sollten von irgendeinem Impact.
Bzw. das neue Medikament müsste dann halt wenigstens entsprechend billiger sein als das alte.

"Randomness" ist als statistischer Begriff übrigens unüblich und bezeichnet im allgemeinen Sprachgebrauch hingegen genau das, was man bei Statistiken eigentlich wollen wollte, (Randomisierung), also es, sie, ihn, den Zufall als solchen, als Monster zu besiegen durch einfach möglichst große Datenmengen, egal wie wenig random (Zufall) bei deren Selektion (das Gegenteil von random) herrscht, hat Ed Schröder, glaube ich, auch irgendwie anders gemeint.

Und du sagst es, Olaf: "trotzdem" steigt die Lebenserwartung (hierzulande) und die Elo auch, wenn man die richtige Messtechnik hat und das richtige Kollektiv.

By Lothar Jung Date 2019-11-29 11:37 Edited 2019-11-29 11:41

By Stefan Pohl Date 2019-11-29 12:13

Lothar Jung schrieb:

Die Angaben der Errorbar sind positive und negative Maximalwerte.
Die Wahrscheinlichkeitswerte dazwischen unterliegen der Gaußschen Normalverteilung (Bild auf dem 10 Markschein).

<a class='ura' href='https://www.google.de/imgres?imgurl=https%3A%2F%2Fmatheguru.com%2Fimages%2Fnormalverteilung_68-95-99.png&imgrefurl=https%3A%2F%2Fmatheguru.com%2Fstochastik%2Fnormalverteilung.html&docid=bl4v0v8SQPT_aM&tbnid=oxBReUqz3xZmzM%3A&vet=10ahUKEwjiorvMnY_mAhWG_qQKHbMhB-cQMwhUKAQwBA..i&w=451&h=328&hl=de-de&client=safari&bih=1218&biw=1030&q=gau%C3%9Fsche%20normalverteilung&ved=0ahUKEwjiorvMnY_mAhWG_qQKHbMhB-cQMwhUKAQwBA&iact=mrc&uact=8'>https://www.google.de/imgres?imgurl=https%3A%2F%2Fmatheguru.com%2Fimages%2Fnormalverteilung_68-95-99.png&imgrefurl=https%3A%2F%2Fmatheguru.com%2Fstochastik%2Fnormalverteilung.html&docid=bl4v0v8SQPT_aM&tbnid=oxBReUqz3xZmzM%3A&vet=10ahUKEwjiorvMnY_mAhWG_qQKHbMhB-cQMwhUKAQwBA..i&w=451&h=328&hl=de-de&client=safari&bih=1218&biw=1030&q=gau%C3%9Fsche%20normalverteilung&ved=0ahUKEwjiorvMnY_mAhWG_qQKHbMhB-cQMwhUKAQwBA&iact=mrc&uact=8</a>

Das heißt, die +/- Maximalwerte sind möglich aber eher unwahrscheinlich.
Wahrscheinlicher sind die Werte in der „Glocke“ der Kurve.

Stimmt. Deswegen betonte ich ja, daß die Tests sich nicht widersprechen, selbst wenn die Zahlen nicht ganz am Rand der Errorbar liegen. Das ändert auch nichts daran, daß diese Tests über 100 oder 150 Partien statistisch extremst wackelig sind.

By Wolfgang Battig Date 2019-11-20 11:37

Lothar Jung schrieb:

T60 hat SF10 fast erreicht und das auf einer schwachen 1070ti GPU .
....

Nein, die 1070ti ist keineswegs "schwach", sondern für so einen Test GENAU richtig, denn sie sorgt für (halbwegs) gleiche Bedingungen zum verwendeten Intel i7. Leela-Ratio ist 0.85, also leicht CPU-freundlich. Bei uns liegt es bei 1,2 bis 1,3, also leicht Leela-freundlich. Das ist alles im Rahmen.

Gleiche bzw. in etwa gleiche Bedingungen sind für seriöse Tests mit vernünftigen Bedenkzeiten (nicht dieser Knoten pro Sekunde oder Minute Unsinn) und erst recht für Ranglisten UNABDINGBAR.

Natürlich geht mit den NNs mittlerweile mehr, aber die wenigsten können oder wollen (!) sich neben einer Top-Grafikkarte auch noch einen zig-kernigen PC leisten, der dann möglicherweise wieder "Gleichstand" bringt.

Leider wird seitens der "Leela-Jünger" offenbar konstant ignoriert, wie stark das Teil schon auf GTX-Hardware spielt (auf meiner GTX1650 mit fp16 kommt LC0 auf über 7000 Knoten/Sek.!). Ist natürlich einfacher, die Hardware der Tests, deren Ergebnisse einem nicht passen, als "Mickey Maus Hardware" o.ä zu verunglimpfen.

Ich habe bisher nur 350 Partien mit einem 60er-Netz spielen lassen können (60864). Allerdings gegen sieben unterschiedliche Gegner, nicht immer nur Stockfish (langweilig für mich). http://www.cegt.net/40_4_Ratinglist/40_4_AllVersion/83.html. Da fehlt bei aller gebotenen Vorsicht und trotz sehr freundlicher Bedingungen noch eine ganze Menge, selbst wenn die aktuellen Netze wieder zugelegt haben. 120 Punkte haben sie ganz sicher nicht draufgepackt.

By Stefan Pohl Date 2019-11-20 14:12

Wolfgang Battig schrieb:

Ich habe bisher nur 350 Partien mit einem 60er-Netz spielen lassen können (60864). Allerdings gegen sieben unterschiedliche Gegner, nicht immer nur Stockfish (langweilig für mich). <a class='urs' href='http://www.cegt.net/40_4_Ratinglist/40_4_AllVersion/83.html'>http://www.cegt.net/40_4_Ratinglist/40_4_AllVersion/83.html</a>. Da fehlt bei aller gebotenen Vorsicht und trotz sehr freundlicher Bedingungen noch eine ganze Menge, selbst wenn die aktuellen Netze wieder zugelegt haben. 120 Punkte haben sie ganz sicher nicht draufgepackt.

Naja, wie gesagt, mein Testrun mit Nwtz 61211 läuft seit kurzem. Doll war der Start schon mal nicht. Aber ich lasse den Testrun auf jeden Fall durchlaufen und werde auch in Zukunft mindestens alle paar Wochen eine T60-Netz durchtesten, um den weiteren Fortschritt, so es ihn denn hoffentlich gibt, zu dokumentieren.
Zunächst müßte T60 erst mal das Netz Lc0 0.22.0 J13B.2-200 einholen, welches auch so groß ist (320x24). Das liegt ja bei mir knapp 40 Elo hinter den besten T40 Netzen. Dahin zu kommen, wird schon schwer genug. Ob ein so großes Netz überhaupt noch weiter kommen kann, muß man abwarten. Aber J.Horthos wird ja auch 256x20 Netze aus den T60 Daten generieren, er hat damit ja auch schon angefangen. Aber noch sind die T60 Daten an sich einfach noch zu schwach. Wir stehen jetzt bei ca. 26 Mio Lernpartien. 40 Mio müssen es schon werden. Waren es zumindest bei T40. Bei den größeren Netzen könnten auch deutlich mehr Partien nötig sein. Schwer zu sagen.

By Lothar Jung Date 2019-11-29 16:33

Interessanter Thread zur weiteren Entwicklung der T60-Netze:

https://groups.google.com/forum/#!topic/lczero/1G5Yx0S3jUc

By Stefan Pohl Date 2019-11-30 13:30 Edited 2019-11-30 13:42

Lothar Jung schrieb:

Oder auch nicht (ganz nah dran)... sobald mit einer Zeitkontrolle gespielt wird, statt dieser idiotischen fix-node Einstellung, sieht die Wirklichkeit gleich ganz anders aus.
Doppelt so viel Bedenkzeit, wie bei mir. Dazu circa doppelt so schnelle Hardware (mindestens), wie bei mir. Also ca. 4.5x mehr Knoten pro gespieltem Zug auf dem Brett.
Und man sieht das, was zu erwarten war: Leicht zusammengeschobene Ergebnisse Richtung 50%-50% (wegen der steigenden Remisqouten) (im Vergleich zu meinen Tests), also etwas geringere Abstände, aber grundlegend nichts anderes. Von ganz nah dran an Stockfish 10 kann bei den T60 Netzen nachwievor überhaupt keine Rede sein. Nimmt man den Durchschnitt der 5 Testläufe (alle mit Netz 61233, zusammen immerhin 1000 Partien, also kein ganz alberner Testrun), dann ca. -90 Elo zu SF 10. Bei mir: ca. -125 zu Stockfish-Dev vom Juni, welche ca. +22 Elo besser als SF 10 ist. Umgerechnet auf SF 10 also bei mir ca. -100 Elo Abstand zum halbwegs aktuellen T60 Netz (61211). Paßt!
Vernünftiges Testen ist halt gar nicht so schwer (vernünftige Leela-Ratio (hier ca. 0.92), wenigstens 1000 Partien, eine richtige Zeitkotrolle). Und dann kommen (quelle surprise) auch immer wieder gut reproduzierbare Ergebniss dabei heraus. Leider ist gerade discord mit Testruns zugemüllt, die auf lächerlichen Bedingungen basieren, wo dann (logischerweise) absurde Ergebnisse herauskommen. Aber ab und zu gibt es mal seriöse Ausnahmen. Wie eben diese hier.

Gauntlet v0.23.0-rc1 (61233) regression test against SF-10 with TC
LC0-version: v0.22.0, v0.23.0-rc1
LC0 options:
v0.22.0: --backend=cudnn-fp16 --syzygy-paths=E:\syzygy --threads=2 --nncache=20000000
v0.23.0-rc1: --backend=cudnn-fp16 --syzygy-paths=E:\syzygy --threads=2 --nncache=20000000
v0.23.0-rc1-log: --backend=cudnn-fp16 --syzygy-paths=E:\syzygy --threads=2 --nncache=20000000 --logit-q
v0.23.0-rc1-short: --backend=cudnn-fp16 --syzygy-paths=E:\syzygy --threads=2 --nncache=20000000 --short-sightedness=0.02
v0.23.0-rc1-log+short: --backend=cudnn-fp16 --syzygy-paths=E:\syzygy --threads=2 --nncache=20000000 --logit-q --short-sightedness=0.02
Time control: 1 min + 1s
Speed:
SF-10: i9-9900K, 12 threads, 4GB Hash ~ 20,000,000 nps
v0.22.0: RTX 2070S ~ 14,100 nps
v0.23.0-rc1: RTX 2070S ~ 14,100 nps
v0.23.0-rc1-log: RTX 2070S ~ 14,100 nps
v0.23.0-rc1-short: RTX 2070S ~ 14,200 nps
v0.23.0-rc1-log+short: RTX 2070S ~ 14,200 nps
Book: Chad's openings-6ply-1000.pgn, sequentially, switched colors
Tablebases: 6-men syzygy
Adjudication: TB's, loss=-800 centipawns, draw=400 moves or 200 moves and value=0.00
Software: Arena
Results:

Code:


   # PLAYER                                :  RATING  ERROR  POINTS  PLAYED   (%)  CFS(%)    W    D    L  D(%)  OppN
   1 Stockfish_10_x64_bmi2                 :       0     11   625.0    1000  62.5     100  329  592   79  59.2     5
   2 lc0.net.61233-0.23.0-rc1-log+short    :     -79     27    78.0     200  39.0      60   14  128   58  64.0     1
   3 lc0.net.61233-0.22.0                  :     -85     27    76.5     200  38.3      50   11  131   58  65.5     1
   4 lc0.net.61233-0.23.0-rc1-log          :     -85     27    76.5     200  38.3      73   18  117   65  58.5     1
   5 lc0.net.61233-0.23.0-rc1              :     -98     27    73.0     200  36.5      64   18  110   72  55.0     1
   6 lc0.net.61233-0.23.0-rc1-short        :    -106     28    71.0     200  35.5     ---   18  106   76  53.0     1

White advantage = 39.86 +/- 6.90
Draw rate (equal opponents) = 65.91 % +/- 1.72

By Rainer Maikowski Date 2019-11-30 14:09

was bedeutet log+short und wie stellt man es ein? (shortSightness??)
R.Maikowski

By Lothar Jung Date 2019-11-30 15:18 Edited 2019-11-30 15:41

Erstmal vorweg:
Deine Rangliste ist aller erste Sahne; umfassend, aktuell und transparent.
Keine Kritik also, nur sachliche Diskussion, über die Anwendung von Leela Ratio, Hardware und Bedenkzeit insbes. bei großen Netzen, wie T60.
Ich nehme hier mal ein aktuelles Beilspiel:

**Match:** lc0.22.0.61270 vs Stockfish 10 4CPU - 100 rapid games
**LC0-version:** v22.0 cuda
**LC0-options:** --nncache=6000000 --max-collision-events=256 --minibatch-size=256 --cpuct=3.3 --cpuct-base=10000 --backend=multiplexing
**Time control:** 15min + 2s (CCRL 40/40)
**Hardware:** CPU i7-8700 4 cores vs 1070Ti GPU
**Book:** Custom short lines played from both sides ever test (!sheet4 for opening list)
**Tablebase:** 6 piece syzygy (DTZ + WDL) for both engines
**Software:** Arena
**Speed:** Leela ratio ~0.85; Lc0 npm~200K, SF npm~200M
**Context:** !sheet4 for test history
```# PLAYER    : RATING ERROR POINTS PLAYED   (%) CFS(%) W D L D(%)
1 Stockfish_10_x64_bmi2 : 3466.0   ---- 54.0    100 54 96   16   76 8 76
2 lc0.22.0.61270    : 3437.5   32.7 46.0    100 46    --- 8   76   16 76```
```lc0.22.0.61270 - Stockfish_10_x64_bmi2 : 46.0/100 8-16-76 (====0===1=0==0001======0=0========10=================1===1=0=====0=010===0======0===1===1======0=0==) 46% -> 3438 ordo score (40/40 rating)```

Elo-Unterschied: 29 Punkte.
100 Partien, 32,7 Errorbar.
Bedenkzeit: 15 min./2 sec.

GPU-Hardware: GTX 1070ti/RTX 2060 mobil, runtergetaktet: ~ 4 mal schneller
CPU-Hardware: Intel 4 Core/Intel 6 Core: ~ 1,5 mal schneller

Leela Ratios: 0,85/1.3: über 1 GPU ist stärker, unter 1 CPU ist stärker.

Meine These: Eine längere Bedenkzeit wirkt sich bei ähnlicher Leela-Ratio relativ spielstärkesteigernd auf ein T60-Netz aus. In dem o.a. Test war die CPU relativ stärker, also SF10 etwas im Vorteil.

By Stefan Pohl Date 2019-11-30 16:10 Edited 2019-11-30 16:20

Lothar Jung schrieb:

Diese These möchte ich bezweifeln. Wie ich schon zigmal ausgeführt habe, ist es immer so, daß alle Head-To-Head Ergebnisse zwischen Engines mit mehr Bedenkzeit oder besserer Hardware näher an die 50%-50% herangedrückt werden, da die Remisqoute stark steigt. Deswegen sieht es so aus, als ob die schwächeren Engines scheinbar besser werden, die stärkeren schlechter. Nur ändert sich eben am Ranking nichts (schwächere Engine bleibt schwächer, stärkere stärker). Daher hat man in richtigen Ranglistentests dann nur den Effekt, daß die Abstände zwischen den gelisteten Engines und ihren Rankings tendenziell kleiner werden, wenn mehr Zeit (oder mehr Hardwarepower) zur Verfügung steht. Aber mehr passiert halt nicht. Sehr schön zu sehen, bei Andreas Strangmüller und seinen 3 Ranglisten:
http://www.fastgm.de/#
(Diesen Effekt diskutiere ich leider schon seit Brettcomputerzeiten). Aber irgendwie kommt das bei den Leuten nicht an.

Ich würde auch gerne mit mehr Bedenkzeit testen. Aber Priorität muß eine ausreichend große Zahl von Partien haben. Gerade, weil die NeuralNetze sich oft nicht sehr stark in der Spielstärke unterscheiden.
Und mit 50“+500ms brauche ich für einen 3000 Partien-Testrun schon gut 6 Tage. Mehr ist einfach nicht vertretbar, sonst käme ich auch gar nicht hinterher bei den vielen, neuen Netzen.

By Lothar Jung Date 2019-12-11 06:30

Der Abstand zu SF10 schmilzt langsam:

**Match:** lc0.22.0.61372 vs Stockfish 10 4CPU - 100 rapid games
**LC0-version:** v22.0 cuda
**LC0-options:** --nncache=6000000 --max-collision-events=256 --minibatch-size=256 --cpuct=3.3 --cpuct-base=10000 --backend=multiplexing
**Time control:** 15min + 2s (CCRL 40/40)
**Hardware:** CPU i7-8700 4 cores vs 1070Ti GPU
**Book:** Custom short lines played from both sides ever test (!sheet4 for opening list)
**Tablebase:** 6 piece syzygy (DTZ + WDL) for both engines
**Software:** Arena
**Speed:** Leela ratio ~0.85; Lc0 npm~200K, SF npm~200M (based on 24x256 nets, T60 is slower)
**Context:** !sheet4 for test history
```# PLAYER    : RATING ERROR POINTS PLAYED   (%) CFS(%) W D L D(%)
1 Stockfish_10_x64_bmi2 : 3466.0   ---- 53.5    100 54 91   18   71   11 71
2 lc0.22.0.61372    : 3441.0   36.5 46.5    100 47    ---   11   71   18 71```
```lc0.22.0.61372 - Stockfish_10_x64_bmi2 : 46.5/100 11-18-71 (1====11=10==1==0==00===0==0=0===1===00==1=1=1====0==00=====0=====0=01=0==00=========1===============) 47%   -> 3441 ordo score (40/40 rating)```

By Walter Knobloch Date 2019-11-29 09:29

Hallo Lothar,

ich finde auch aus Sicht von CPU-usern sehr interessant wie sich T58 entwickelt.
Ich vermute, daß das neueste T58 Netz auf Deiner gedrosselten RTX 2060 beinahe mit z.B. 42850 mithalten kann. Vielleicht 20-30 elo drunter.
Dein Setup scheint mir ideal für so einen Test, weil Deine GPU nicht zu schnell für das 10b Netz ist.
Darf ich einen Mini-Test über nur 20 Partien mit TC 1+1 vorschlagen? Nur für einen ersten Eindruck?

By Lothar Jung Date 2019-11-29 09:34 Edited 2019-11-29 09:38

Hallo Walter,
ich habe keine gedrosselte RTX 2060, die hat Stefan Pohl.
Aber ich finde die T58-Netze auch sehr interessant. Sie könnten vielleicht bald LD2 überholen.
Aktuell scheint ein Test auf Discord darauf hinzuweisen:

**Match**: T58: 412 => 416 vs LD2 in 1kn/move
**LC0 version:** 0.22
**LC0 options:** cudnn-fp16, *1 thread, cpuct=2.08, fpu-value=0.47, policy-softmax-temp=1.92*
**Time control:** 1 kn/move
**Hardware:** RTX 2070
**Book:** SuperGM_4mvs_500 book, in sequence, reversed color
**Tablebases:** 6-man TB
**Adjudication**: 6-man TB, -draw movenumber=50 movecount=5 score=8 -resign movecount=5 score=1000
**Software:**cutechess-cli
**Comments:** 58412 has the highest score in test vs LD2 (+5 elo). T58 is still around LD2 level here. The parameters are optimized for LD2 in low nodes, so T58 can be much stronger in its own optimized parameters.

```diff
1 thread, 1Kn/move, custom params vs LD2:

   # PLAYER    : RATING ERROR POINTS PLAYED   (%) CFS(%)    W    D    L
+ 1 lc0.net.58412 :    5    15   507.0 1000 50.7 64   244   526   230
   2 lc0.net.58407 :    1    15   501.5 1000 50.1 56   241   521   238
- 3 lc0.net.LD2 :    0   ---- 8827.0   17000 51.9 63 4540 8574 3886
+ 4 lc0.net.58413 : -2    15   496.5 1000 49.6 53   251   491   258
   5 lc0.net.58409 : -3    14   495.5 1000 49.5 50   225   541   234
   6 lc0.net.58408 : -3    15   495.5 1000 49.5 64   238   515   247
```

By Eduard Nemeth Date 2019-11-29 10:09

Bislang wurde das Training von 128x10 Netzen mittendrin abgebrochen. Läuft es diesmal anders?

By Walter Knobloch Date 2019-11-29 10:15

Eduard, magst Du mit Deiner GTX 1050 einen Quicktest machen?
42850 gegen 58427 bei TC 1+1.

By Eduard Nemeth Date 2019-11-29 10:36 Edited 2019-11-29 10:39

Kann ich gerne machen.
Welche Eröffnungen?
Wäre ein Test gegen Ld2 nicht sinnvoller?

Ach so ich sehe gerade Ld2 wird besiegt. Ok, dann gegen das andere.

By Walter Knobloch Date 2019-11-29 10:56

eröffnungen liegen bei dir. irgendwas sinnvolles halt.
müssen wg. mir nicht mehr als 10-20 partien sein.
danke!

By Eduard Nemeth Date 2019-11-29 11:07

Habe gestartet, 1m+2s mit den Vorgaben Hert500 von Stefan Pohl. Als Engine dient noch die ältere v0.22 Version. Erste Partie Remis.

By Eduard Nemeth Date 2019-11-29 11:36

42850 hat soeben in zwei Partien nacheinander in ein gewonnenes Turmendspiel abgewickelt. Obwohl langsamer, ist das Endspielverständnis bei 42850 besser. Das T58 tut sich da leider schwerer, hat jetzt aber sein Endspiel trotzdem gewonnen. Dafür mussten allerdings Dame, Turm, und sonstwas geopfert werden, bis endlich nur noch eine Dame auf dem Brett stand. Es war schrecklich anzusehen. Das alte Lied halt.

By Eduard Nemeth Date 2019-11-29 13:06

Quicktest auf 1050 Ti, 1m+2s:

58427 vs 42850 nach 20 Partien
+2 =12 -6 aus Sicht von 58427.

By Lothar Jung Date 2019-11-29 13:09

Das sieht doch gut aus, für T58.

By Stefan Pohl Date 2019-11-29 13:15 Edited 2019-11-29 13:19

Eduard Nemeth schrieb:

Quicktest auf 1050 Ti, 1m+2s:

58427 vs 42850 nach 20 Partien
+2 =12 -6 aus Sicht von 58427.

Sobald die 58xxx Netze fertig gelernt haben, was nicht mehr in allzu ferner Zukunft liegen sollte, mache ich da mal einen Testrun. T.Plaschke hält mich auf dem Laufenden.
Die kleinen 128x10 Netze sind für Smartphones und auch auf dem PC für langsame GPUs interessant. LD2 (auch 128x10) hab ich ja schon getestet. Dann wird es interessant zu sehen, ob die 58xxx-Netze vorbeiziehen können, oder nicht.