FGRL - 60 Sek. + 0.6 Sek. - 16 Kern Rangliste mit NN-Engines

By Peter Weise Date 2019-12-06 18:57

Danke für diese Liste und den großen Einsatz. Und vor allem für das LC0-Ratio von ungefähr 1.0!

Wie man leicht erkennen kann kommt LC0 sehr wohl mit Bullet zurecht und überflügelt dabei sogar 16-Core-A/B-Engines! Und selbst ohne fp-16 ist nur noch Stockfish 10 mit 16 Cores vor LC0 auf RTX-2070, also von wegen taktische Schwächen im Bullet- oder Blitzschach.

By Eduard Nemeth Date 2019-12-06 19:17

Interessant wäre jetzt noch zu sehen, wie ein 128x10 Netz sowie Fat Fritz abschneiden.

By Guenter Stertenbrink Date 2019-12-07 02:05 Upvotes 1

bitte teste auch noch > ein paar hundert Partien bei doppelter und halber
Bedenktzeit. Nur um zu sehen, ob sich bei Lc0 da was aendert,
ob - und wie stark- die Elo von der Bedenkzeit abhaengt, so wie im A0-paper
oder bei Lc0 auf CPU hier

By Peter Martan Date 2019-12-07 09:05 Edited 2019-12-07 09:56 Upvotes 2

Guenter Stertenbrink schrieb:

ob - und wie stark- die Elo von der Bedenkzeit abhaengt,

Du zweifelst aber nicht wirklich, dass sie davon abhängt, nein?
Und wie sehr, wird natürlich erst recht von der Hardware abhängen, auch wenn Manche immer noch meinen, alle Engines rechnen auf jeder Hardware gleich, nur das Tempo sei verschieden, ja, irgendwie schon, aber was das verschiedene Tempo auf verschiedener Hardware qualitativ und quantitativ im Vergleich zwischen den Engines und sogar auch im Vergleich ein und derselben Engine im Spiel gegen sich selbst, bewirkt, das sollte doch eigentlich die einzig relevante Frage sein, vorausgesetzt, man will sich ihr widmen.

Nicht ob sie eine Rolle spielt, sonst würden wir ja wirklich keiner Ratios und dergl. brauchen, sondern könnten, wie's Michael Scheidl vor einer Weile vorschlug, drauflos spielen lassen, Horst Sikorsky hat's auch gut formuliert: nehmen was man hat.

Nachdem wir jetzt in verschiedenen Threads herausgefunden haben, dass die Knotenzahlen zum direkten Vergleich höchstens innerhalb einer eigenen A-B-Liste herangezogen werden könnten, (dass wir das nicht längst schon so gemacht haben, wird aber auch seinen Grund haben, den wollen jetzt nur Einige auch nicht mehr wahrnehmen, -bzw. -haben) werden wir uns halt hart tun, wenn wir als Vergleichsbasis zwischen NN- Engines und A-B-Engines die Knotenzahlen allein nehmen, auch wenn wir sie dann weiter fälschlich Leela- Ratio nennen.
Nämlich diese Bezeichnung in einem irreführenden Sinn verwenden, nicht erkennen wollend, dass sie (die Ratio) nur mit den Knotenzahlen von LC0 einer bestimmten Version auf einem bestimmten Netz und denen einer bestimmten SF- Version jeweils auf einer ganz bestimmten Hardware und Brettstellung al Konstante verwendet werden kann.
Andere Engines, andere Ratio. Andere Netze, andere Ratio. Andere Eröffnungen, andere Ratio. Andere Hardware- Paare als ein bestimmtes einzelnes, andere Ratio.
Mag sein, einige dieser Rations liegen nahe beisammen, wieder ist aber dann die einzig relevante Frage: wie nahe?

Dass die für eine bestimmte Paarung geltende Leela- Ratio, wenn sie auf Knotenzahlen basiert, die bei NN etwas ganz anderes bedeuten als bei A-B, nicht direkt 1:1 übertragbar ist für den Hardware Vergleich zwischen mehr als einem bestimmten Hardware- Paar und einer einzelnen Engine, höchstens noch zwischen verschiedenen Netzen von LC0 allein, geschweige denn für den Vergleich zwischen NN und A-B, wenn's mehr als eine solche und eine solche Engine der beiden Arten ist, und wenn auch noch die Hardware differiert, sollte mittlerweile eigentlich Allen, die sich ein bisschen damit beschäftigt haben, klar sein.

Passt man die Leela- Ratio für jedes neue Match den Bedingungen an, kann man die Knotenzahlen als Basis nehmen, die von LC0 zu LC0 von gleicher Engine und gleichem Netz (wozu dann allerdings der davon völlig abgehobene Vergleich mit dem, was A0 da geboten hat? Er sie es hat's ja nicht gegen LC0 geboten, sondern gegen SF8 bei krass exotischen allgemeinen Matchbedinungen) die von SF zu SF, von Allie zu Allie, von Scorpio zu Scorpio, von komodo zu komodo oder von Wasp zu Wasp.
Oder den Stromverbrauch, oder den Preis der Hardware oder das Alter des Testers vor und nach dem Test.

Es handelt sich dann einfach um eine rein Match- bezogene Variable, man könnte sie auch in Gramm angeben, was einem wieviel wiegt dabei.
Das alles gilt völlig gleichermaßen, ob man sich auf eine Knoten- basierte Variable einigt oder z.B. den Stromverbrauch, es handelt sich in beiden Fällen um eine willkürlich getroffene Auswahl, eine Übereinkunft.

Oder man nimmt einmal die Ratio und einmal eine (vielleicht auch nur ein bisschen) andere. Man würde dann die Ergebnisse, die man mit dieser völlig frei (oder gar nicht) definierten Variablen erhält, einfach nicht mit denen vergleichen dürfen, die man mit ganz anderen Voraussetzungen (Variablen) erreicht hat.

Ist aber übrigens schon auch legitime und im Einzelfass sinnvolle Alternative, ich habe ganz andere Fragen an einen Test, als der "Goldstandard" beantworten kann, werde ich vernünftiger Weise ganz andere Tests machen. Wenn ich sie veröffentlichen will (ich beschäftige mich z.B. immer wieder ganz gern mit Engine- Outputs im direkten Vergleich zu anderem Engine- Output, anhand von für mich interessanten Stellungen, schreibe dazu, was für Hardware- Bedingungen und gut) mach' ich das, wenn's keinen interessiert, braucht's keiner lesen, weiß ich schon im Vorhinein, interessiert eh keine S...eele, schreib' ich's erst gar nicht, doch, das gibt's auch.

Ich wiederhole es nicht für Diejenigen noch einmal, die sich hartnäckig weigern, derlei grundlegende Erkenntnisse einzusehen (was schert die Wahrheit, ob sie jemand zugibt? Wirklichkeiten sind etwas anderes, Wahrheit gibt's nur eine, ob man sie erkennt, oder nicht, ist immer eine ganz andere Frage), sondern nur, weil's hier jetzt wieder um eine neue List geht, die, um es schon auch eigens zu sagen, mir ganz besonders gut gefällt, in der Art der Erstellung, der Durchführung und der Schlüssigkeit der Ergebnisse.
Danke dafür!

Was ich nur noch einmal in Erinnerung rufen möchte: solche Ergebnisse stehen und sprechen für sich, wozu soll man sie als Ersatz oder Konkurrenz zu anderen sehen?
Wenn alle Listen dieselbe Aussage hätten, müsste man ja nicht noch und noch weitere erstellen unter anderen oder den gleichen Bedingungen.
Man wird vielleicht auch als Tester endlich ein bisschen damit leben können, dass Elo nicht Elo sind, spätestens seit ein paar Engines gut genug sind, bei halbwegs moderner Hardware- TC und halbwegs ausgeglichenen grundstellungsnahen Eröffnungen die Remisbreite gegeneinander im Match kaum noch zu überschreiten.

Der Irrtum, dem Viele im Computerschach vielleicht immer noch unterliegen, könnte einfach sein zu erwarten, Schach müsste völlig durchgerechnet sein, bis endlich nur mehr Remis zwischen Engines gespielt würde.
Das Durchrechnen (oder Abspeichern der 32Steiner) mag immer noch in unendlicher Ferne sein, dass die Remisbreite groß genug ist, dass Software- Hardwarekombis, die so gut (gegeneinander) spielen wie heute, eine so weit überwiegende Zahl von Remispartien mit den verschiedensten Eröffnungen spielen, die sie am Anfang schon als ziemlich ausgeglichen bewerten, das macht das Nachweisen von weiteren Entwicklungsfortschritten praktisch so mehr und mehr schwierig, dass man mit Parametern wie Hardware- Ratios und Eröffnungen halt mehr und mehr Ungleichgewichte künstlich schaffen muss, um überhaupt noch statistisch signifikante Unterschiede nachzuweisen.

Entweder man fängt an, auch Mittelspielstellungen zu testen (von mir aus auszuspielen, sonst glaubt ja eh keiner an irgendwelche anderen Ergebnisse) und Endspielstellungen zusätzlich zu den Eröffnungsstellungen (was hat es für einen Sinn, FRC- Ergebnisse zum Vergleich heranzuziehen, oder Eröffnungen mit deutlichem Vorteil einer Seite? Da kann man gleich die danach entstehenden Mittel- und Endspiele nehmen und erspart sich viel Rechenzeit), oder man findet sich damit ab, dass die Elo, die erspielt werden, erstens weniger und weniger übertragbar auf andere Matchbedingungen sind, (stellungsabhängig waren alle Messwerte sowieso immer, sie werden's halt einfach mehr und mehr und mittlerweile natürlich auch mehr und mehr davon, welche Engines auf welcher Hardware verglichen werden) so sehr einander die auch gleichen, wenn sie irgendwie differieren, sind die Elo vielleicht trotzdem dieselben, es ist dann aber reiner, unüberprüfbarer Zufall. "Innerhalb der Errorbar" gewinnt eine immer weiter reichende Vieldeutigkeit in dem Zusammenhang.

Haupterror: Strom kommt aus der Steckdose und kostet eh fast nix. Und Hardware wird eh auch immer billiger, Rohstoffe dafür gibt's unendlich, die menschliche Arbeitszeit ist dann eh auch nix mehr wert, wenn's die Maschine besser kann, also delegieren wir lieber gleich alles an Maschinen, was uns zu viel Arbeit um zu wenig Geld ist.

Und zweitens muss man damit leben, dass es nur mehr mit immer weniger ausgeglichenen Ausgangsstellungen und oder weniger und weniger grundstellungsnahen Eröffnungsstellungen überhaupt noch statistisch signifikante Unterschiede geben wird, drum würde ich das mit den Mittelspiel- und Endspiel- Matches halt auch mehr und mehr empfehlen. Sch...aut man auf die Elo oder auch nicht, nennt sie anders für andere Tests, sch...on-egal (eventuell, hin und wieder, ein bisschen) wenn man's nicht zum Lebensinhalt macht.

Schöne Weihnachten auch schon gleich mal an Alle, für mich sollte die stille Zeit spätestens jetzt auch hier wieder mal anfagen.
Und bitte gleich auch wieder vorbeugend Alle um Entschuldigung, die ich vielleicht schon wieder mal beleidigt oder gelangweilt habe. Beides war nicht die Absicht.

By Horst Sikorsky Date 2019-12-07 12:23 Edited 2019-12-07 12:26

Frage! ist ein Engine-Vergleich LcO 23.0 (T40B4... 160000) mit GTX 1070 gegen Stockfish 211119 64 POPCNT Ryzen 1800 2 CPU 3,6 GHz (bei ungefähr 2800 bis 4200 KN/s)
BZ= 1min+1s pondern an, so in etwa gerecht? ... nehme die IM 4mvs PGN.
schönes Wochenende,
Horst

By Peter Martan Date 2019-12-07 12:39

Um nicht gleich wieder meine jüngste Schreibpause hier nennenswert zu unterbrechen, Horst, antworte ich dir lieber per Mail.

Aber dir auch ein schönes Wochenende noch!

By Lothar Jung Date 2019-12-07 12:48 Edited 2019-12-07 13:31

Ich würde sagen, berechne doch die Leela Ratio.
Entschuldigung, ein Scherz.
Probier es doch nacheinander mit 2,3,4 CPU-Cores für SF in kleinen Tunieren aus.
Das wirst Du feststellen, wie die Ergebnisse von SF sich entwickeln bzw. skalieren.
Leela spielt ohne Eröffnungsvorgaben besser, SF mit TBs.

Grüße Lothar

By Horst Sikorsky Date 2019-12-08 10:50

Lothar Jung schrieb:

wer ist den überhaupt bei gerechten Bedingungen Besser? mein Turnier ist wegen Datenbankfehler nichts geworden.
ich mache jetzt 50 Partien 10m+3s, 25 Eröffnungen unterschiedlicher Länge. ich Tippe LCO ist Favorit. Stockfish bekommt 4 CPU.
Grüße Horst

By Lothar Jung Date 2019-12-08 10:56 Edited 2019-12-08 11:00

Hallo Horst,
hört sich gut an, besonders die TC.
Welches Netz nimmst Du bestes T40 oder aktuelles T60?
Falls SF bei 4 Kernen dominiert, gehe auf 3 Kerne runter.

Hier ein guter Test unter ähnlichen Bedingungen (4 Kerne, 15 min, GTX 1070 ti):

**Match:** lc0.22.0.61312 vs Stockfish 10 4CPU - 100 rapid games
**LC0-version:** v22.0 cuda
**LC0-options:** --nncache=6000000 --max-collision-events=256 --minibatch-size=256 --cpuct=3.3 --cpuct-base=10000 --backend=multiplexing
**Time control:** 15min + 2s (CCRL 40/40)
**Hardware:** CPU i7-8700 4 cores vs 1070Ti GPU
**Book:** Custom short lines played from both sides ever test (!sheet4 for opening list)
**Tablebase:** 6 piece syzygy (DTZ + WDL) for both engines
**Software:** Arena
**Speed:** Leela ratio ~0.85; Lc0 npm~200K, SF npm~200M (based on 24x256 nets, T60 is slower)
**Context:** !sheet4 for test history
```# PLAYER    : RATING ERROR POINTS PLAYED   (%) CFS(%) W D L D(%)
1 Stockfish_10_x64_bmi2 : 3466.0   ---- 56.0    100 56 98   23   66   11 66
2 lc0.22.0.61312    : 3423.3   40.6 44.0    100 44    ---   11   66   23 66```
```lc0.22.0.61312 - Stockfish_10_x64_bmi2 : 44.0/100 11-23-66 (===00===101==10000==1=0==0====00======11====1===0==0======1=0====10===10=010=0=0=======0=======00===) 44% -> 3423 ordo score (40/40 rating)```

Schönen Sonntag

Lothar

By Horst Sikorsky Date 2019-12-08 11:59

Lothar Jung schrieb:

Hallo Horst,
hört sich gut an, besonders die TC.
Welches Netz nimmst Du bestes T40 oder aktuelles T60?
Falls SF bei 4 Kernen dominiert, gehe auf 3 Kerne runter.

Schönen Sonntag

Lothar

T40B4... 160000 Grüße Horst

By Horst Sikorsky Date 2019-12-09 11:30

Horst Sikorsky schrieb:

nach guten LCO Start, +11 -5 =33 für Stockfish. ich habe den besten Stockfish genommen den ich kenne.
6er Syzygy Probe 12 Contempt 25.

By Wolfgang Battig Date 2019-12-07 12:54 Edited 2019-12-07 12:57

Vorab: Bedenkzeit, Ponder und Eröffnungsvorgaben sind für deine Fragestellung egal, gilt ja für beide Seiten...

Das dürfte aber "ungefähr" passen.
Ich habe eine ähnliche Kombi im Einsatz.

GTX1650 <=> Ryzen 5 2600 @ 3,4GHZ (6 Kerne / 12 Threads)
Die 1650 ist für LC0 schneller als die 1070, weil sie "fp16" unterstützt. Die CPUs dürften sich nicht viel tun, ggfs. ist der 1800 minimal schneller?!

Für ein halbwegs (!) ausgeglichenes Ratio benötige ich zwei bis drei Cores des Ryzen. Hört sich jetzt vielleicht komisch an, ist aber so. Bei 2 Cores ist die GPU leicht im Vorteil, bei 3 dementsprechend die CPU. Genaue Ratios habe ich jetzt nicht parat, aber es dürfte je nach Core-Anzahl zwischen 0,7 und 1,3 bewegen, was aus meiner Sicht im Rahmen des Akzeptablen ist. Ich nehme meist zwei Cores und gebe LC0 weniger Bedenkzeit. Das kann man unter Arena sehr schön einstellen. Umgekehrt geht es natürlich auch.

Da deine Grafikkarte für NN-Schach langsamer ist als die 1650 hier bei mir, sollten 2 Cores für Stockfish einen durchaus fairen Vergleich ergeben.

By Stefan Pohl Date 2019-12-07 13:11

Guenter Stertenbrink schrieb:

Ist doch nicht nötig, da kann man sich doch meine Rangliste anschauen. Meine Hardware dürfte nur um die 40% der Leistung haben, die Andreas jetzt verwendet. Und ansonsten sind die Bedingungen fast gleich. Sogar die gleichen Eröffnungsvorgaben. Das ist doch das Tolle.

By Stefan Pohl Date 2019-12-07 12:55 Edited 2019-12-07 13:08

Bin begeistert !!!
Du bist und bleibst der beste Tester. Top!
Ich bin sehr gespannt, wie die größeren Netze (T60, Horthos Terminator und auch die riesigen S.Vieri Netze) bei dir abschneiden werden. Auch der Vergleich zu meiner Rangliste, die mit vergleichbarer Bedenkzeit aber deutlich langsamerer Hardware ausgespielt wird (und sogar mit den gleichen Eröffnungsvorgaben!), dürfte sehr erhellend sein.
So, wie es jetzt schon aussieht, scheint es doch so zu sein, daß lc0 mit mehr Hardwarepower (oder mehr Bedenkzeit,das ist ja dasselbe) wohl doch überproportional zulegt, wenn gegen AB-Engines gespielt wird, wenn ich das mit den Ergebnissen bei mir vergleiche. Sehr interessant. Es ist wohl doch so, daß für NN-engines andere Gesetze gelten, als für AB-engines immer gegolten haben.
Schon dafür hat sich dein "Neueinstieg" ins NN-testen gelohnt!

PS: "Der Unterschied zwischen cudnn und cudnn-fp16 liegt bei dieser Bedenkzeit bei etwa 90-100 Elo"
Auch das ist mehr Unterschied, als man bei ca. 3facher Geschwindigkeit, was ja auf RTX etwa der Unterschied zwischen cudnn und cudnn-fp16 ist, erwarten würde: Würden AB-Engines auf diesem Hardwarelevel 3x mehr Bedenkzeit/Hardwarepower bekommen, würde man nur m.E. ca. +50 Elo erwarten dürfen (über den Daumen gepeilt).
Alles sehr interessant!

By Lothar Jung Date 2019-12-07 13:10

Danke für die Einsicht.
Ich war schon versucht, durch den Vergleich der beiden Ranglisten, auf die Bedeutung der Hardware und der TC bei NN erneut hinzuweisen.

By Stefan Pohl Date 2019-12-07 13:13 Upvotes 1

Lothar Jung schrieb:

Danke für die Einsicht.
Ich war schon versucht, durch den Vergleich der beiden Ranglisten, auf die Bedeutung der Hardware und der TC bei NN erneut hinzuweisen.

Nur basiert meine Einsicht auf erst jetzt vorliegenden, statistisch belastbaren Ergebnissen. Während ihr anderen das bisher nur vermutet habt. Auf Basis von statistisch und/oder methodisch lachhaften Pseudo-Tests. Und diese Vermutungen aber immer als Gewißheit "verkauft" habt. Was nicht seriös ist.
Das ist ein wesentlicher Unterschied: Auch wenn Kaffesatzleserei sich mal als korrekt rausstellt, bleibt es doch Kaffesatzleserei.

By Wolfgang Battig Date 2019-12-07 13:27

Stefan Pohl schrieb:

...
Das ist ein wesentlicher Unterschied: Auch wenn Kaffesatzleserei sich mal als korrekt rausstellt, bleibt es doch Kaffesatzleserei.

Der ist gut, muss ich mir merken

By Stefan Pohl Date 2019-12-07 13:36

Wolfgang Battig schrieb:

Stefan Pohl schrieb:

...
Das ist ein wesentlicher Unterschied: Auch wenn Kaffesatzleserei sich mal als korrekt rausstellt, bleibt es doch Kaffesatzleserei.

Der ist gut, muss ich mir merken

Danke. Mußte einfach mal klar ausgesprochen werden.

Jetzt muß ich mir natürlich perspektivisch überlegen, ob ich meine NN-Testerei so wie bisher weiterführe. Denn Andreas macht de facto dasselbe, nur eben mit besserer Hardware. Genau wie damals, als er seine Bullet-Liste aufzog, da hab ich meine Lightspeed-Rangliste ja auch einstellen können. Was ich keineswegs negativ meine, im Gegenteil.
Eventuell könnte ich meine RTX-Notebooks auch für lange-Bedenkzeit head-to-head Zweikämpfe zwischen Stockfish und lc0 benutzen. Also wirklich lange Bedenkzeit (10'+5'' oder so). Muß ich mal drüber nachdenken.

By Tom Paul Date 2019-12-20 11:42

Stefan Pohl schrieb:

Wolfgang Battig schrieb:

Stefan Pohl schrieb:

...
Das ist ein wesentlicher Unterschied: Auch wenn Kaffesatzleserei sich mal als korrekt rausstellt, bleibt es doch Kaffesatzleserei.

Der ist gut, muss ich mir merken

Und hast du inzwischen darüber nachgedacht?
Also zur Abwechselung die lange Bedenkzeit?

By Peter Martan Date 2019-12-07 13:33 Edited 2019-12-07 13:39

Stefan Pohl schrieb:

Lothar Jung schrieb:

Danke für die Einsicht.
Ich war schon versucht, durch den Vergleich der beiden Ranglisten, auf die Bedeutung der Hardware und der TC bei NN erneut hinzuweisen.

Da muss ich aber dann doch gleich mal wieder Pause von der Schreibpause machen:

Ich hab' nie behauptet, für jeden beliebigen Match- und Hardware- Fall das genau richtige Rezept zu haben, vielmehr habe ich mir die Finger wundgeschrieben, dass man nicht einfach das eine Hardware- Zeit- Engine- Verhältnis als fixe Leela-Ratio auf andere Hardware- Zeit- Engine- Verhältnisse übertragen kann, ohne, um es mit deinen Worten zu sagen, mehr oder weniger Kaffeesatzleserei zu betreiben.

Jetzt hast du's durch Versuch und Irrtum herausgefunden, noch dazu quantifiziert, dass deine vorhergehende Behauptung, dieses und jenes spiele einfach überhaupt keine Rolle, falsch war, bravo und danke dafür, aber "uns" jetzt vorzuwerfen, "wir" hätten lachhafte Pseudotests gemacht und wären dadurch rein zufällig durch Vermutung auf etwas gekommen, was wir fälschlich als Gewissheit verkauft hätten, wenn in Wirklichkeit du fortgesetzt mit dem Brustton der Überzeugung behauptet hast, alles ganz genau und in Zahlen zu wissen, auch wenn's sich jetzt dann halt doch auch für dich als falsch herausgestellt hat, das finde ich gelinde gesagt ausgesprochen Situations-elastisch.

Im Ernst, es ehrt dich, immer wieder auch mal eigene Erfahrungen und Thesen neuerlich und neuerlich zu hinterfragen und mit genaueren Ergebnissen, als man sie vorher hatte, zu verfeinern.
So hab' ich absolut nix gegen keinerlei Ratios, wie auch immer sie heißen mögen.

By Stefan Pohl Date 2019-12-07 13:45 Edited 2019-12-07 13:48

Peter Martan schrieb:

Jetzt hast du's durch Versuch und Irrtum herausgefunden, noch dazu quantifiziert, dass deine vorhergehende Behauptung, dieses und jenes spiele einfach überhaupt keine Rolle, falsch war, bravo und danke dafür, aber "uns" jetzt vorzuwerfen, "wir" hätten lachhafte Pseudotests gemacht und wären dadurch rein zufällig durch Vermutung auf etwas gekommen, was wir fälschlich als Gewissheit verkauft hätten, wenn in Wirklichkeit du fortgesetzt mit dem Brustton der Überzeugung behauptet hast, alles ganz genau und in Zahlen zu wissen, auch wenn's sich jetzt dann halt doch auch für dich als falsch herausgestellt hat, das finde ich gelinde gesagt ausgesprochen Situations-elastisch.

Mag sein, daß du das so siehst, aber so war es nun mal. Daß ihr die lachhaften Pseudotests selbst gemacht habe, hab ich nicht gesagt. Nur, daß ihr solche für eure "Schlußfolgerungen" herangezogen habt (discord ist damit ja zugemüllt). Wer diese Test gemacht hat, spielt ja auch gar keine Rolle. Wichtig ist nur, ob sie etwas taugen, oder eben nicht.

Peter Martan schrieb:

Im Ernst, es ehrt dich, immer wieder auch mal eigene Erfahrungen und Thesen neuerlich und neuerlich zu hinterfragen und mit genaueren Ergebnissen, als man sie vorher hatte, zu verfeinern.

Danke. Und nicht nur zu verfeinern, sondern ggf. eben auch umzustossen.
Das ist der Unterschied zwischen seriöser Messung/Forschung und eben der Kaffesatzleserei.

By Guenter Stertenbrink Date 2019-12-07 14:01

also einen ziemlich statistisch belastbaren Test erinne ich bzgl. TCEC 14.
Da haben die verschiedene Lc0-Versionen im Bullet vorher getestet,
gegen Stockfish, welches sie schicken sollen zum Superfinale.
200000 Partien oder so, glaub ich.
Und vorher gab es ziemlich viele Tests SF gegen 32930? bei TCEC und CCCC auf
starker Hardware.

Fazit : Discord-Bullet vs. TCEC Monsterhardware gab nur ca. 20 Elo zugunsten von Lc0 !
Es hatte sich was getan seit A0.

By Lothar Jung Date 2019-12-07 14:16 Edited 2019-12-07 14:19 Upvotes 1

Ich hab‘ auch nix gegen Ratios, sie müssen nur stimmen, bzw. auch bei unterschiedlichen Bedenkzeiten und/oder TCs bzw. Netzgrößen anwendbar sein. Das ist die Leela-Ratio mit einem Faktor von 875 nicht der Fall und kann sie auch von ihrer Herleitung nicht sein, wie ich bereits dargelegt habe.
Ranglisten auf der Grundlage von schwacher Knotenleistungen und ultrakurzen TC führen, gepaart mit einer Leela-Ratio, die auf hohen TCEC-Bedingungen und völlig anderer Tensor-Hardware und NN fußt, zu falschen Einschätzungen bzw. Rangfolgen der NN und sind keinesfalls mit komplett anderen Bedingungen vergleichbar.

By Reinhold Stibi Date 2019-12-07 15:37

Im Match Lc0 GTX 1070 gegen Stockfish mit Ryzen müsste man Stockfish schon mit 3 CPUs spielen lassen
um Ausgeglichenheit der Hardware zu gewährleisten.

Das ist mal wieder typisch, Lc0 zu bevorteilen.

By Lothar Jung Date 2019-12-07 15:43

Liegt mir fern.
Ich schlug Tests zwischen 2 und 4 Cores vor!

By Wolfgang Battig Date 2019-12-07 18:27

Reinhold Stibi schrieb:

Im Match Lc0 GTX 1070 gegen Stockfish mit Ryzen müsste man Stockfish schon mit 3 CPUs spielen lassen
um Ausgeglichenheit der Hardware zu gewährleisten.

Das kommt auf den Ryzen an...
Meine Messungen mit GTX1650 (bei LC0 schneller als 1070 wg fp16!) vs. Ryzen 5 2600 @ 3,4GHZ sagen zwei bis drei Kerne (ich schrieb es weiter oben schonmal). Mit drei Kernen hat der Ryzen einen kleinen Vorteil, liegt aber im vertretbaren Rahmen. Notfalls schraubt man etwas an der Bedenkzeit. Unter Arena kann man den Prozentanteil in 5er Schritten reduzieren. 75% hieße dann z.B., dass die Engine 40 Züge nicht in 4 sondern in 3 Minuten zu machen hat.

Bei einem weiteren PC von mir: GTX1060 vs. i7-4770 @ 3,4GHZ reicht beim 4770 ein (!) Kern für ein Ratio von ca. 1,3
Auf einen Core bezogen sind (auch) die älteren i7 den Ryzens zumindest beim Schach leicht überlegen (also Vorteil CPU) und die 1060 ist deutlich langsamer als die 1650 eben wegen fp16, also (zusätzlicher) Nachteil GPU.

Weiteres Beispiel, PC meines Sohnes: GTX1080 vs. i7-4790k @ 4 GHZ. Die 1080 bringt ohne fp16 in etwa die Leistung der 1650 mit fp16. Da müssen es selbst von dem flotten 4GHZ-i7 schon 2 Kerne sein. Genaue Werte hab ich leider nicht im Kopf.

Leider sind die Intels mit richtig vielen Kernen/Threads immer noch unverhältnismäßig teuer.

Zitat:

Das ist mal wieder typisch, Lc0 zu bevorteilen.

Wer macht denn sowas?

(kleiner Scherz)

By Peter Martan Date 2019-12-07 16:33 Edited 2019-12-07 17:04

Ich persönlich glaube (beobachte bei Output- Veränderungen) ja, dass das Zulegen von LC0 gegenüber SF von Bullet zu Blitz am deutlichsten ist (natürlich auch von der Remisrate her) und dann aber wieder abnimmt, und wenn man Analyse- Output und Partie vergleichen darf, das nicht nur wegen der steigenden Draw Rate.

LC0 braucht Anlaufzeit (vor allem auf großen Netzen), dann tut sich aber nach vielleicht 10 Minuten immer weniger, bei SF geht's auch nach halben und selten mal nach mehreren ganzen Stunden immer noch weiter in der Veränderung und Verbesserung der Output- Lines. Sowas wird sich statistisch in Matches, von grundstellungsnahen, ausgeglichenen Eröffnungsstellungen ausgehend, kaum noch beweisen lassen, die Remisrate ist dann zu hoch und die Zeit, die man brauchen würde, sowieso.

Arno Nickel hatte sich mal ähnlich geäußert in der letzten Zeit:

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=125523#pid125523

Arno Nickel schrieb:

Nach meinem Eindruck und vielen Analysen mit LeelaZero ist es übrigens nicht so, dass ich die Engine bei "längeren Bedenkzeiten" (damit meine ich jetzt Analysezeiten von mehreren Minuten, vielleicht auch Stunden pro Zug, also länger als Turnierbedenkzeit) für besonders stark halte, sondern eher im Gegenteil. Es sieht es für mich so aus, dass Leela nach wenigen Minuten meistens stagniert, während Stockfish u.a. AB Engines noch zulegen und manche Fehlbewertungen korrigieren können. Das darzulegen, erfordert allerdings einige Zeit. Ich werde das später (möglicherweise erst in 1-2 Jahren) mal tun.

Das übrige Posting ist auch lesenswert.

Und das Hashlernen ist von SF immer noch deutlich besser, (ist ja im Wesentlichen nichts Anderes als das Vorwegnehmen von Standrechenzeit, mit leerem Hash gestartet) also als Analysetool ist er mir immer noch lieber.
Jetzt aber wirklich endlich Pause für mich.

By Stefan Pohl Date 2019-12-07 17:13

Peter Martan schrieb:

Das wäre durchaus vorstellbar. Wenn der MCTS-Algorithmus erst mal an einer Stellung komplett vorbeigerauscht ist, kommt er schwer wieder dorthin. Es wäre aber ebenso denkbar, mit speziellen Parametereinstellungen (gibt ja genügend, die das Suchverhalten beinflussen) für Langzeitanalysen diesem Effekt entgegenzuwirken. Welche dann natürlich aber auch nur für solche Langzeitberechnungen geeignet wären. Dürfte aber schwer sein, diese zu finden. Generell frage ich mich allerdings, ob lc0 für Fernschächer nicht eher als Ideengeber taugt, wofür keine lange Bedenkzeiten nötig sind. Und die Prüfung auf Korrektheit mit langer Bedenkzeit sollte man dann eher Stockfish überlassen. Sag ich jetzt mal so.

By Peter Martan Date 2019-12-07 17:46 Edited 2019-12-07 18:15

Stefan Pohl schrieb:

Generell frage ich mich allerdings, ob lc0 für Fernschächer nicht eher als Ideengeber taugt, wofür keine lange Bedenkzeiten nötig sind. Und die Prüfung auf Korrektheit mit langer Bedenkzeit sollte man dann eher Stockfish überlassen. Sag ich jetzt mal so.

Mach ich auch so. Und was Settings angeht, geben SF und seine Derivate, aber auch z.B. komodo und seine Parameter für mich halt auch nach wie vor viel mehr her, jetzt nur zum Thema Settings.
MV- Mode ist bei A-B ergiebiger, dafür braucht ihn LC0 weniger, um manche Züge, an denen die A-B-Engines selbst auf vielen MV- Lines lange vorbei rechnen, aus den Ärmeln bzw. Netzen zu schütteln.

Insgesamt hat SF in den verzwickten, aber taktisch überhaupt beurteilbaren Stellungen für mich noch immer mehr als eine Nase vorn, in den Endspielen sowieso.
Und die taktischen Schwächen an und für sich sind einfach just the same bei NN und bei A-B: Zugzwang, vor allem in größeren Zugtiefen, und Festungen. Damit kann man NN- Engines mindestens so gut austricksen wie SF, kein Wunder, das sind die letzten menschlichen Bastionen, wenn die noch völlig fallen (das erlebe ich aber nicht mehr), dann können wir die Engines auch die Studien komponieren lassen und brauchen überhaupt nur mehr zuzuschauen.

"Positionelles" (aber darunter verstehe ich wahrscheinlich auch etwas anderes als die meisten Anderen) ist nur schwerer beurteilbar, so kompliziert eine langzügig forcierte Stellung auch immer sein mag, sie hat wenigstens Evalunterschiede zwischen den Zügen, die stillen Züge sind viel schwerer gegen die alternativen Kandidaten abzuwägen, aber auch da, wenn's denn wieder überhaupt Nachweisbares gibt, ist SF in der Langzeitanalyse verlässlicher, er behält auch kleine Eval- Unterschiede über längere Zugfolgen besser im Backward im Hash. Dass man ihn immer wieder als 0.00- Engine denunziert, hat er sich verdient, aber es ist halt auch immer mehr schachliche Wahrheit, dass ab einem gewissen Niveau die Lines direkt aus der (bis ins späte Mittelspiel gespeicherten) Eröffnungs- Theorie in Remisendspiele münden können.
Bei der Gelegenheit würde ich auch wieder mal auf die schon lange angedachten Vorschläge für Regeländerungen für einzelne Fernschachturniere, um's einfach mal auszuprobieren, hinweisen. Eine andere Patt- Remis- Regel würde die Eröffnungstheorie auch nicht gleich revolutionieren, aber wenn die ganzen Turmendspiele, die jetzt einfach nicht mehr ausgespielt werden müssen, weil der einzelne Mehrbauer ((oder auch die zwei solchen) nur zum Patt reicht, mehr als einen halben Punkt bringen könnten, würde das den Remistod im hochklassigen Fernschach schon wieder etwas weiter hinaus schieben. Arno Nickel hat das mehrmals gut untermauert, in offenen Briefen und in Artikeln.

Ich würde das (irgendwelche Regeländerungen) im übrigen Schach überhaupt nicht überlegen, da ist Spannung und da sind ganze Punkte auch so zwischen Menschen und zwischen Maschinen nach wie vor genug vorhanden, wenn man im Maschinenschach einfach die Eröffnungen entsprechend aggressiv wählt. Ich geh' da halt für meine Interessen auch immer wieder gleich ins Mittelspiel und ins Endspiel.

Ein ganz anderes Bild bieten "positionelle Stellungstests", bei denen es auf Züge ankommt, die möglichst überhaupt ohne Rechenzeit aus dem gespielt werden sollen, was man bei A-B statische Evals nennt.
Da ist SF zuerst auch im Vorteil, weil die Stellungen nach menschlichen Bewertungskriterien ausgesucht worden sind meistens, und die positionellen Eval- Parameter auch von Menschen programmiert sind.
Dann holt LC0 in solchen Stellungen erst recht gleich nach Bullet- Zeit stark auf, und hat auf kurzen TCs dann wieder ihre besten Ergebnisse.
Aber der Begriff "positionell" verschwimmt gegenüber "taktisch" mit dem Fortschreiten der Rechen- und Eval- Leistung der Engines sowieso mehr und mehr

Eine schachliche Macht für sich sind NN- Engines in der Eröffnung, von der Grundstellung hat's keinen Sinn, weil die ersten Züge kann man nicht neu erfinden, probiert Leela das, geht sie gegen ein gutes Buch buchlos natürlich unter.
Aber in den Buchlängen, die für Testmatches üblich sind, legt sie dann enorm in den ersten paar Zügen nach dem Buch vor, wenn sie SF überspielt, dann da, bzw. gelingt es ihr da am besten, Stellungen aufs Brett zu bringen, die SF oft erst zu spät als bereits aus dem Gleichgewicht gebracht erkennt. Leider ist auch das fürs Fernschach praktisch ohne Bedeutung, weil auch in diesen Buchvariantenlängen gibt's nix mehr zu entdecken, da ist schon soviel Remiskram in den Datenbanken, dass man schon aus denen immer wieder leicht Widerlegungen eines Angriffs findet. Und die Engine- Bücher holen explosionsartig auf, Cerebellum hat nochmal ordentlich mit den "Killervariaten" aufgeräumt.

Aber wenn die Testbücher kurz sind, dann sind es da (und auch später ins Mittelspiel hinein) die Bauernzüge und (-) Opfer, die sie immer wieder erfrischend unbekümmert raushaut, ich wundere mich immer wieder, was sie sich da alles traut, immer wieder erstaunlich, wie sie damit durchkommt, vorausgesetzt, sie ist noch nicht im Nachteil.

In Stellungen, in denen sie objektiv schon im Nachteil ist, darf man nicht auf sie hoffen, eine Stellung, die schon gekippt ist, zu verteidigen, das ist nicht ihres.

Das alles ist eigentlich schon länger so, finde ich, bin neugierig, ob sich da doch noch Wesentliches ändern wird dran in absehbarer Zeit.

So schaut bei mir jedenfalls eine Schreibpause aus.

By Lothar Jung Date 2019-12-07 16:44 Upvotes 1

Tuniere aus dem Kaffeesatz:

**Match**: 58450 vs 61313 (latest T60 at the time of testing) at 10s+1s
**LC0 version:** 0.22
**LC0 options:** cudnn-fp16, default parameters
**Time control:** 10s+1s
**Hardware:** RTX 2070
**Book:** Chad 4ply book (100 openings with only 2 moves), in sequence, reversed color
**Tablebases:** 6-man TB
**Adjudication**: chess rule (checkmate, repetition, 50 moves) + 6-man TB win/draw
**Software:**cutechess-cli
**Speed:** 58450: 114 Knps, 61333: 10.8 Knps (lc0 benchmark --weights=... --smart-pruning-factor=0 --nodes=200000 --backend=cudnn-fp16)

**Comments:** 58450 is 10x faster than 61313 in a RTX 2070, its high speed compensates its lower node quality in time control: 58450 vs 61313: +32 -12 =156 (+35 elo): 58450 wins! Congratulation for few people voting for T58 <https://discordapp.com/channels/425419482568196106/539960268982059008/650432816705961986>, actually only <@488315742077321216> and <@645976028354838538> voting only for T58. The shortest decisive game of 200 games is here (for 58450): <https://lichess.org/bVbkTrXF#67>

```diff
RTX 2070, tc=10s+1s, default parameters, chad 4ply book:

   # PLAYER    : RATING ERROR POINTS PLAYED   (%) CFS(%) W D L
   1 lc0.net.58450 :    0   ----   110.0    200 55.0    100   32 156   12
   2 lc0.net.61313 :    -35    23 90.0    200 45.0    ---   12 156   32

White advantage = 28.39 +/- 11.32
Draw rate (equal opponents) = 81.14 % +/- 3.01
```
Die k/Nodes aus der Leela-Ratio einer 2070 ist fix.
Nur nicht die k/Nodes der unterschiedlichen Netze, die weichen um das 10fache ab, hier bei 10/1 sec.
Würde man das TC z.B. auf 5 oder 10 Minuten erhöhen, würde T60 gewinnen.

By Stefan Pohl Date 2019-12-10 16:44

https://sites.google.com/site/computerschess/scct-15m-3s-mp-rating

Natürlich wenig Partien. Logisch, bei der langen Bedenkzeit. Aber doll ist das Ergebnis von lc0 nicht. Bei dieser langen Bedenkzeit (+ponder ON) müßte dieses Netz eigentlich klar vorne sein. Die Stockfish-Version sollte ca. +30 Elo besser sein, als die bei mir (190622). Rechnet man das ein, zieht hier also von Stockfish -30 Elo ab, dann wäre lc0 zwar knapp vorne, aber nur um 5 Elo. Und bei mir liegt dasselbe Netz -3 Elo hinter Stockfish. Also nur +8 Elo Verbesserung hier mit der langen Bedenkzeit. Das spricht eher nicht für großen Zuwachs von lc0 mit mehr Bedenkzeit. Allerdings sind die Errorbars hier natürlich sehr hoch (prinzipielles Problem bei Tests mit langer Bedenkzeit). Alles sehr seltsam.

Code:


 # PLAYER                 : RATING    POINTS    GAMES   (%)  
   1 Stockfish 281119 MP    : 3530.6     195.0     246   79.3%
   2 Lc0 T40B.4-160         : 3505.2     244.0     320   76.3%
   3 Komodo 13.2.5 MP       : 3485.2     184.0     246   74.8%
   4 Houdini 6.03 MP        : 3455.0     176.0     246   71.5%
   5 Ethereal 11.75 MP      : 3343.5     142.5     246   57.9%
   6 Xiphos 0.6 MP          : 3335.7     140.0     246   56.9%
   7 Fire 7.1 MP            : 3332.7     139.0     246   56.5%
   8 RofChade 2.202 MP      : 3281.0     122.0     246   49.6%
   9 Shredder 13 MP         : 3275.0     120.0     246   48.8%

15'+3'' (+pondern)
2x E5-2686, LP OFF, 4 Cores/Game, Ponder ON, 1024 MB Hash, 4 MEN, Arena 3.5.1 GUIs, Balsa v3045 Suite: Choose randomly, Switched colors, LCZero is v0.23.1 / Leela Ratio: 0.98 / played on GTX 1050 Ti:

By Benno Hartwig Date 2019-12-13 17:18

> Es ist wohl doch so, daß für NN-engines andere Gesetze gelten, als für AB-engines immer gegolten haben.

Ich habe den Eindruck, dass sich auch bei den AB-Engines die Erwartung änderte dafür, welche Spielstärkesteigerung erreicht wird, wenn man die Rechnergeschwindigkeit verdoppelt.

Wurden hier früher mal 70 bis 80 Elo gehandelt, so liegt men heute bei den Top-Engines wohl eher bei 50 Elo, vielleicht weniger.
Zustimmung?

Ich kann mir gut vorstellen, dass man bei den NN-Engines noch mehr "am Anfang" steht, dass daher eine Verstärkung der Hardware dort besonders viel bringt.
Die Knotenzahlen sind hier ja noch vergleichsweise klein.
Sättigung kommt dann erst viiieeeel

später vielleicht in 10 oder 20 Jahren.

By Stefan Pohl Date 2019-12-07 17:18

Moin Andreas, hilreich wäre noch die Angabe der Absolutgeschwindigkeit.
Also wieviel n/s rechnet lc0 in der Leela-Ratio Konfiguration (also mit einem T10 oder T30 Netz) auf deiner GPU?!? Bei mir sind es (auf meiner um 30% gebremsten RTX 2060 mobile) ca. 11500 n/s.
Für Vergleiche mit meiner NN-Rangliste wäre diese Zahl sehr hilfreich.

By Lothar Jung Date 2019-12-08 21:27 Upvotes 1

Neues vom Kaffeesatz, die T60-Funktion mps/time bei 1/2 GPU, für die Ultrakurz-TC Tester:

https://cdn.discordapp.com/attachments/539960268982059008/653318017845035009/plot.png

Eine Ingenieur-Weisheit: „Wer misst, misst Mist“.

Aber ich werde eh ignoriert.

By Andreas Strangmüller Date 2019-12-13 12:43

Hallo Stefan,

mit dem 32930 Netz rechnet Lc0 auf meiner RTX 2070 ca. 25000 n/s nach einer Minute.

By Stefan Pohl Date 2019-12-13 12:50

Andreas Strangmüller schrieb:

Hallo Stefan,

mit dem 32930 Netz rechnet Lc0 auf meiner RTX 2070 ca. 25000 n/s nach einer Minute.

OK. Danke sehr. Verglichen mit meinen 11500 n/s, also eine gute Verdoppelung. Bei den AB-Engines etwas weniger (daher deine bessere 1.0 Leela-Ratio (ich hab 1.3, weil ich meine GPU nicht weiter abbremsen kann)). Über den Daumen gepeilt kann man also sagen, du hast ziemlich genau doppelt so viele Knoten pro Sekunde wie ich. Und leicht höhere Bedenkzeit. Also liege ich mit meiner ca. 40% Angabe nicht so falsch (also 40% soviel Knoten pro gespieltem Brett-Zug in meinen Partien im Vergleich zu deinen Testpartien). Das ist sehr hilfreich.
Bin schon sehr gepannt, wie größere und kleinere Netze als 20x256 bei dir abschneiden werden - in Relation zu meinen Ergebnissen. Das wird sicher sehr interessant!!!

By Ernest Bonnem Date 2019-12-13 15:02

Stefan Pohl schrieb:

OK. Danke sehr. Verglichen mit meinen 11500 n/s, also eine gute Verdoppelung.

Ist Verdoppelung für 2070/2060 nicht ein bischen hoch ?

By Stefan Pohl Date 2019-12-13 15:10

Ernest Bonnem schrieb:

Stefan Pohl schrieb:

OK. Danke sehr. Verglichen mit meinen 11500 n/s, also eine gute Verdoppelung.

Ist Verdoppelung für 2070/2060 nicht ein bischen hoch ?

Nein. Ich habe eine mobile RTX 2060 (mobile sind immer langsamer, als die normalen GPUs) die ich, wie auch auf meiner Website zu lesen ist, mit dem Afterburner-Tool noch um 30% abgebremst betreibe. Damit meine LeelaRatio nicht zu hoch wird. Auch so ist sie schon 1.3, aber mehr abbremsen ging leider nicht.
Andreas nutzt eine non-mobile RTX 2070, die ungebremst läuft.

By Andreas Strangmüller Date 2019-12-13 13:56 Edited 2019-12-13 14:03

Das Ergebnis von Fat Fritz 1.0 ist online:

http://www.fastgm.de

Die Elo-Differenz zwischen den NN-Engines bei Stefan Pohls SPCC Rangliste und meiner ist fast identisch und liegt innerhalb der Fehlertoleranz.

NN              FGRL Elo    SPCC Elo
------------------------------------
Lc0 42850             0           0
Fat Fritz 1.0       -37         -36
Lc0 32930           -49         -54
Lc0 11260           -87         -82

By Stefan Pohl Date 2019-12-13 15:16 Edited 2019-12-13 15:18

Andreas Strangmüller schrieb:

Das Ergebnis von Fat Fritz 1.0 ist online:

<a class='urs' href='http://www.fastgm.de'>http://www.fastgm.de</a>

Die Elo-Differenz zwischen den NN-Engines bei Stefan Pohls SPCC Rangliste und meiner ist fast identisch und liegt innerhalb der Fehlertoleranz.

<code>NN FGRL Elo SPCC Elo
------------------------------------
Lc0 42850    0    0
Fat Fritz 1.0    -37    -36
Lc0 32930    -49    -54
Lc0 11260    -87    -82</code>

Schön! Bei Netzen der gleichen Größe würde man das auch erwarten, auch wenn deine Hardware doppelt so schnell ist. Die wirklich interessante Frage ist, wie es aussieht, wenn du ein größeres Netz bei dir testest. Das S.Vieri 384x30-t40-1207 Netz wäre sehr interessant. Bei größeren Netzen würde ich bei dir ein besseres Ergebnis erwarten - in Relation zum Ergebnis bei mir. Wie viel besser, das ist die große Frage... Umgekehrtes wäre bei kleineren Netzen zu erwarten (LD2 z.B.).
Bin schon sehr gespannt! Auf jeden Fall sehr schön, daß wir unsere beiden Listen so gut vergleichen können. Endlich vernüftige, statistisch belastbare Vergleiche zwischen mehr und weniger berechneten Knoten pro gespieltem Zug. Super!

By Benno Hartwig Date 2019-12-13 17:12

Jaaa! Super! Toll, dass du das machst und alles mit uns teilst!
Danke!

By Torsten Schoop Date 2019-12-14 17:38

Hallo Andreas,

mit Deinem System hast die wunderbare Möglichkeit zu testen, ob:

1. Die Lela-Ratio überhaupt einen praktischen Bezug hat.
2. Ob sich AB-Programme gegen NN-Programme anders verhalten, als gegen AB-Programme.

Und zwar dadurch, dass Du den Test wiederholst, aber diesmal spielen die AB-Programme mit nur 8 Cores und dann noch einmal mit nur 4 Cores. Denn, wenn man AB-Programme gegeneinander spielen lässt, entspricht eine Halbierung der Cores einem Spielstärkerückgang von 50 ELO. Und die Frage ist, gilt das auch für AB- gegen NN-Programme? Oder ist der ELO-Rückgang viel geringer, weil Taktik gegen NN-Programme eine geringe Rolle spielt? Oder ist der ELO-Rückgang viel grösser, da die AB-Programme irgendwann taktisch keinen Treffer mehr landen können und positionell zusammengeschoben werden?

Ich weiß, den Test zu wiederholen, macht viel Arbeit, aber es wären fantastische Einblicke in das Verhalten von AB- und NN-Programmen möglich.

Gruß
Torsten

By Andreas Strangmüller Date 2019-12-21 09:17 Upvotes 2

Das Ergebnis von Lc0 0.22.0 T40B.4-160 ist online:

   # Engine                   :    Elo  Error   Games    Points    (%)      W      D      L     D(%)   CFS
 -----------------------------------------------------------------------------------------------------------
   1 Lc0 0.22.0 42850         :   3418     10    2500    1892.0   75.68   1405    974    121   38.96    52
   2 Lc0 0.22.0 T40B.4-160    :   3417     10    2500    1891.0   75.64   1386   1010    104   40.40   100
   3 Fat Fritz 1.0            :   3380      9    2500    1797.5   71.90   1272   1051    177   42.04    75
   4 Stockfish 10             :   3375     12    1250     612.0   48.96    194    836    220   66.88    82
   5 Lc0 0.22.0 32930         :   3368      9    2500    1764.5   70.58   1196   1137    167   45.48   100
   6 Lc0 0.22.0 11260         :   3330      9    2500    1657.0   66.28   1032   1250    218   50.00    83
   7 Houdini 6.03             :   3323     12    1250     522.5   41.80    139    767    344   61.36    99
   8 Komodo 13.2.5            :   3302     12    1250     488.5   39.08    136    705    409   56.40   100
   9 Fire 7.1                 :   3200     14    1250     334.5   26.76     69    531    650   42.48    61
  10 Xiphos 0.6               :   3197     14    1250     330.5   26.44     61    539    650   43.12    72
  11 Ethereal 11.75           :   3191     14    1250     322.0   25.76     51    542    657   43.36   100
  12 Laser 1.7                :   3128     16    1250     246.0   19.68     35    422    793   33.76    91
  13 Andscacs 0.95            :   3112     17    1250     228.5   18.28     43    371    836   29.68    96
  14 Deep Shredder 13         :   3090     16    1250     207.0   16.56     25    364    861   29.12    52
  15 Booot 6.3.1              :   3090     17    1250     206.5   16.52     34    345    871   27.60   ---

White advantage = 60.81 +/- 2.52
Draw rate (equal opponents) = 62.41 % +/- 0.62

http://www.fastgm.de

By Eduard Nemeth Date 2019-12-21 10:27

Danke für diese klasse neue Ratingliste! Weiter so.

By Tom Paul Date 2019-12-21 11:04

Wäre Stockfish Dev. jetzt auf dem geteilten Platz 1 und 2 oder gar doch die alleinige Nr. 1?
Die D(%) sind extrem hoch bei Stockfish mit 66.88 aber ist das jetzt gut oder schlecht?
Im Vergleich zu Nr. 1 LC0, hat Stockfish fast 30% mehr D(%).

Für 2x 2070 RTX wären dann 2x16 CPU Kerne nötig = 32 Kerne.
Bei 2x 2080 Ti (evtl. übertaktet) RTX müsste man wahrscheinlich doch zum Threadripper mit 64 Kernen greifen.

By Andreas Strangmüller Date 2019-12-25 19:38 Upvotes 1

Das Ergebnis von Lc0 0.22.0 J13B.2-188 ist online:

   # Engine                   :    Elo  Error   Games    Points    (%)      W      D      L     D(%)   CFS
  ----------------------------------------------------------------------------------------------------------
   1 Lc0 0.22.0 42850         :   3419     10    2500    1892.0   75.68   1405    974    121   38.96    52
   2 Lc0 0.22.0 T40B.4-160    :   3418     10    2500    1891.0   75.64   1386   1010    104   40.40   100
   3 Lc0 0.22.0 J13B.2-188    :   3396     10    2500    1834.5   73.38   1292   1085    123   43.40    97
   4 Fat Fritz 1.0            :   3382     10    2500    1797.5   71.90   1272   1051    177   42.04    93
   5 Stockfish 10             :   3371     10    1500     719.0   47.93    223    992    285   66.13    58
   6 Lc0 0.22.0 32930         :   3369     10    2500    1764.5   70.58   1196   1137    167   45.48   100
   7 Lc0 0.22.0 11260         :   3331      9    2500    1657.0   66.28   1032   1250    218   50.00    96
   8 Houdini 6.03             :   3319     11    1500     612.5   40.83    150    925    425   61.67    96
   9 Komodo 13.2.5            :   3304     11    1500     584.0   38.93    166    836    498   55.73   100
  10 Fire 7.1                 :   3200     13    1500     395.5   26.37     78    635    787   42.33    53
  11 Xiphos 0.6               :   3199     13    1500     394.5   26.30     70    649    781   43.27    65
  12 Ethereal 11.75           :   3196     13    1500     388.5   25.90     64    649    787   43.27   100
  13 Laser 1.7                :   3126     14    1500     287.5   19.17     40    495    965   33.00    77
  14 Andscacs 0.95            :   3118     15    1500     277.0   18.47     51    452    997   30.13    91
  15 Deep Shredder 13         :   3102     16    1500     257.5   17.17     32    451   1017   30.07    77
  16 Booot 6.3.1              :   3093     15    1500     247.5   16.50     36    423   1041   28.20   ---

White advantage = 59.76 +/- 2.24
Draw rate (equal opponents) = 62.40 % +/- 0.58

Games        : 15.000 (finished)

White Wins   :  5.195 (34.6 %)
Black Wins   :  3.298 (22.0 %)
Draws        :  6.507 (43.4 %)

White Score  : 56.3 %
Black Score  : 43.7 %

http://www.fastgm.de

By Andreas Strangmüller Date 2020-01-23 17:31 Upvotes 1

Vier neue NN mit insgesamt nun 25000 Partien sind online:

   # Engine                        :    Elo  Error   Games    Points    (%)      W      D      L     D(%)   CFS
 ---------------------------------------------------------------------------------------------------------------
   1 Lc0 0.22.0 42850              :   3423     11    2500    1892.0   75.68   1405    974    121   38.96    52
   2 Lc0 0.22.0 T40B.4-160         :   3423     10    2500    1891.0   75.64   1386   1010    104   40.40   100
   3 Lc0 0.22.0 J13B.2-188         :   3400     10    2500    1834.5   73.38   1292   1085    123   43.40    80
   4 Lc0 LS-LS12.1                 :   3394     10    2500    1818.0   72.72   1247   1142    111   45.68    85
   5 Fat Fritz 1.0                 :   3386     10    2500    1797.5   71.90   1272   1051    177   42.04    96
   6 Stockfish 10                  :   3375      8    2500    1217.0   48.68    390   1654    456   66.16    54
   7 Lc0 0.22.0 LS12 preview       :   3374     10    2500    1765.0   70.60   1231   1068    201   42.72    51
   8 Lc0 0.22.0 32930              :   3374     10    2500    1764.5   70.58   1196   1137    167   45.48    84
   9 Lc0 0.23.2 61950              :   3367      9    2500    1745.0   69.80   1182   1126    192   45.04    51
  10 Lc0 0.22.0 384x30-T40-1573    :   3367     10    2500    1744.5   69.78   1189   1111    200   44.44   100
  11 Lc0 0.22.0 11260              :   3336      9    2500    1657.0   66.28   1032   1250    218   50.00    97
  12 Houdini 6.03                  :   3323      8    2500    1042.5   41.70    273   1539    688   61.56    98
  13 Komodo 13.2.5                 :   3311      9    2500    1001.5   40.06    291   1421    788   56.84   100
  14 Xiphos 0.6                    :   3206     10    2500     681.0   27.24    121   1120   1259   44.80    63
  15 Ethereal 11.75                :   3204     10    2500     674.5   26.98    115   1119   1266   44.76    71
  16 Fire 7.1                      :   3200     10    2500     663.5   26.54    128   1071   1301   42.84   100
  17 Laser 1.7                     :   3129     11    2500     490.0   19.60     82    816   1602   32.64    90
  18 Andscacs 0.95                 :   3119     11    2500     467.0   18.68     92    750   1658   30.00    96
  19 Deep Shredder 13              :   3103     12    2500     435.0   17.40     58    754   1688   30.16    82
  20 Booot 6.3.1                   :   3095     12    2500     419.0   16.76     64    710   1726   28.40   ---

White advantage = 61.39 +/- 1.76
Draw rate (equal opponents) = 62.09 % +/- 0.44

Games        : 25.000 (finished)

White Wins   :  8.667 (34.7 %)
Black Wins   :  5.379 (21.5 %)
Draws        : 10.954 (43.8 %)

White Score  : 56.6 %
Black Score  : 43.4 %

http://www.fastgm.de

By dkappe Date 2020-01-23 19:18

Leider kein scorpio dabei.

By Andreas Strangmüller Date 2020-01-25 06:55 Upvotes 4

Neu: Stockfish 11

   # Engine                        :    Elo  Error   Games    Points    (%)      W      D      L     D(%)   CFS
 ----------------------------------------------------------------------------------------------------------------
   1 Lc0 0.22.0 T40B.4-160         :   3423     10    2750    2017.5   73.36   1429   1177    144   42.80    61
   2 Lc0 0.22.0 42850              :   3421      9    2750    2012.0   73.16   1440   1144    166   41.60    57
   3 Stockfish 11                  :   3420      8    2500    1372.5   54.90    524   1697    279   67.88   100
   4 Lc0 0.22.0 J13B.2-188         :   3400     10    2750    1954.5   71.07   1321   1267    162   46.07    79
   5 Lc0 LS-LS12.1                 :   3395      9    2750    1938.5   70.49   1275   1327    148   48.25    97
   6 Fat Fritz 1.0                 :   3382      9    2750    1900.0   69.09   1290   1220    240   44.36    88
   7 Stockfish 10                  :   3374      8    2500    1217.0   48.68    390   1654    456   66.16    51
   8 Lc0 0.22.0 LS12 preview       :   3374      9    2750    1876.0   68.22   1258   1236    256   44.95    53
   9 Lc0 0.22.0 32930              :   3374      9    2750    1874.5   68.16   1228   1293    229   47.02    73
  10 Lc0 0.23.2 61950              :   3370      9    2750    1862.0   67.71   1206   1312    232   47.71    78
  11 Lc0 0.22.0 384x30-T40-1573    :   3365      9    2750    1846.0   67.13   1220   1252    278   45.53   100
  12 Lc0 0.22.0 11260              :   3336      9    2750    1755.5   63.84   1044   1423    283   51.75    98
  13 Houdini 6.03                  :   3323      8    2500    1042.5   41.70    273   1539    688   61.56    98
  14 Komodo 13.2.5                 :   3311      8    2500    1001.5   40.06    291   1421    788   56.84   100
  15 Xiphos 0.6                    :   3206     10    2500     681.0   27.24    121   1120   1259   44.80    63
  16 Ethereal 11.75                :   3204      9    2500     674.5   26.98    115   1119   1266   44.76    71
  17 Fire 7.1                      :   3200     10    2500     663.5   26.54    128   1071   1301   42.84   100
  18 Laser 1.7                     :   3129     11    2500     490.0   19.60     82    816   1602   32.64    90
  19 Andscacs 0.95                 :   3119     11    2500     467.0   18.68     92    750   1658   30.00    96
  20 Deep Shredder 13              :   3103     12    2500     435.0   17.40     58    754   1688   30.16    82
  21 Booot 6.3.1                   :   3095     12    2500     419.0   16.76     64    710   1726   28.40   ---

White advantage = 59.20 +/- 1.54
Draw rate (equal opponents) = 63.53 % +/- 0.42

Games        : 27.500 (finished)

White Wins   :  9.219 (33.5 %)
Black Wins   :  5.630 (20.5 %)
Draws        : 12.651 (46.0 %)

White Score  : 56.5 %
Black Score  : 43.5 %

http://www.fastgm.de