Geschwindigkeitsvergleich RTX 4090/RTX 3090

By Peter Martan Date 2022-10-23 09:54 Edited 2022-10-23 10:01

Danke für die Info, aber andere als time to solution- Messungen werden (wie immer, wenn die Vergleich zu nahe beisammen liegen) nichts sagen für Schach, weil man statistisch, behaupte ich jetzt mal, nicht einmal mit solchen Geschwindigkeits- Zunahmen in benchmarks beim game playing mit vernünftigen TCs aus der error bar wird kommen, bevor die nächste Generation an GPUs rauskommt, weil man bis dahin noch nicht mit der notwendigen Zahl an Partien fertig sein wird

Übrigens, hast du dir das

http://talkchess.com/forum3/viewtopic.php?p=936524#p936524

schon angeschaut?

Hier dir direkte Link zur Site vom Download

http://rebel13.nl/misc/sts.html

Wenn du den Thread ein bisschen weiter liest, bei der Bewertung der einzelnen Stellungen hab' ich schon so ein paar Einwände angemeldet, aber in Summe könnte das schon recht schöne Diskriminationen geben.
Ich bring's leider nicht zum Laufen, bin zu doof dazu

Auch sollte man vielleicht ein bisschen warten, bevor man sich unnötig ärgert, Ferdy hat einen bug in der momentanen Version von seinem MEA- Tool gefunden, da wird vermutlich der Download auch noch einmal geändert werden.

By Lothar Jung Date 2022-10-23 10:26 Edited 2022-10-23 10:53

Erstmal zum Geschwindigkeitsvergleich:
Der Unterschied der GPUs ist bei den beiden TensorCores Tests nicht so doll.
Sie betreffen nur das Training von NN.
Im Übrigen muß man wohl auf die neue Cuda-Version warten.

Jetzt zur neuen STS Suite:

Da steckt sehr viel Arbeit drin.
1.500 Stellungen sind schon der „Wahnsinn“.
Ein Testlauf dauert bei 15 sec. doch sehr lange.
Im laufe der Zeit werden noch einige „nicht beste Lösungen“ identifiziert.
Bei einer so großen Kohorte muß man viel Wert auf Konsistenz legen.
Zu leichte und (fast) unlösbare Stellungen sollten rausgenommen werden.
Auch sollten die Stellungsthemen ausgeglichen sein.
Ich werde die Suite Ende November in Bonn auf meiner kleinen und großen Lc0 Hardware laufen lassen.
Vielleicht ist Discord jedoch schneller. Ich habe STS dort gepostet.

Just my two Cents

By Peter Martan Date 2022-10-23 11:41 Edited 2022-10-23 11:53

Lothar Jung schrieb:

1.500 Stellungen sind schon der „Wahnsinn“.
Ein Testlauf dauert bei 15 sec. doch sehr lange.
Im laufe der Zeit werden noch einige „nicht beste Lösungen“ identifiziert.

Das ist beim Prinzip der multiplen Lösungen nicht so zu befürchten, weil die ähnlich guten Züge ähnlich gute Punktezahlen bekommen. Dass Ed 2 Sets, eines mit LC0- Bewertungen und eines mit SF erstellt hat, finde ich persönlich nicht so gut, weil's ja nicht auf die numerischen Evals ankommt, sondern auf die Zugsortierung und die muss entweder richtig oder falsch sein. Er wolte offenbar nicht einfach gleich viele Punkte für verschiedene Kandidaten reinschreiben, bei denen man sich nicht auf einen best move festlegen will oder kann (in der neuen Suite werden keine bm- Kommentare in der .epd vergeben, nur Punkte), was ich an seiner Stelle gemacht hätte. Es gibt ja auch immer wieder Züge, die früher oder später in den best move lines umstellen zueinander, die sind dann objektiv gleich gut und sollten also auch gleich gut bewertet werden.

Aber der STS als solcher ist eine gute Sammlung, was die Stellungen angeht, und die neue Evaluierung mit den jetzigen Engines ist zwar eine Heidenarbeit, aber die habe ich mir ja auch schon angetan vor ein Weile.

Was die Laufzeiten angeht, momentan ist (wenn ich das überhaupt richtig gesehen habe) 1"/Pos. eingestellt, das ist praktikabel, da ist ein Run in 25 Minuten durch, ich weiß von anderen Suiten von Schröder, dass er auch mit kürzeren TCs arbeitet, 300msec. z.B., Thread- Zahl ist default 1, man könnte also mehrere Engines gleichzeitig laufen lassen, (wenn's nicht gerade wieder LC0 ist) mach ich ja mit meinen 1024 Stellungen auch.

Das Problem ist für mich das MEA- Tool, das natürlich das andere Herz der Sache ist. Probier' mal, wenn's dich interessiert, ob du mit den batch- Dateien klar kommst, meine Editierungs- Versuche für die Engines auf meinem Rechner sind vorläufig gescheitert.

By Peter Martan Date 2022-10-23 13:08 Upvotes 1

Peter Martan schrieb:

Was die Laufzeiten angeht, momentan ist (wenn ich das überhaupt richtig gesehen habe) 1"/Pos. eingestellt,

Falsch, sogar nur 100msec. Von der Download- Site:

http://rebel13.nl/misc/sts.html

Zitat:

Adding new engines - open the file sts.bat with a text editor.

set MT=100
set HASH=64
set THREADS=1
set PROTOCOL=uci
set EPD=epd\sts-sf15.epd
set MRL=mea_results

set EXE=engines\Koivisto_8.0.exe
set NAME=Koivisto_8.0

set MT stands for "move-time", here you can change the average time in milliseconds, 1000 is one second.

set EXE defines the place of the engine, engines typically are stored in the engines folder.

set NAME is the name you want the engine named in the output.

By Lothar Jung Date 2022-10-23 13:37

100 ms ist zu kurz für Lc0. Die Initialisierungslatenz der GPU dauert mindestens so lange.

By Peter Martan Date 2022-10-23 13:56 Edited 2022-10-23 14:26

Ich würde sicherheitshalber eine Sekunde für LC0 nehmen, nehm ich auch für meine 1024 Stellungen.
Funktionieren bei dir die Batch- Dateien?

Ich hab meine für 2 SF- Engines so editiert:

Zitat:

set MT=100
set HASH=64
set THREADS=30
set PROTOCOL=uci
set EPD=epd\sts-sf15.epd
set MRL=mea_results

set EXE=engines\Blue_Marlin_15.3_avx2.exe
set NAME=Blue Marlin 15.3
mea.exe --engine %EXE% --name %NAME% --hash %HASH% --threads %THREADS% --protocol %PROTOCOL% --epd %EPD% --movetime %MT%
mrl %MRL% %MRL% %EPD% %MT%

set EXE=engines\stockfish_22091112_x64_avx2.exe
set NAME=Stockfish 220911
mea.exe --engine %EXE% --name %NAME% --hash %HASH% --threads %THREADS% --protocol %PROTOCOL% --epd %EPD% --movetime %MT%
mrl %MRL% %MRL% %EPD% %MT%

Hab also nur die Anzahl der Threads geändert und die Namen (.exe- files) der Engines, sicherheitshalber bei Blue Marlin in der .exe auch noch die Leerzeichen und das - durch _ ersetzt, natürlich auch im Namen der .exe. Binary läuft im entsprechenden Ordner, warum die Batch nicht abgearbeitet wird, weiß ich nicht.

Würde ja Ed in seinem eigenen Forum fragen, aber wahrscheinlich ist's nur irgendein einzelnes Zeichen, das nicht passt, sowas ärgert mich dann immer und dann lass' ich's lieber gleich mal wieder sein, weil rein theoretisch kann's natürlich schon auch an einem Bug von MEA liegen, der erst behoben werden muss.

Edit: Hab' jetzt aber doch die von mir editierte Batch- Datei im ProDeo- Forum gepostet, wenn ich eine Antwort bekomme, geb' ich sie hier weiter.

By Peter Martan Date 2022-10-23 14:55 Edited 2022-10-23 15:02

Einfach die Anführungszeichen bei den Engine- Namen vergessen, im ProDeo- Forum schnell den richtigen Tipp bekommen

So klappt's:

Zitat:

set MT=100
set HASH=64
set THREADS=30
set PROTOCOL=uci
set EPD=epd\sts-sf15.epd
set MRL=mea_results

set EXE=engines\Blue_Marlin_15.3_avx2.exe
set NAME="Blue Marlin 15.3"
mea.exe --engine %EXE% --name %NAME% --hash %HASH% --threads %THREADS% --protocol %PROTOCOL% --epd %EPD% --movetime %MT%
mrl %MRL% %MRL% %EPD% %MT%

set EXE=engines\stockfish_22091112_x64_avx2.exe
set NAME="Stockfish 220911"
mea.exe --engine %EXE% --name %NAME% --hash %HASH% --threads %THREADS% --protocol %PROTOCOL% --epd %EPD% --movetime %MT%
mrl %MRL% %MRL% %EPD% %MT%

Und mit 100msec die 2 Engines durchgelaufen:

    EPD  : epd\sts-sf15.epd
    Time : 100ms
                                                      Solving    Max   Total   Time   Hash          
    Engine           Score   Used Time Found   Pos     Time     Score   Rate    ms     Mb  Cpu  CCRL
 1  Stockfish 220911  13942  00:04:10.0  1210  1500  00:00:00.0  15000  92.9%    100    64   30     0
 2  Blue Marlin 15.3  13834  00:04:10.0  1208  1500  00:00:00.0  15000  92.2%    100    64   30     0

                                    Created with MEA
                                          by
                                       Ferdinand
                                         Mosca

Die Umrechnung in Elo scheint nur in der html- Darstellung dabei zu sein, wie ich die editiere, um die 2 früheren single- thread runs mit den alten Kovisto- und Seer- Versionen raus zu kriegen, weiß ich noch nicht

By Lothar Jung Date 2022-10-23 16:09 Edited 2022-10-23 17:02

Sehr schön, Glückwunsch!

SF hat hier mit einem Score von rd. 93% kaum noch Luft nach oben.
Und das bei 1/10 Sekunde Bedenkzeit!
Wie steht die Score, Points und die Anzahl der gelösten Stellungen im Zusammenhang?
Schwierigkeitspunkte von 1 - 10!?
Gibt es somit einen Score über 100%?
Welche Elo dient als Grundlage/Anker für die Eloberechnung?
Obwohl es eine eigene Suite von Lc0 gibt, spricht nichts dagegen, jeweils die andere oder eine zusammengefasste Suite einzusetzen.
Interessant sind die eher kleinen Unterschiede zwischen 1 und 30 Thread(s).

By Reinhold Stibi Date 2022-10-23 16:41

Peter, ich bin gerade nicht auf dem Laufenden.

Könntest Du mir einen Link geben für deine 1024 Stellungen; sind diese schon bereinigt?

By Lothar Jung Date 2022-10-23 16:49

https://rebel13.nl/misc/sts.html

By Reinhold Stibi Date 2022-10-23 17:27

Vielen Dank !

Werde mir die Stellungen noch anschauen. 1024 sind schon recht viel.

Vielleicht bleiben, wenn man die leichten Stellungen aussortiert, noch ca. 250 übrig.

Bringen diese Stellungen, wenn man sie mit den anderen Testsuis vergleicht, einen
bedeutsamen Erkenntniszuwachs ?

Peter meinte vor kurzem, als ich in Erwägung zog aus meinen zigtausenden Partien auf Schach.de
und den Partien von TCEC eine neue Testsui zu erstellen, dass es bereits genügend Test-Suis gäbe.

By Peter Martan Date 2022-10-23 17:46 Edited 2022-10-23 17:50

Die 1024, von denen ca. 590 aus dem STS durch Aussortieren derjenigen übrig blieben, die single best move- Stellungen sind, und mit taktisch schwereren aufgefüllt sind, sodass sie insgesamt mit ca. 1"/Stellung durchlaufen werden können, vielleicht immer noch für A-B am besten single thread, weil in Summe nicht viel schwerer als z.B. Arasan und Eret, beide auch großteiils enthalten:

https://www.dropbox.com/s/yu7dnjpofa6bb8n/1024.epd?dl=0

Die 256, die insgesamt für ca. 5"/Stellung SMP gedacht sind:

https://www.dropbox.com/s/lpg29zoyvh03dza/256.epd?dl=0

Die 128 schwersten, 15" SMP Hardware- TC würde ich da empfehlen:

https://www.dropbox.com/s/804b7chwli13laf/1284.epd?dl=0

Der Link, den Lothar gesetzt hat, führt zu den neu evaluierten STS- Stellungen, aber Achtung, Reinhold, das sind keine single best move- Stellungen, die sind nur mit dem entsprechenden Tool MEA von Ferdinand Mosca, das man auch im Download hat, auszuwerten.

So schaut's damit z.B. mit 1"/Stellung zwischen LC0 und SF 110922 aus, wenn beide 2 Threads der CPU nutzen und LC0 die 3070ti GPU:

Dabei ist auch noch zu beachten, dass dieser Run mit dem sts-LC0.epd- Set erzeugt wurde, das Ed Schröder aufgrund von LC0- Bewertungen der Stellungen evaluiert hat.
Bei Gelegenheit werde ich den Lauf wiederholen mit dem sts-SF15.epd- Set, und dann muss ich mir mal die Stellungen alle einzeln durchschauen, ob ich bei den Punkte- Vergaben bleibe, die in den Sets enthalten sind. An sich wäre die Arbeit, das zu ändern, immer noch gewaltig, aber schon nicht mehr so groß wie de novo und ich hab' sie ja auch schon alle einmal durchgeschaut damals für das Aussortieren der single best move- Stellungen

By Peter Martan Date 2022-10-23 17:54 Edited 2022-10-23 18:00

Lothar Jung schrieb:

Wie steht die Score, Points und die Anzahl der gelösten Stellungen im Zusammenhang?
Schwierigkeitspunkte von 1 - 10!?
Gibt es somit einen Score über 100%?

Nein, 15000 Punkte sind das Maximum, weil 10 das Meiste ist, was pro Stellung erreicht werden kann.
Aber lad' dir das Package mal runter, Lothar, dann kannst du das alles selbst ausprobieren. Wenn man nicht die " bei den Engine- Namen (die frei zu vergeben sind für den Namen im Output) vergisst, läuft das Tool problemlos. Vorsichtig wäre ich noch beim entsprechenden MultiPV- Tool, das hat laut Ferdy zeitweise einen Bug, von dem ich nicht weiß, ob er schon bereinigt ist.
Auch würde ich vielleicht noch eher dem SF15.epd- Set trauen, was die Punkte angeht, weil ich glaube, das Ed das LC0.epd- Set auch mit MultiPV von LC0 bewertet hat, mehrere primaries sind ja aber bekanntlich bei LC0 nicht das, was sie bei SF sind.
Und durchgeschaut werde ich die Stellungen alle nicht so bald haben, zwar kenne ich sie alle schon, aber die mulitplen Lösungen in ihrere Wertigkeit habe ich nicht so beachtet, als ich die single best move- Stellungen für die 1024 aussortiert habe, solche sind nur so 590 übrig geblieben von den ursprünglichen 1500.

By Peter Martan Date 2022-10-23 18:55

Peter Martan schrieb:

Auch würde ich vielleicht noch eher dem SF15.epd- Set trauen, was die Punkte angeht, weil ich glaube, das Ed das LC0.epd- Set auch mit MultiPV von LC0 bewertet hat, mehrere primaries sind ja aber bekanntlich bei LC0 nicht das, was sie bei SF sind.

Aber auch mit dem (SF15.epd- Set) hat LC0 mit 1"/Stellung die Nase vorn, wenn SF 2 Threads nutzt und LC0 die 3070ti:

    EPD  : epd\sts-sf15.epd
    Time : 1000ms
                                                Max   Total   Time   Hash          
    Engine           Score   Found  Pos   ELO  Score   Rate    ms     Mb  Cpu      
 1  lc0               14582   1334  1500  3888  15000  97.2%   1000    64    2
 2  Stockfish 220911  14148   1237  1500  3772  15000  94.3%   1000    64    2

                                    Created with MEA
                                          by
                                       Ferdinand
                                         Mosca

By Reinhold Stibi Date 2022-10-23 19:16

Aber Peter, das ist ein unfairer Vergleich.

Bei einer RTX 3070 Ti müsste Stockfish als Gegenpart mindestens 14 Kerne bekommen.

In der RTX 3070 Ti sind doch auch mehrere Rechenkerne, oder wie es sich sonst nennt, enthalten.

By Peter Martan Date 2022-10-23 19:26 Edited 2022-10-23 19:51

Ich weiß, Reinhold, ich wollte mal sehen, ob der Hardware- Nachteil groß genug ist.

Auch ist das ein Test- immanentes Problem für mich momentan noch. Mit der Batch- Datei, so wie sie geplant ist, kann ich nur die Threads- Anzahl für alle Engines gleich einstellen, und ich weiß nicht, wie sich das für LC0 auswirkt, wenn ich 30 Threads für beide gelten lasse.

Wahrscheinlich müsste ich aus dieser Zeile für LC0

mea.exe --engine %EXE% --name %NAME% --hash %HASH% --threads %THREADS% --protocol %PROTOCOL% --epd %EPD%

hash und threads herauslöschen, weiß aber nicht, ob's dann noch so funktioniert, wie's soll. Auch kann ich den Rechner, wenn ich SF mit 30 Threads rechnen lasse, für eine halbe Stunde vergessen. Mit der neuen Version von ShashChess (25.2) werde ich mich daher lieber wieder auf meine kleineren Suiten verlassen

By Peter Martan Date 2022-10-23 20:24 Edited 2022-10-23 20:29

Zitat:

Wahrscheinlich müsste ich aus dieser Zeile für LC0

mea.exe --engine %EXE% --name %NAME% --hash %HASH% --threads %THREADS% --protocol %PROTOCOL% --epd %EPD%

hash und threads herauslöschen, weiß aber nicht, ob's dann noch so funktioniert, wie's soll.

Wie man's nimmt, wenn man die Threads bei einer Engine nicht vorgibt, verwendet sie nur einen, das macht ja aber bei LC0 nicht soviel Unterschied wie bei A-B.
So schaut's mit SF 30 Threads und LC0 1 der CPU und mit der 3070ti aus, wieder mit 1"/Stellung:

    EPD  : epd\sts-sf15.epd
    Time : 1000ms
                                                Max   Total   Time   Hash          
    Engine           Score   Found  Pos   ELO  Score   Rate    ms     Mb  Cpu      
    Stockfish 220911  14434   1290  1500  3848  15000  96.2%   1000    64   30
    lc0               13854   1201  1500  3696  15000  92.4%   1000    64    1

                                    Created with MEA
                                          by
                                       Ferdinand
                                         Mosca

By Peter Martan Date 2022-10-24 00:45 Edited 2022-10-24 00:53

    EPD  : epd\sts-sf15.epd
    Time : 100ms
                                                Max   Total   Time   Hash          
    Engine           Score   Found  Pos   ELO  Score   Rate    ms     Mb  Cpu      
 3  ShashChess25.2    13899   1204  1500  4171  15000  92.7%    100     8   30
 4  Stockfish 220911  13873   1209  1500  4162  15000  92.5%    100     8   30
 5  ShashChess25.1    13842   1201  1500  4153  15000  92.3%    100     8   30
 6  Blue Marlin 15.3  13834   1208  1500  4149  15000  92.2%    100    64   30
 

                                    Created with MEA
                                          by
                                       Ferdinand
                                         Mosca

Die 64Mb Hash von Blue Marlin waren natürlich beim ersten 100msec- Run zuviel, mag sein, er war dadurch etwas benachteiligt, ich hab' ihn aber drin gelassen, um einen mehr zu haben zum Vergleich, an dem man sieht, wie selbst bei diesen ultrakurzen TCs die schönen Elo- Abstände zusammenschrumpfen (die absoluten Höhen kann man numerisch übrigens einstellen, aber es kommt ja nur auf die Unterschiede an, was ich in der Readme gelesen habe, dürften die Werte default auf 2500 Elo eingestellt sein, weiß allerdings nicht, von welchen Punktezahlen ausgehend).

Mit LC0 sollte man wahrscheinlich hauptsächlich Versions- und Netzvergleiche untereinander machen, weil man ja dabei doch längere TCs bräuchte und es sehr auf die Zahl der Threads ankäme bei den A-B-Engines und den nicht ganz so kurzen Rechenzeiten. Und das kostet dann natürlich auch wieder unnötig Gesamt- Hardware- Zeit. Mit 300msec hab ich mit den 1024 Stellungen früher noch keinen Einbruch gesehen mit LC0 auf der 3070ti, aber das heißt nicht, dass es bei diesen 1500 keinen gäbe. Und natürlich käme es hier wie da nur fürs einzelne Vergleichs- Kollektiv auf die Reproduzierbarkeit an.

Für Verlaufskontrollen mit verschiedenen Netzen durchaus auch eine brauchbare Methode vielleicht, mal sehen, was die auf Discord sagen, wie kurz sie die TC mindestens ansetzen würden.
Was man hingegen sowieso schon sieht, auch wenn hier keine error bar ausgewiesen wird, die Unterschiede werden nicht signifikanter bei belastbaren Tests, selbst wenn man die TCs so stark verkürzt. Man kann die Elo spreizen, soviel man will, die Performances in Relation zur Datenmenge bleiben prozentuell das Limit der Relevanz.

By Peter Martan Date 2022-10-24 15:15 Edited 2022-10-24 15:25

Lothar Jung schrieb:

Im laufe der Zeit werden noch einige „nicht beste Lösungen“ identifiziert.
Bei einer so großen Kohorte muß man viel Wert auf Konsistenz legen.
Zu leichte und (fast) unlösbare Stellungen sollten rausgenommen werden.

Die "nicht besten" sind dort das Problem, wo sie zu wenig eindeutig sind, das hatte ich schon beim Durchschauen nach echten single best move- Stellungen festgestellt, nicht umsonst sind da von 1500 nur ca. 590 bei mir übrig geblieben.
Und nun könnte man meinen, das ließe sich durch die Punktevergabe lösen, aber es bleibt dasselbe Willkür- Problem, wo man den best move nicht deutlich festmachen kann, wäre es höchstens logisch, allen ungefähr gleichwertigen Kandidatenzügen ungefähr gleiche Punktezahlen zu geben, aber so einen Versuch hatte ich auch schon gemacht, indem ich einfach im .cbh- Forman ein = den Zügen vorangestellt hätte, die gleichermaßen als Lösungen zu zählen wären (cb-Kommentarpalette "RR- äquivalent ist"), die wertet dann Fritz in einer Testsuite alle als Lösungen.
Aber das führt einfach dazu, dass die Stellungen um das noch leichter lösbar werden, was mehr Züge als "gefunden" gelten, und vergibt man statt dessen an alle solchen ähnlich guten Kandidaten die gleiche (maximale) Punktezahl, ist das Ergebnis das gleiche, die Suite wird auch einfach leichter in Summe relativ zur Hardware- Zeit.

Was ich bisher so durchgeblättert habe, ist man dem Problem als solchem wieder dadurch begegnet, dass man ziemlich willkürlich mit doch deutlichen Unterschieden in der Punktezahl- Vergabe bei Zügen vorgegangen ist, die schon in der Sortierung fraglich sind und daher deutlich mehr oder weniger Punkte für den einen oder anderen Kandidaten nicht wirklich rechtfertigen, halt nach dem, was ich mit kurzen Analysezeiten bei den ersten paar Beispielen gesehen habe.

Nun müsste man, wollte man wirklich genau den Maßstab haben, den man für schachlich den besten hielte, die Punkte jedes Kandidaten und jeder Stellung neu bewerten, das tu' ich mir in absehbarer Zeit nicht noch einmal an. Das Prinzip der Punkte wäre auf den ersten Blick ein Weg, mehr Diskrimination aus der einzelnen Stellung heraus zu bekommen, aber wie gesagt eben sehr davon abhängig, in welcher Zeit man da genau was von den Engines erwartet und in wie weit sich das wirklich mit dem vergleichen kann, was bei praktikalben TCs am Ende herauskommt.

Man kann die Suite für Einzelmessungen neben vielen anderen, die man auch nicht wirklich breiter vergleichen kann, für sich stehen lassen, insbesondere für Verlaufskontrollen ein und derselben Engine mit verschiedenen Netzen oder Settings oder Patches für schnelle Durchläufe mit sehr kurzen TCs (damit das Rechnen viel weniger Rolle spielt als die "statische Eval", so war die Strategische Test Suite ja auch von Anfang an von Swaminathan und Corbit gedacht). Aber für Vergleiche mit Ranglisten, die man auf andere Art erstellt, gibt sie meiner Meinung nach auch nicht mehr, eher noch weniger Transitivität her als selektivere Sammlungen, die mehr Querschnitt aus Eval und Suche bieten. Vielleicht nehme ich mir irgendwann noch einen Anlauf, die Punkte anders zu vergeben, aber sehr bald sicher nicht und in abhsebarer Zeit wird das dann erst recht nicht fertig. Eher gehe ich vielleicht daran, mit einer der kleineren Sammlungen so eine Punktebewertung multipler Lösungen zu probieren, für Eröffnungsstellungen wäre das wahrscheinlich am ehesten sinnvoll. Auch die Kombination von single best move- Stellungen und solchen mit mehreren abgestuft bewerteten Lösungen wäre mal einen Versuch wert vielleicht.

Just my two cents.

By Lothar Jung Date 2022-10-24 19:21 Edited 2022-10-24 20:03

„Each position was analyzed with the then strongest engines giving points for the four best moves varying from 1 to 10 points.“

Zu diesem schlichten Satz fallen mir folgende Fragen ein (es geben bestimmt noch mehr):

Ein einziger Gewinnzug wird wohl mit 10 Punkten bewertet. Oder gibt es Abstufungen nach der Komplexität der Stellung?
Es gibt Stellungen in denen mehrere Züge zum Gewinn führen. Erhalten alle diese Züge 10 Punkte?
Nach welchen Kriterien werden die Anzahl der Punkte für Züge gegeben, die „nur“ zu starkem Spiel führen?
Werden für Züge, die ein Remis retten, auch Punkte vergeben und wenn, wie viele?
Wie wird ein Patt bewertet? Wie ein rettendes DauerSchach.
Spielt die Steigerung des Vorteils in Bauerneinheiten bei der Höhe der Punktvergabe eine Rolle?
Wie werden bei einem Matt, die Anzahl der Züge in die Bewertung einbezogen.
Bei einem Figurengewinn, werden die Punkte nach der Bauernwertigkeit bemessen?
Wie werden positionelle Vorteile bewertet?

Die sehr kurzen Bedenkzeiten gepaart mit stark unterschiedlichen Threads machen eine Normierung der Punkte sehr schwer.
Bei den kurzen Bedenkzeiten wird die Qualität der tiefen Suche nicht adressiert.
Vielmehr wird nur die Anfangs-Policy des Netzes abgerufen.

Zusammengefasst werde ich von der Anzahl der Stellungen erschlagen und die Vergabe der Punkte liegt im Dunklen.

Just my two Cents

By Peter Martan Date 2022-10-24 19:39 Edited 2022-10-24 20:23

Lothar Jung schrieb:

Ein einziger Gewinnzug wird wohl mit 10 Punkten bewertet.
Es gibt Stellungen in denen mehrere Züge zum Gewinn führen. Erhalten alle diese Züge 10 Punkte?
Nach welchen Kriterien werden die Anzahl der Punkte für Züge gegeben, die „nur“ zu starkem Spiel führen?
Werden für Züge, die ein Remis retten, auch Punkte vergeben und wenn, wie viele?
Wie wird ein Patt bewertet? Wie ein rettendes DauerSchach.
Spielt die Steigerung des Vorteils in Bauerneinheiten bei der Höhe der Punktvergabe eine Rolle?
Wie werden bei einem Matt, die Anzahl der Züge in die Bewertung einbezogen.
Bei einem Figurengewinn, werden die Punkte nach der Bauernwertigkeit bemessen?
Wie werden positionelle Vorteile bewertet?

1.Nein, eben nicht, ich würde das in diese Richtung quantitativ bei einigen Stellungen etwas ändern, es wäre aber der Unterscheidbarkeit in den Resultaten abträglich vermutlich.
2.Willkürlich, ein Zusammenhang zwischen der Eval- Relationen besteht wohl, aber kein direkt umrechenbarer
3.Kommt auf die Stellung an, es kommen auch beste Verteidigungszüge vor, das mit den Punkten richtet sich wieder nach den Alternativen.
4.Natürlich, fällt mir aber momentan keine Stellung ein mit Patt als Retttung im STS
5. Nein
6 . Du musst dir vor allem klarmachen, dass es sich um ein "strategische" Suite handelt, nicht eine primär taktische. Mattaufgaben werden praktisch nicht als solche gestellt wie bereits geschrieben, ich vermute ein paar von den Stellungen, bei denen der Vorteil schon sehr groß ist für eine Seite, könnte man in Hinblick auf die DTM ausrechnen lassen, spielt aber keine Rolle, auch da sind ja oft ein paar Züge ähnlich nahe beim Matt, wie immer kommt's mit den Punkten dann nur drauf an, wie viele wie ähnlich gute Züge vorhanden sind.
7. Das mit den Bauerneinheiten hatten wir schon, die werden nicht direkt in Punkte umgewandelt, es kommt nur auf die Relationen zwischen den Kandidaten an.
8. Siehe alle anderen Fragen, es sei denn, du verstehst unter positionellen Vorteilen solche, die sich nicht in irgendwelche zahlenmäßigen Evals umrechnen lassen, solche kennt eine Engine natürlich überhaupt nicht, ich fand deshalb die Unterscheidung zwischen positionellen (strategischen) und taktischen Bewertungen immer schon sehr schwammig, beim Menschenschach sind solche Sachen ja eigentlich auch nur verbale Krücken, wo die Fähigkeit fehlt, Zugfolgen durchzurechnen. Bei Engines machen solche Unterschiede noch weniger Sinn, je besser die Engines im Rechnen und im Bewerten werden, desto weniger.

So richtig wirst du keine deiner Fragen beantworten können, wenn du dir die Stellungen und ihre Punktebewertung nicht selbst einzeln anschaust, Lothar. Das lohnt sich aber sowieso, schon aus Computerschach- historischen Gründen.

Edit: die Nummerierung der Fragen und die Antworten in richtiger Reihenfolge sind erst nach ein paar Anläufen gelungen, wenn überhaupt.

By Peter Martan Date 2022-10-25 00:41 Edited 2022-10-25 00:45

Peter Martan schrieb:

Das mit den Bauerneinheiten hatten wir schon, die werden nicht direkt in Punkte umgewandelt, es kommt nur auf die Relationen zwischen den Kandidaten an.

Ganz so ist es allerdings doch auch nicht (von Ed geplant), er schreibt hier

http://talkchess.com/forum3/viewtopic.php?p=936629#p936629

schon über einen Zusammenhang zwischen Evals und Punkten, aber ganz kann ich dem weder folgen noch es glauben, so unterschiedlich hoch wie die Evals bei unterschiedlichen Stellungen sind, kann sich das mit einer einfachen Division durch 5 nur ganz selten ausgehen.
Ich würde jedenfalls bei den Evals, die ich so sehe, immer noch mehr von Daumen mal Pi bzw. Willkür ausgehen

Vor allem wäre es ja sehr eine Frage, welche Engine, welche Hardware- Zeit, wieviele MultiPV- Lines...
Ferdy und Dann (Corbit) haben in dem Thread auch noch eigene Meinungen dazu, Ferdy würde z.B., um die Abstände zwischen den Engines zu vergrößeren, die Punkte höher ansetzen, das würde aber meiner Meinung nach an den Relationen auch nur numerisch und nicht verhältnismäßig Wesentliches ändern.
Was vor allem gleich bliebe, wäre die Zahl der Lösungen in der Zeit.
Dann lässt 2 GPUs eine Minute lang MultiPV laufen, eine Minute ist aber für tiefere Einblicke in die Stellungen und verlässliche numerische Höhen der Evals bei LC0 auch nicht gegeben für mich, vor allem misstraue ich bei LC0 dem MultiPV- Output prinzipiell mehr als bei A-B.

Die Sache ist jedenfalls noch im Fluss, mal sehen, wie sie sich vielleicht noch weiter entwickelt.

By Peter Martan Date 2022-10-25 12:58 Edited 2022-10-25 13:50

Du hast den neuen Thread wohl schon gelesen, in der Zwischenzeit (bis sich Weiteres tut), welches LC0- Netz würdest du als nächstes gegen das von mir zuletzt getestete 794968 laufen lassen?
Ich möchte keinen unnötigen STS- run verbraten aber sehen, ob 2 Netze, zwischen denen etwas Entwicklungszeit liegt, mit Ferdys .epd von einander unterscheidbar sind in der Performance.
Als Vergleichszeit würde ich 300msec nehmen, das wäre vielleicht ein guter Kompromiss zwischen den 100 für SF und der ganzen Sekunde, die ich zuletzt für LC0 hatte, bei der die Engine gegen 2Threads von SF ja sogar die Nase vorn hatte.

Edit: Hab einfach mal willkürlich das 785564 genommen:

    EPD  : epd\FM5.epd
    Time : 300ms
                                                Max   Total    Time   Hash          
    Engine           Score   Found  Pos   ELO  Score   Rate     ms     Mb  Cpu      
 1  lc0              139735   1105  1500  4198  149703  93.3%    300     8    2
 2  lc0-785564       139475   1095  1500  4194  149703  93.2%    300     8    2

Immerhin 4 Elo, leider fürs ältere 784968 (lc0 ohne Bezeichnung oben)

By Lothar Jung Date 2022-10-25 15:48 Edited 2022-10-25 15:53

Ich würde das bisher stärkste T78apm Version gegen die vorherige letzte stärkste 512x40b Version antreten lassen.

Also:

T78 (512×40b) gegen
T78apm (512×20b)

Siehe Grafik: https://cdn.discordapp.com/attachments/530486338236055583/1032565280729202780/unknown.png

By Peter Martan Date 2022-10-25 16:03 Edited 2022-10-25 16:07

Sorry, zu spät, würde ja ohnehin auch nicht wirklich aus der error bar kommen vermutlich.
Aber den Test als solchen muss man im Auge behalten.

By Lothar Jung Date 2022-10-25 16:54

Netz 78 neu gegen 80 neu kommt nicht aus der Errorbar.
Netz 78 neu gegen 78 alt mit ca. 40 Elo dürfte das schaffen.

By Peter Martan Date 2022-10-25 17:47

Ja, im Selfplay.

By Lothar Jung Date 2022-10-25 19:37

Diese Kombi ist vielleicht besser und aktueller:

**Match:** lc0.net.784968 vs lc0.net.805874
**LC0-version:** all with dag-master_994504f5, cuda-fp16, threads=1
**Hardware:** RTX 2060
**Software:** cutechess-cli
**Time control:** 60s + 1s
**Book:** Sufi_22, sequential, color reversed
**Tablebases:** Syzygy 5-men
**Adjudication:** -draw movenumber=50 movecount=5 score=8 -resign movecount=5 score=1000
**Comment:** lc0.net.784968 finished second in TCEC S23 Division P.

```diff
# PLAYER    : RATING ERROR POINTS PLAYED W L D D(%) CFS(%)
1 lc0.net.805874 :   19.2   50.2 52.5    100   19   14   67 67 77
2 lc0.net.784968 : 0.0   ---- 47.5    100   14   19   67 67    ---

White advantage = 104.95 +/- 26.60
Draw rate (equal opponents) = 81.29 % +/- 5.28```

By Peter Martan Date 2022-10-25 19:58 Edited 2022-10-25 20:09

# PLAYER         : RATING  ERROR  POINTS  PLAYED    W    L    D  D(%)  CFS(%)
1 lc0.net.805874 :   19.2   50.2    52.5     100   19   14   67    67      77
2 lc0.net.784968 :    0.0   ----    47.5     100   14   19   67    67     ---

Heißt:

Wins   = 19
Draws  = 67
Losses = 14
Av.Op. Elo = 3500

Result     : 52.5/100 (+19,=67,-14)
Perf.      : 52.5 %
Margins    :
 68 %       : (+  2.8,-  2.8 %) -> [ 49.7, 55.3 %]
 95 %       : (+  5.6,-  5.6 %) -> [ 46.9, 58.1 %]
 99.7 %     : (+  8.5,-  8.5 %) -> [ 44.0, 61.0 %]

Elo        : 3517
Margins    :
 68 %       : (+ 20,- 20) -> [3498,3537]
 95 %       : (+ 39,- 39) -> [3478,3557]
 99.7 %     : (+ 60,- 59) -> [3458,3578]

17 Elo bei einer error bar von 39 im 95%- Intervall.
Und das ist praktisch Selfplay.
100 Spiele sind einfach zu wenig.

By Benno Hartwig Date 2022-10-30 11:42

> 100 Spiele sind einfach zu wenig.

Sowas von Recht hast du damit.
Wenn zwei tatsächlich gleichstarke Engines 100 mal gegeneinander spielen
ist bei angenommener Remis-Wahrscheinlichkeit 70%
die Wahrscheinlichkeit für die einzelne Engine ca. 20%, dass sie mindestens 52,5 Punkte erreicht.
Die Wahrscheinlichkeit dafür, dass dies irgendeiner der beiden Engines gelingt, ist also ca. 40%.

Und was will man dann damit anfangen, wenn bei 100 Partien nun konkret ein 52,5 zu 47.5 heraus kommt?
Für mich wäre die These "Die Engines sind gleichstark" sicher nicht ausreichend erschüttert.

By Peter Martan Date 2022-10-26 10:21 Edited 2022-10-26 11:14 Upvotes 1

Lothar Jung schrieb:

Diese Kombi ist vielleicht besser und aktueller:

**Match:** lc0.net.784968 vs lc0.net.805874

Und ruhen lässt einen das natürlich nicht, wenn ein einzelner run mit der neuen STS- Suite ja nur knapp über 8 Minuten dauert (300msec pro Stellung wieder auf der 3070ti, mit den 100msec für die Fische geht's noch 3x schneller):

   EPD  : epd\FM5.epd
    Time : 300ms
                                                Max    Total   Time    Hash          
    Engine           Score   Found  Pos   ELO  Score   Rate     ms      Mb  Cpu      
 1  lc0-805874       140168   1113  1500  4212  149703  93.6%    300     8    2
 2  lc0-784968       139735   1105  1500  4198  149703  93.3%    300     8    2
 3  lc0-785564       139475   1095  1500  4194  149703  93.2%    300     8    2

Haha, 14 Elo, die 17 aus dem Match haben sicher mehr error und sind ja aber jedenfalls auch nicht soo stark unterschiedlich als Ergebnis

Dieses Set von Ferdy (STS1-STS15_LAN_v5.epd),

https://github.com/fsmosca/STS-Rating/tree/master/epd

das ich in den 3 runs in der Liste verwendet habe, und das er hier

http://talkchess.com/forum3/viewtopic.php?p=936637&sid=08c05c1c5ddfb86b16a612e82bc2b5fd#p936637

auch mit Link beschrieben und veröffentlicht hat, erfüllt eigentlich eh schon alle Anforderungen, die man für Versionsvergleiche braucht. Ich glaube, ich kann mir mit eigenen Änderungen erst mal ruhig Zeit lassen.