Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Schachtests für die Katz?
- - By Kurt Utzinger Date 2025-08-03 23:25 Edited 2025-08-03 23:30 Upvotes 4
Liebe Schachfreunde

In den letzten Tagen habe ich mich mit dem Testen von Schachprogrammen beschäftigt. Nach all meinen Erfahrungen frage ich mich ernsthaft, wie und ob es überhaupt möglich ist, die sich jeweils ergebenden Testresultate miteinander zu vergleichen. Mir ist nämlich aufgefallen, dass sehr viele Faktoren mitspielen, die das Testen, bzw. die Resultate beeinflussen (können).

- Grösse der Hashtables
- welche EGTB's sind im Einsatz
- Prozessor Typ: Intel oder AMD
- welche EXE-Datei (POPCNT, SSSE, AVX2, BMI2, usw. auf welcher CPU)
- Konfiguration der Engines
- Tests nacheinander ausgeführt oder nicht
- Hashtables vor jedem Test gelöscht oder nicht
- mit wie vielen CPU's im Einsatz wird getestet
- Software (CB, Fritz & Co.) vor jedem Test neu gestartet oder nicht
- wurde Windows vor jedem Test neu gestartet oder nicht
- welche Anwendungen/Prozesse laufen unter Windows und/oder sind im Autostart aktiviert/deaktiviert
- usw., usw.

Ich habe sehr viele Kombinationen geprüft. Fazit: Die Resultate lassen sich selbst unter jeweils gleichen Bedingungen schlicht nicht vergleichen. Dies betrifft vor allem die heute üblichen Schachprogramme, die Mehrprozessor fähig sind. Und faszinierend wie erschreckend: Die Resultate können sich je nach Stellung ganz massgeblich unterscheiden. Kurzum bin ich heute total verunsichert und zweifle an jedem Test bzw. deren Vergleiche. Nicht einmal der jeweilige Neustart von Windows unter sonst gleichen Bedingungen bringt identische Resultate. So können also Resultate von mir, Hans oder Peter zuhause auf angeblich gleichen Computern nur deren Resultate aufzeigen, ohne dass schliesslich schlüssige Vergleiche möglich sind.

Es bleibt somit die Frage offen, was die ganze Testarbeit bringt. Oder soll man besser Zehntausende von Partien zwischen den Programmen laufen lassen in der Hoffnung, dass sich dann bezüglich Spielstärke der Spreu vom Weizen trennt oder sich zumindest aufgrund der Menge von Partien nivelliert?

Zurück bleibt ein ratloser Schachfan.

Viele Grüsse
Kurt

Parent - - By Frank Quisinsky Date 2025-08-04 00:06 Edited 2025-08-04 00:21
Hallo Kurt,

ich habe vor ca. 25 Jahren dazu einen Text geschrieben, aber lange nicht mehr gepflegt.

Sicherlich nicht mehr auf einem aktuellen Stand:
https://www.amateurschach.de/main/_beeinflussungsfaktoren.htm

Grundsätzlich sind das alles nur kleinere Beeinflussungsfaktoren.
Hash z. B. abhängig von der gewählten Bedenkzeit, gerade in Endspielen.
Zu große Hashtabellen wirken sich nicht negativ im Mittelspiel aus, boosten aber das Endspiel.

Dann die bekannten Extensions ...
https://expositor.dev/isa-extensions

Die spielen auch nicht wirklich eine große Rolle. Meist haben wir alle sehr moderne PCs.
Klar, ich habe auch mehrere PCs, einige können AVX512, für AMD dann ZEN2 oder höher etc..
Aber letztendlich spielt das vielleicht bei sehr schnellen Partien eine Rolle.

Interessant ist Dein Hinweis, was von Windows gestartet wird.
Mittels Autorun (ist enthalten in den sysinternals-suite), wie z. B. auch der bekannte Process Explorer, kann das System einfach und gut überwacht werden.
Hier sollte schon ein wenig darauf geachtet werden, was so alles bei einem Eng-Eng Match querschießen könnte bzw. im Hintergrund aktiv ist.
Und leider nimmt das auch ein wenig Zeit in Anspruch den PC für solche Eng-Eng Matches ein wenig zu optimieren.

Geladene Prozesse / Dienste ...
Wise hat zwei schöne kostenfreie kleine und sehr sinnvolle Tools, damit lässt sich der Speicher gut räumen.
Wise Memory Optimizer und Wise Game Booster (dennoch, die sollten nicht laufen, wenn ein Eng-Eng Match läuft, vorher mal starten).

Hier und dort bekommt man alles im Griff damit auch Ergebnisse vergleichbar bleiben.

Dennoch, Du hast auch Recht!!

Zusammengenommen, es sind viele kleinere Beeinflussungsfaktoren, die dann doch Ergebnisse beeinflussen können.
Wenn aber Tester darauf achten, bei den eigenen Bedingungen einheitlich zu bleiben und auch Test-Bedingungen klar beschreiben, kann mit den Ergebnissen gearbeitet werden.

Ultimativ genau kann kein Test-Ergebnis auf alle möglichen Testkonstellationen drüber gestülpt werden.
Auch nicht bei einer Million Partien pro Engine. Aber tendenziell werden Unterschiede sehr gut erkannt und meist spiegeln die sich dann auch bei völlig anderen Testbedingungen wider.

Bei der Vielzahl der zur Verfügung stehenden Programmen, macht es auch Spaß folgendes zu tun.

So, wie beim Fußball vorgehen.
18 Engines ins Turnier und dann Hin- und Rückspiel mit Auf- und Abstieg.
Graham macht das vergleichbar so bei seinen kleineren Turnieren, ist immer spannend zu folgen.

Es muss also nicht ein genaues Ergebnis erzielt werden.
Das macht meines Erachtens schon lange keinen Sinn mehr.
Selbst die Nummer 100 der besten Engines liegt ca. 400 Elo über Magnus Carlsen.

Zuschauen ist aber nach wie vor sehr faszinierend!!

Auch interessant zu sehen, dass die Jim Ablett Versionen meist schneller sind.
Vergleiche mal Carp 3.01

Ab und an lasse ich auch mal dicke Turniere laufen.

Dann nehme ich Intel und AMD und meist laufen dann je 15 Cores pro Intel und AMD.
Laufen also 30 Partien gleichzeitig. Vorher schaue ich, dass ich die Geschwindigkeiten in Ghz ca. gleich einstelle.
Zum Justieren nehme ich eine Engine, die jetzt nicht gerade deutlich schneller auf AMD als auf Intel oder umgekehrt läuft.
Dann habe ich einen schönen Mix!

Aber so Freak mäßig bin ich gar nicht mehr unterwegs.
Habe mehr Spaß an kleinere Turniere, meist dann auch mit längeren Bedenkzeiten.
Bei mir läuft keine Partie unter 40 Züge in 20 Minuten, meist eher 40 Züge in 40 Minuten oder 60+6 nehme ich gern. So kann ich besser folgen beim Zusehen.

Viele Grüße
Frank

Ratinglisten heute ...
Da bin ich raus.
Wenn ich allein sehe, dass es von den TOP-100 alleine im Juli 2025 17 Updates gab.
Und nur wenige Programme immer und immer wieder zu sehen ist eher langweilig beim Zusehen.
Außerdem kommen immer mehr Programme dazu, die über 3200 Elo gehen, wenn Stockfish im Vergleich ca. bei 3650 Elo liegt.
Das ist ein Wahnsinn und viele davon spielen erfrischendes Schach, einige leider auch viel zu änlich.
Parent - - By Frank Quisinsky Date 2025-08-04 00:33 Edited 2025-08-04 00:48
Was auch Spaß macht ist bewusst Spielstärkeunterschiede einzubauen.
Also, nicht z. B. 12 Engines ins Turnier setzen, die alle 3550 Elo haben.
Ist eigentlich Quatsch!

Sondern, eher 3 davon, dann 3 mit 3450, 3 mit 3350, 3 mit 3250.
Dann die nehmen die gefallen, die Engine-Auswahl ist enorm.

Die kleinen 12er Turniere sind richtig geil zu verfolgen.

Mich fasziniert derzeit Meltdown ...
Eine sehr aggressive Engine die ca. bei 3150 Elo liegt.
Also ca. im Bereich Platz 100 - 120.

Irre Engine, einfach ein irres kleines Wunderwerk!

Die Ratinglisten informieren ja nach wie vor über die Spielstärken.

Auch lasse ich oft Thema-Turniere laufen.
Also, zu komplizierteren Eröffnungsvarianten, das mache ich eigentlich so am Liebsten.
Dann 18 Engines in ein Turnier berufen / auserwählen, auf Spielstärkeunterschiede achten, und ab geht die Luzi!

Auf meinen riesigen TV spiegeln und mit der Maus zwischen den Sendern, meine den Eng-Eng Matches
switchen und schauen wo gerade was spannendes läuft, von Abenteuer, Horror, Action oder Krimis ...alles dabei.
Laufen auch weniger Wiederholungen als im TV und ich muss meine Ohren nicht anstrengen, höre eh sehr schlecht.

Haribos in der Nähe und der Abend ist gerettet.
Ab und an dann aber mal schauen was es neues gibt oder ne richtige Doku die ablenkt.
Parent - - By Reinhold Stibi Date 2025-08-04 03:49 Edited 2025-08-04 04:31
In der Kürze liegt die Würze. Frank. deine langen Ausführungen sind sehr anstrengend zu lesen; du willst aber alles ganz
genau darlegen.

Kurt, deine Ausführungen kann ich nicht teilen. Es braucht doch gar nicht hinter dem Komma alles wissenschaftlich genau
ausgeführt werden. Wer hat denn die Zeit dafür und was bringt es letztlich.

Deine vielen angeführten Punkte sind doch letztlich unbedeutend. Ob jetzt eine Engine eine Teststellung mit einer gewissen
Einstellung 1 Sek. schneller oder später löst spielt doch keine Rolle. Wenn durch Wiederholung eines Tests von über 100 Stellungen
das das Ergebnis  nur 2 Stellungen abweicht ist das doch sehr genau und das trifft zu.

Für die taktische Stärke sind die Teststellungen schon sehr aussagekräftig; das besagt aber noch lange nichts über
die positionelle Stärke.

Das Ideal ist wenn die taktische und positionelle Stärke im Einklang sind. Eine Engine die nur taktisch stark ist
ist für mich uninteressant und auch umgekehrt.

Das Ideal hat Eduard Nemeth mit der Engine Rems M 091224 Einstellung MultiPV 4 gefunden. Mir ist keine Engine
bekannt,  auch die Neuesten, die besser wäre. Habe dazu ja schon öfters einige Bemerkungen gemacht.

Kurt, deine Bemerkung (Überschrift) "sind die Teststellungen für die Katz ? kann ich überhaupt nicht nachvollziehen.

Viele machen den Fehler dass sie nur die taktische Stärke durch Teststellungen  prüfen ohne auch die positionelle Spielstärke im praktischen Spiel.
Ich teste eine Engine auch durch tausende von Spielen im Internet auf PlayChess und denke dass das sehr aussagekräftig ist.
Parent - - By Frank Quisinsky Date 2025-08-04 05:13 Edited 2025-08-04 05:17
Dieses Thema hat Foren gefüllt lieber Reinhold und an Deinem Kommentaren
merke ich, dass Dir viel Wissen zu fehlen scheint. Lesen ... das hilft!
Außerdem geht es nicht um Teststellungen! Leider am Thema vorbei.
Parent - By Frank Quisinsky Date 2025-08-04 05:32 Edited 2025-08-04 05:36 Upvotes 1
Gebe Dir eine nette kleine Geschichte mit.
Glaube ich war 13 oder 14, besuchte Manfred in Düsseldorf (Schach Mädler).
Er war seinerzeit der Sponsor von unserem kleinen Verein in Neuss.

Manfred selbst war mit vielen Schachgroßmeistern befreundet. Zu Vlastimir
hatte er eine sehr tiefe Freundschaft, er war oft in seinem Laden.

Stellungen, das war meine erste Lehrstunde, direkt bei Vlastimir Hort.
Er ist leider vor kurzer Zeit verstorben.

Er saß an einem gerade neu herausgekommenen Mephisto München Brett
und analysierte eine Partie. Ich sah ihm zu und er fragte mich was ich
spielen würde. Für mich war die Sache klar, hätte intuitiv meinen auserwählten
Zug gemacht. Er war sehr überrascht und meinte es wäre der richtige Zug
gewesen, er habe diesen verflixten Zug einfach nicht gesehen.

Nun, war ich der bessere Schachspieler ...natürlich nicht.
Aber er meinte zu Manfred, das wäre generell das Problem.
Die Elo zu halten, immer alles sehen zu müssen beschäftigte Vlastimir.
Er war an diesem Tag am Hadern mit sich selbst. Aber er beeindruckte
mich sehr mit seinen Ausführungen, ich wurde zum großen "Hort" Fan.
Parent - - By Max Siegfried Date 2025-08-04 10:14 Upvotes 1
Solange eine Engine nicht in der Lage ist alle 50 Teststellungen aus der Top Chess Engines Testsuite 2025 zu lösen, gibt es noch massig Arbeit an Stockfish und den speziellen (Analyse)engines.
Die Ergebnisse lassen sich wunderbar vergleichen.
Es wird Zeit für mindestens eine neue (Analyse)engine.
Parent - By Andreas Mader Date 2025-08-06 11:08
Max Siegfried schrieb:

Solange eine Engine nicht in der Lage ist alle 50 Teststellungen aus der Top Chess Engines Testsuite 2025 zu lösen, gibt es noch massig Arbeit an Stockfish und den speziellen (Analyse)engines.
Die Ergebnisse lassen sich wunderbar vergleichen.
Es wird Zeit für mindestens eine neue (Analyse)engine.


Und wenn ein Programm alle Stellungen löst, gibt es den nächsten Stellungstest 20xx mit dem Hinweis, dass es noch massig Arbeit gibt - vor allem, wenn die Lösungen in wahnsinnig langen Zeiten wie einer knappen Minute gefunden werden.
Parent - - By Volker Pittlik Date 2025-08-04 09:33
Hast Du quantifizierte Angaben darüber, wie stark sich die verschiedenen von Dir genannten Einflussfaktoren auswirken? Es wird vermutlich nicht darauf hinauslaufen, dass irgendein Crafty von Neunzehnhundertdunnemals unter bestimmten Bedingungen gegen Stockfish Überlegenheit zeigt.

Gruss

Volker
Parent - - By Kurt Utzinger Date 2025-08-04 12:03
Volker Pittlik schrieb:

Hast Du quantifizierte Angaben darüber, wie stark sich die verschiedenen von Dir genannten Einflussfaktoren auswirken? Es wird vermutlich nicht darauf hinauslaufen, dass irgendein Crafty von Neunzehnhundertdunnemals unter bestimmten Bedingungen gegen Stockfish Überlegenheit zeigt.

Gruss
Volker


Hallo Volker

Nein, das habe ich nicht notiert, sondern mir jeweils nur stichwortartig für Engine X oder Y die spürbaren zeitlichen Lösungsunterschiede bei unterschiedlichen - und erstaunlicherweise auch gleichen - Bedingungen notiert oder verinnerlicht. Auffällig waren jedoch die Unterschiede zu erkennen

- ob Hashtables gelöscht/nicht gelöscht wurden
- die Schachsoftware jeweils neu gestartet wurde oder eben nicht

Und wenige Male ist es gar vorgekommen, dass die zeitlichen Lösungsunterschiede nach einem Windows-Neustart und Neustart der Software unerklärlich unterschiedlich ausgefallen sind. Ich glaube, unter anderem war es mit Rems M-091224 Rand Op MPV=4, bmi2 auf AMD Ryzen 7 6800 H, wo die durchschnittliche Lösungszeit (immer mehrere Versuche) bei einer Stellung 74 Sek. betrug, im besten Fall nur 9 Sek (!!), im schlechtesten Fall 182 Sek (3 Min 2 Sek.) und das wie gesagt unter gleichen Bedingungen (Windows und Software neu gestartet, Hashtables gelöscht).

Vergessen zu erwähnen habe ich, dass die geringsten Unterschiede unter jeglichen Bedingungen beim automatischen Ablauf einer Testuite unter Fritz passieren, wenn man jeweils das Gesamtergebnis und nicht die einzelnen Lösungszeiten betrachtet und miteinander vergleicht. Aber von dieser speziellen Testmethode kann ich nicht profitieren, wenn ich eine mir in einer GM- oder sonstigen Partie vorkommende Stellung mit verschiedenen Programmen testen will. Natürlich gehe ich mit anderen Usern einig, welche die Meinung vertreten "Hans wie Heiri" oder es spielt doch kaum eine Rolle, ob die Engine die Lösung beispielsweise in 3 oder 7 Sekunden gefunden hat.

Gruss
Kurt


Parent - - By Lothar Jung Date 2025-08-04 12:30
Für die relative Einschätzung von Engines ist m.E. das laufende TCEC-Turnier der 8 besten Engines sehr gut geeignet.

https://tcec-chess.com/

Bei der 50er Suite sträuben sich mir bei einer Reihe von Stellungen die Haare.
Statistisch ist das ohnehin ohne Relevanz.
Dabei noch die Lösungszeiten in Betracht zu ziehen, ist, wie Kurt dargelegt hat, von vielen Faktoren abhängig und macht keinen Sinn.
Ohnehin sind die neueren Zusammenstellungen weit überwiegend taktischer Art.
Parent - - By Max Siegfried Date 2025-08-04 19:58
Lothar Jung schrieb:

Bei der 50er Suite sträuben sich mir bei einer Reihe von Stellungen die Haare.
Dabei noch die Lösungszeiten in Betracht zu ziehen, ist, wie Kurt dargelegt hat, von vielen Faktoren abhängig und macht keinen Sinn.


Wieso denn das? Die Stellungen sind nicht zu schwer. Mit der richtigen Engine + optimal eingestellten Parametern + sehr sehr vielen CPU Kernen + sehr viel Bedenkzeit + 7-Steiner und schon löst die Engine 50 von 50 dieser Teststellungen.

Spätestens dann werden die Lösungszeiten interessant, da mindestens eine Engine, besser 2 oder mehr die komplette Testsuite lösen.
Parent - - By Tommy Tulpe Date 2025-08-05 17:09
Geschätzter Apple-Max,
darf ich mir die Frage erlauben, ob du die Parameter vor dem Test so einstellen, kannst, dass automatisiert alle 5o Stellungen gelöst werden oder ob du zu jeder Stellung die Parameter so einstellen kannst, dass die Stellung gelöst wird? Das ist ein gravierender, fundamentaler Unterschied.

Es grüßt dich herzlich, Ulrich
Parent - - By Max Siegfried Date 2025-08-06 00:43
Tommy Tulpe schrieb:

Geschätzter Apple-Max,
darf ich mir die Frage erlauben, ob du die Parameter vor dem Test so einstellen, kannst, dass automatisiert alle 5o Stellungen gelöst werden oder ob du zu jeder Stellung die Parameter so einstellen kannst, dass die Stellung gelöst wird? Das ist ein gravierender, fundamentaler Unterschied.

Es grüßt dich herzlich, Ulrich


Hierbei kommt es ganz auf die Frage an, wie man gelöst definiert.
1.Alle Lösungszüge finden
2.Richtig bewerten z.B. +... anstatt 0.00
3.Perfekt bewerten z.B. vollständige Variante + Matt in 40

Von daher wird auch weiterhin getestet, wenn es eine schafft, 1. alle 50 Stellungen in einem Rutsch zu lösen.

Man war ich vorgestern froh, als ich zufällig MultiPV = 256 für die Analyse einer Super Großmeister Partie verwendet hatte.
Die ersten fünf Züge waren alle 0.00 und alle anderen waren deutlich schlechter.
Ich habe nicht schlecht gestaunt, als nach längerer Zeit der sechste beste Zug auf Platz 1 gelandet ist mit +0.56.
Das hätte die Engine mit nur einer Hauptvariante oder mit Multi PV = 3 oder 4 nie gefunden.

Ich weiß nicht, ob ich zu jeder einzelnen Stellung die Parameter jedes Mal aufs Neue so individuell anpassen kann, dass diese von der Engine gelöst wird. Hierbei würde das Testen ewig dauern.

Damit automatisiert alle 50 Stellungen gelöst werden und zwar in einem Rutsch braucht man definitiv Monster Hardware +7 Steiner. Die Testsuite ist nicht umsonst extra so schwer.
Damit meine ich nicht nur sehr schnelle CPU Kerne, sondern auch möglichst viele CPU Kerne.
Einen Apple M5 MAX mit 20 CPU Kernen sehe ich als das absolute Minimum an. Meine Hardware mit null zehn Kernen ist dafür nicht nur viel zu schwach, sondern bietet auch viel zu wenige Optimierungsmöglichkeiten.
Das besondere an der Testsuite ist, dass die Engine manchmal extrem tief rechnen muss und manchmal extrem breit und manchmal darf sie kein Pruning/Abschneiden (deshalb Full Depth Threads) verwenden und manchmal hilft nur MCTS und manchmal muss sie nur merken, dass die Stellung geradezu nach einem Matt Angriff schreit und dann würde sie die Lösung in wenigen Sekunden finden und manches ist nur mit zusätzlicher Hilfe der 7-Steiner TB zu lösen und manchmal ist es ein Mix davon.
Sie besteht sozusagen aus Tal, Capablanca, Petrosjan Stellungen. https://github.com/amchess/ShashChess
Sie deckt sozusagen alles ab.

Nachfolgendes könnte helfen:
Nodes/second  CPU / Memory  Cores/Threads  Extension  Member  OS
906.449.028  2x AMD EPYC 9965 768Gb DDR5 6400  768threads  avx2  Cingoz  L
Hier habt ihr genug CPU Power und gleichzeitig genug Kerne für die passenden Optimierungen.
Fragt euch mal wie viele CPU Kerne ihr verwenden würdet für:
Threads =
MCTS Threads =
Full Depth Threads =
+ MultiPV =

Danach müsste man noch das Finetuning machen:
-MCTS Multi MinVisits = 5 weiter erhöhen
-MCTS Multi Strategy = 20 weiter erhöhen
Weiß jemand zufällig, ob diese beiden Sachen das gleiche bedeuten wie bei bei Rems: Random Op. Plies = 10 und Random Op. Score = 20?

Wir können zumindest jetzt schon die einzelnen Parameter so einstellen, dass die meisten Lösungszüge gefunden werden.
Parent - By Reinhold Stibi Date 2025-08-06 03:58 Edited 2025-08-06 04:09 Upvotes 2
Das ist doch reine Theorie und bringt für eine Engine keine Leistungssteigerung.

Für jede Stellung eine andere Einstellung der Parameter ist doch Quatsch und besagt für die
Qualität einer Engine nichts.

Eine Engine muss mit einer Einstellung die Lösungen finden und nicht mit Unterschiedlichen.

Stellungen die so nie in der Praxis vorkommen haben keinen Wert und haben mit gutem Schach
nichts zu tun und sind nur wertloses Theoriegehabe das für Schach und die  Menschen nichts bringt.
Parent - By Tommy Tulpe Date 2025-08-06 10:43
Also wenn man die Einstellungen der Engine immer wieder ändern soll, schwindet mein Interesse hier gegen null.
Die Engine ist in meinen Augen gut, wenn sie eine hohe Lösungsquote erbringt beim Testen auf einen Rutsch.
"Matt in 31" oder ähnliches muss natürlich nicht sein, aber aber ein deutlicher Unterschied des ersten Zugs (= Lösungszugs) gegenüber den anderen.
Parent - By Frank Quisinsky Date 2025-08-04 12:49
Hatte die zwei Tools erwähnt von Wise.
Hat im Grunde den gleichen Effekt wie "Clear Hash".
Bei den neueren Programmen gehst Du auf die Suche nach dieser UCI-Option.

Bei den moderneren OS spielt das auch keine wesentliche Rolle mehr.

Was ich heute bei Windows 11 aber nicht mehr mache.
Alle Cores nutzen, also z. B. schalte ich Hyperthreading bei Intel ab.
Habe ich 16 Cores, nutze ich maximal 15 davon.
Was alles so im Hintergrund läuft ist ein Thema.
Selbst wenn Du beginnst die Dienste vom OS zu optimieren, läuft zu viel im Hintergrund.
Meist schalte ich Internet einfach ab wenn Eng-Eng läuft.
Parent - By Volker Pittlik Date 2025-08-04 15:24
Hoi Kurt,

Kurt Utzinger schrieb:


<code>... Rems M-091224 Rand Op MPV=4, bmi2 auf AMD Ryzen 7 6800 H, wo die durchschnittliche Lösungszeit (immer mehrere Versuche) bei einer Stellung 74 Sek. betrug, im besten Fall nur 9 Sek (!!), im schlechtesten Fall 182 Sek ...

die geringsten Unterschiede unter jeglichen Bedingungen beim automatischen Ablauf einer Testuite unter Fritz passieren, wenn man jeweils das Gesamtergebnis und nicht die einzelnen Lösungszeiten betrachtet ...


</code>


Falls die grossen Lösungszeitunterschiede nur bei einer Engine auftreten, könnte dies auch auf einen Fehler in dieser Engine hindeuten. Es könnte jemand etwas am Code geändert haben und ungewollt einen unerwünschten Seiteneffekt erzeugt haben, der an ganz anderer Stelle im Programm zu einem fehlerhaften Verhalten führt. Dass trotzdem die gewünschte Änderung des sonstigen Programmverhaltens auch eingetreten ist, schliesst die erste Möglichkeit nicht aus. Sowas im Code zu finden ist nicht einfach.

Dass es bei der Gesamtbetrachtung eines automatisierten Testlaufs zu geringeren Schwankung kommt, könnte auch darauf hindeuten, dass eventuell in einzelnen Programmen unbeabsichtigt Fehler eingebaut wurde.

Gruss Volker
Parent - By Frank Quisinsky Date 2025-08-04 12:30 Edited 2025-08-04 12:43
Hallo Volker,

ich habe mich ja viele Jahre mit Ratinglisten und den Themen beschäftigt, habe natürlich das eine oder andere festgestellt und ja auch hinreichend darüber informiert.
Aber ist das heute im NN Zeitalter noch von Bedeutung? Ich denke viele Erkenntnisse sind für die Mülltonne.

Wenn bei NN Engines eine Verdoppelung der Geschwindigkeit, gerade mal 15 Elo bringt, bei den ganz starken NN Engines sind es gar noch weniger,
was bringt dann 5-10% bei einem schnelleren Kompile oder AVX512 im Vergleich zu BMI2 ... die Frage ist leicht zu beantworten. Einige beobachten das hier völlig
richtig, dass die schnelslte Hardware kaum noch etwas bringt.

Das habe ich mir zuletzt angesehen.
Echt krass!

Die Zeiten wo große Hashtabellen ein Endspiel richtig boosten können, sind mithin durch NN auch vorbei.

Wenn nun aber z. B. eine NN mit ca. 3400 Elo gegen die stärksten HCEs spielt, ist der Zuwachs größer als 10-15 Elo
wenn z. B. die Bedenkezeit einseitig verdoppelt wird, um die doppelte Hardwareleistung zu simulieren. Echt krass! Dann wäre eine Verdoppelung der Hardwarleistung
gar zwischen 25-30 Elo anstatt unter 15 Elo.

NN gegen NN auf sehr hohem Elo Niveau ... das macht fast keinen Sinn mehr.

Crafty ist das Thema!
Wenn Crafty bei ca. 2700 Elo liegt, für solche Engines eine Verdoppelung der Bedenkzeit noch ca. 40-50 Elo bringt, spielen die Beeinflussungsfaktoren natürlich
eine viel größere Rolle.

Ein paar Beispiele:
Bei Crafty selbst gemessen dass 5-Steiner im Vergleich zu 4 Steiner knapp 20 Elo bringt.
Bei Fruit (sehr endspielstark) waren es 5 Elo im Vergleich!

Beim Hash-Booster schaut es nicht sehr viel anders aus. Bringt bei Crafty mehr als bei Fruit bei ca. gleicher Elo.
Nur durch sämtliche Optimierungen, die bei Crafty durchaus denkbar sind, gegen Stockfish wird Crafty weniger als den Hauch einer Chance habe.
Selbst nicht gegen die letzte HCE Stockfisch Version, die schon bei ca. 3300 - 3325 Elo lag.

Wie dem auch ist, Crafty ist ein geiles Programm und faszierte so viele Computerschach-Begeisterte.
So fasziert mich Spark mit seinen 2750 Elo immer noch, wie auch Wasp 4.50 ... die letzte HCE oder Xiphos, Hiarcs.
Die alten Booot 6.4 und 6.5 Version sind geil (völlig anderes Programm als heute mit NN).

Finde interessant was Fabien in TalkChess geschrieben hat, wie er eine Engine heute aufbauen wird.
Denke die ganze Fachwelt war scharf darauf zu hören wie Fabien es lösen wird. Fast so wie der Weiss Ansatz.
Der optimiert und optimiert an HCE rum, mit sehr viel Erfolg und denkt sich ... wenn ich das mal gemacht habe setzte in ein kleines Netz
drauf um zu boosten. Bei dem Weiss Programmierer vermute ich, dass es seine Denke ist. Bei Fabien wusste ich es schon.

Viele Grüße
Frank
Parent - - By Andreas Mader Date 2025-08-04 16:57
Ich weiß nicht mehr, welches der erste kommerzielle Schachcomputer war, der Hashtabellen verwendet hat (Mephisto Amsterdam?), aber schon damals gab es Beschwerden, dass sich Ergebnisse von Stellungstests nicht immer reproduzieren lassen, weil die aktuelle Befüllung der Tabellen Einfluss auf die Berechnung genommen hat. Ossi Weiner hat das ganze als "systemimmanent" bezeichnet, was damals von vielen Enthusiasten nicht akzeptiert wurde, die sich ganz einfach nur reproduzierbare Ergebnisse gewünscht haben.

Das, was du beschreibst, ist die Weiterentwicklung seit damals. Es sind noch wesentlich mehr Faktoren dazugekommen, die ein Ergebnis beeinflussen und auf die man unmöglich alle gleichzeitig Einfluss haben kann. Vor allen Dingen nicht, wenn Teststellungen automatisch abgearbeitet werden und sich der Einfluss des Menschen hauptsächlich darauf beschränkt, die Parameter einzugeben und das Ergebnis auszulesen. Bei den kargen Sekunden (wenn überhaupt) an Bedenkzeit, die man in der heutigen hektischen Zeit den Programmen noch gönnt, um sich an Stellungen zu versuchen, werden kleinere Einflüsse noch potenziert, was das Ergebnis noch einmal unzuverlässiger macht.

Deshalb lautet meine persönliche Antwort auf deine Frage: Nein, die ganze Testarbeit bringt nicht wirklich etwas. Nicht nur, weil so viele Parameter Einfluss auf das Ergebnis haben, sondern auch, weil sich ganz allgemein mit Teststellungen kein vernünftiges Ergebnis einer Spielstärkebestimmung erreichen lässt.
Parent - - By Kurt Utzinger Date 2025-08-04 17:20
Andreas Mader schrieb:

Ich weiß nicht mehr, welches der erste kommerzielle Schachcomputer war, der Hashtabellen verwendet hat (Mephisto Amsterdam?), aber schon damals gab es Beschwerden, dass sich Ergebnisse von Stellungstests nicht immer reproduzieren lassen, weil die aktuelle Befüllung der Tabellen Einfluss auf die Berechnung genommen hat. Ossi Weiner hat das ganze als "systemimmanent" bezeichnet, was damals von vielen Enthusiasten nicht akzeptiert wurde, die sich ganz einfach nur reproduzierbare Ergebnisse gewünscht haben.

Das, was du beschreibst, ist die Weiterentwicklung seit damals. Es sind noch wesentlich mehr Faktoren dazugekommen, die ein Ergebnis beeinflussen und auf die man unmöglich alle gleichzeitig Einfluss haben kann. Vor allen Dingen nicht, wenn Teststellungen automatisch abgearbeitet werden und sich der Einfluss des Menschen hauptsächlich darauf beschränkt, die Parameter einzugeben und das Ergebnis auszulesen. Bei den kargen Sekunden (wenn überhaupt) an Bedenkzeit, die man in der heutigen hektischen Zeit den Programmen noch gönnt, um sich an Stellungen zu versuchen, werden kleinere Einflüsse noch potenziert, was das Ergebnis noch einmal unzuverlässiger macht.

Deshalb lautet meine persönliche Antwort auf deine Frage: Nein, die ganze Testarbeit bringt nicht wirklich etwas. Nicht nur, weil so viele Parameter Einfluss auf das Ergebnis haben, sondern auch, weil sich ganz allgemein mit Teststellungen kein vernünftiges Ergebnis einer Spielstärkebestimmung erreichen lässt.


Hallo Andreas
Du hast die heutige Situation sehr gut beschrieben und im Prinzip meine Aussagen untermauert,  dass sich beim Testen fast nichts mehr reproduzieren lässt und aus verschiedenen Gründen selten die gleichen Ergebnisse ausgegeben werden. Und ja, ich stimme dir zu: die ganze Testarbeit bringt nicht wirklich etwas. Einen Stärkevergleich bringt wohl nur noch das Spielen von wahnsinnig vielen Partien, notwendig angesichts des Umstandes, dass eine sehr hohe Zahl von Partien mit Remis endet. Ich habe ja schon in früheren Postings darauf hingewiesen, dass alle bisherigen Testsuiten nicht aussagekräftig sind. Das wird insbesondere dadurch untermauert, dass Stockfish praktisch bei allen Testsuiten im Vergleich zu den "Top-Test-Engines" miserabel abschneidet. Sobald aber Partien gespielt werden, findet man Stockfish fast ausnahmslos immer an der Spitze oder in den ersten Rängen. Damit ist eigentlich alles gesagt.
Gruss
Kurt
Parent - - By Peter Martan Date 2025-08-04 18:18 Edited 2025-08-04 18:32
Wie kommst du auf die Idee, statistische Belastbarkeit wäre nur für Eng-Eng-Matches gefragt?
Natürlich musst du Zufallsschwankungen in Kauf nehmen und im Ergebnis berücksichtigen, sogar, wenn du nur single thread testest und natürlich schwanken die Lösungszeiten einzelner Stelllungen, je mehr sie an Lösungs (-Hardware-) zeit brauchen, umso mehr.

Von jeder einzelnen Stellung, die du nicht nur single thread misst (und das nützt dir bei Lc0 natürlich auch nichts), brauchst du so viele Vergleiche, bis du eine verlässliche error bar hast, nicht nur 3x, wenn du einmal 10", einmal 35" und einmal 60" time to solution hast, ist es natürlich immer noch purer Zufall, ob der Mittelwert bei mehr Versuchen immer noch 35 ist, und wie groß die Abweichung im Schnitt ist, weißt du erst nach so vielen Versuchen, bis du eine relevante Verteilungskurve hast.

EloStatTS weist dir für jede Engine oder jedes Setting, das du mit einer bestimmten Hardware- TC über eine bestimmte Suite hast laufen lassen, eine error bar aus, die mit jedem weiteren Run um das kleiner wird, was die Vergleichszahlen steigen. Z.B. eine Liste von 100 Engines anhand von 100 Stellungen gibt ca. 10.000 Matches her, das sind lauter Einzelvergleiche Engine für Engine und Stellung für Stellung, und die genauen Lösungszeiten werden nach relevanten Vergleichs- Indices in WDL- Punkte umgerechnet, just wie beim game playing.
Bei Partien sagst du ja auch nicht schon nach 1x1-0, 1x0-1 und 1 Remis, die Engines sind sicher genau gleich stark, so what? Für statistische relevante Vergleiche brauchst du genug Stellungen und genug Messungen, weil einmal eine Engine 5 Stellungen mehr gelöst hat als eine andere, sagt das noch weniger, als es die genaueren Zeitvergleiche sagen, und die schaut man bei den meisten "Stellungstests" ja überhaupt nicht an, weil man meint, die Vorgabe einer einzelnen Hardware- TC würde genügen. Und dann nimmt man noch möglichst ausschließlich solche Stellungen, die möglichst weit von dem entfernt sind, was die Engines, je mehr sie auf time to depth ausgelegt sind, selbst aufs Brett bringen würden, und wundert sich, dass genau mit diesen Stellungen die Lösungszeiten umso mehr schwanken und umso mehr von der Hardware- TC und dem MultiPV- Modus abhängig sind.
Mit MEA kann man ein bisschen an der Berücksichtigung der genauen time to solution sparen, wenn man dafür die Punkte für multiple Lösungen gut verteilt und entsprechend viele Stellungen halt auch dementsprechend gut zur Hardware- Zeit passend wählt. Aber erst recht muss man dann die statistischen Mindestanforderungen durch genug Stellungen mit genug vergleichbaren Lösungszahlen relativ zum Teilnehmerfeld und der Hardware- TC berücksichtigen.
So what?
Parent - - By Kurt Utzinger Date 2025-08-04 18:54 Edited 2025-08-04 19:07
Peter Martan schrieb:

Wie kommst du auf die Idee, statistische Belastbarkeit wäre nur für Eng-Eng-Matches gefragt?
Natürlich musst du Zufallsschwankungen in Kauf nehmen und im Ergebnis berücksichtigen, sogar, wenn du nur single thread testest und natürlich schwanken die Lösungszeiten einzelner Stelllungen, je mehr sie an Lösungs (-Hardware-) zeit brauchen, umso mehr.

Von jeder einzelnen Stellung, die du nicht nur single thread misst (und das nützt dir bei Lc0 natürlich auch nichts), brauchst du so viele Vergleiche, bis du eine verlässliche error bar hast, nicht nur 3x, wenn du einmal 10", einmal 35" und einmal 60" time to solution hast, ist es natürlich immer noch purer Zufall, ob der Mittelwert bei mehr Versuchen immer noch 35 ist, und wie groß die Abweichung im Schnitt ist, weißt du erst nach so vielen Versuchen, bis du eine relevante Verteilungskurve hast.

EloStatTS weist dir für jede Engine oder jedes Setting, das du mit einer bestimmten Hardware- TC über eine bestimmte Suite hast laufen lassen, eine error bar aus, die mit jedem weiteren Run um das kleiner wird, was die Vergleichszahlen steigen. Z.B. eine Liste von 100 Engines anhand von 100 Stellungen gibt ca. 10.000 Matches her, das sind lauter Einzelvergleiche Engine für Engine und Stellung für Stellung, und die genauen Lösungszeiten werden nach relevanten Vergleichs- Indices in WDL- Punkte umgerechnet, just wie beim game playing.
Bei Partien sagst du ja auch nicht schon nach 1x1-0, 1x0-1 und 1 Remis, die Engines sind sicher genau gleich stark, so what? Für statistische relevante Vergleiche brauchst du genug Stellungen und genug Messungen, weil einmal eine Engine 5 Stellungen mehr gelöst hat als eine andere, sagt das noch weniger, als es die genaueren Zeitvergleiche sagen, und die schaut man bei den meisten "Stellungstests" ja überhaupt nicht an, weil man meint, die Vorgabe einer einzelnen Hardware- TC würde genügen. Und dann nimmt man noch möglichst ausschließlich solche Stellungen, die möglichst weit von dem entfernt sind, was die Engines, je mehr sie auf time to depth ausgelegt sind, selbst aufs Brett bringen würden, und wundert sich, dass genau mit diesen Stellungen die Lösungszeiten umso mehr schwanken und umso mehr von der Hardware- TC und dem MultiPV- Modus abhängig sind.
Mit MEA kann man ein bisschen an der Berücksichtigung der genauen time to solution sparen, wenn man dafür die Punkte für multiple Lösungen gut verteilt und entsprechend viele Stellungen halt auch dementsprechend gut zur Hardware- Zeit passend wählt. Aber erst recht muss man dann die statistischen Mindestanforderungen durch genug Stellungen mit genug vergleichbaren Lösungszahlen relativ zum Teilnehmerfeld und der Hardware- TC berücksichtigen.
So what?


Hallo Peter
Mit deinen Ausführungen bestätigst du eigentlich nur meine These, dass es mit den wenigen Testsuites und viel zu wenigen Stellungen nicht möglich ist, einen brauchbaren Vergleich der Spielstärke von Engines zu ermitteln. Partien werden überall zu Tausenden gespielt. Und da prinzipiell jeder Zug in einer Schachpartie als Stellungstest verstanden werden kann, ist klar, dass die Resultate von vielen Partien unsagbar besser dazu dienen, die Spielstärke von Engines abzubilden. Stephan Pohl lässt grüssen ...
Gruss
Kurt
Parent - - By Peter Martan Date 2025-08-04 19:14 Edited 2025-08-04 19:19
Kurt Utzinger schrieb:

ist klar, dass die Resultate von vielen Partien unsagbar besser dazu dienen, die Spielstärke von Engines abzubilden.

Naja, Kurt, wenn du die Resultate von vielen Partien (auf eine bestimmte Art gespielt, heißt zwischen einem bestimmten Teilnehmerfeld mit bestimmten Eröffnungsstellungen und bestimmter Hardware- TC) einzig und allein als "Spielstärke" definierst, ist es irgendwie schon naheliegend, diese Spielstärke so (durch Ausspielen) abzubilden.
Bleibt die Frage offen, warum du dann überhaupt noch Stellungstests machst bzw. brauchst, wenn dir Spielstärke, wie sie dich interessiert, ohnehin in einem bestimmten Eng-Eng-Match 1:1 abgebildet wird.

Ich mach sie halt als Ergänzung bzw. Gegenstück, will ich genau das game playing- Ergebnis zweier Engines sehen, lasse ich sie natürlich auch gegeneinander spielen oder schaue in einer der vielen öffentlichen Listen nach, in denen ja, wenn's gute Listen sind, die Bedingungen, unter denen gespielt wird, genau eingegrenzt und angegeben werden. Wäre das so einfach und einheitlich, wie du jetzt des Vergleichs wegen tust, gäbe es nur eine einzige Liste und nicht so viele verschiedene, allein schon im Bereich der öffentlichen Betreiber solcher Listen.

Und wenn du schon Stellungstests auch machst, warum du dann an die nicht auch wenigstens die statistischen Mindestanforderungen stellst, die du beim game playing selbstverständlich findest, erschließt sich mir erst recht nicht. Schließlich kannst du dich auch beim eng-eng-match mit gerade mal so vielen Partien zwischen 2 Gegnern zufrieden geben, bis du halbwegs aus der für die Hardware- TC passende error bar raus kommst und dich bei Allem, was damit noch nicht statistisch unanzweifelbar geklärt ist, mit "gleich stark" zufrieden geben
Parent - - By Andreas Mader Date 2025-08-04 20:43
Stellungstests wurden ursprünglich eingeführt, weil es den meisten zu mühsam war, so viele Partien zu spielen, dass die Ergebnisse eine statistische Relevanz haben und man eine schnelle erste Einschätzung der Spielstärke haben wollte. Außerdem hat es Spaß gemacht, "seinen" Programmen zuzusehen und ihre Performance zu beobachten. Das ist abhängig von der Testsuite mehr oder weniger gut gelungen, war aber immer nur eine sehr grobe Einschätzung. Mittlerweile sind solche Stellungstests für manche der heilige Gral und das erste und einzige Mittel, um Spielstärken festzustellen, wobei selbst von kleinsten Zeitdifferenzen bereits auf große Unterschiede geschlossen wird.

Es gibt keinen offiziellen menschlichen Bewerb, bei dem ausgewählte Stellungen gelöst werden müssen und die Anzahl und/oder verbrauchte Zeit in eine offizielle ELO-Zahl umgerechnet wird - oder gar, dass diese Zahl für die ELO-Zahl wichtiger wäre als gespielte Partien. So etwas gibt es nur für Teilbereiche wie z.B. Problemschach oder Computerschach. Niemand würde auf die Idee kommen, einen Problemschach-Score in eine ELO-Zahl umrechnen zu wollen, die bei "normalen" Turnieren herangezogen wird, aber beim Computerschach wird so etwas mit einer Selbstverständlichkeit gemacht, dass es mich immer wieder erstaunt.
Parent - - By Peter Martan Date 2025-08-04 21:03 Edited 2025-08-04 21:55
Andreas Mader schrieb:

Niemand würde auf die Idee kommen, einen Problemschach-Score in eine ELO-Zahl umrechnen zu wollen, die bei "normalen" Turnieren herangezogen wird, aber beim Computerschach wird so etwas mit einer Selbstverständlichkeit gemacht, dass es mich immer wieder erstaunt.

Was mich immer wieder erstaunt ist, dass man jeden Furz, den ein Schachprogramm gegen ein anderes ebensolches ausspielt (und es gibt mittlerweile halt schon ziemlich viele ziemlich ähnlich starke, von denen die allermeisten einfach den Spielstärke- Bereich von Menschen bei Weitem übersteigen, sodass ein direkter Vergleich praktisch keinen Sinn mehr macht ohne entsprechende Zeit- und oder Figurenvorgaben) unbedingt in Centi- Elo (richtiger Centi- Celo) messen muss, damit der "Spielstärke"- Vergleich irgendeine Bedeutung gewinnt, sich bei halbwegs Realitäts- naher Einschätzung von dem, was Menschen gegeneinander spielen und dem von Engines im Klaren ist, dass die Elo von Engines sowieso schon lang absolut nichts mehr mit denen von Engines zu tun haben, man aber bei Stellungstests sofort die Nerven wegschmeißt, wenn jemand die auch in Elo umrechnet, selbst wenn man dazu nichts anderes macht, als die Punkte, die das eine Programm gegen das andere an wins, draws, losses pro Stellung einfährt, genau so wie die Punkte im game playing zählt. Programme wie EloStatTS machen das, manuell geht's auch leicht, man muss nur die Lösungstabellen so neben- oder übereinander legen, dass man pro Stellung sieht, welche von welcher Engine (im einen Run) besser behandelt wird, was gelöst oder nicht gelöst allein angeht und vielleicht noch in Hinblick auf die genauen Lösungszeiten. In bestimmten Bereichen (und sei's nur die Gesamt- TC, um die kommt ja als Zeitmessung sowieso nicht herum) schneller als win, in diesen Grenzen gleich schnell oder gleichermaßen gar nicht als Remis, Gegenstück von win beim selben Enginepaar als loss. Diese Zahlen dann in z.B. ELOStat (vom selben Autor wie EloStatTS Frank Schubert) eingeben und fertig.
Dass das auch wieder Celo für sich sind, bedarf keiner weiteren Erklärung, dass man es nicht machen muss, ist auch hinlänglich bekannt, was es wen stört, der die das keine heilige Kuh aus Elo macht, und sich allein deshalb persönlich beleidigt fühlt, weil man Elo nicht entweihen darf,  frag' ich mich jedes Mal wieder, ja, man kann sagen, es erstaunt mich auch immer wieder

Warum ich es schätze (das Programm EloStatTS und die WDL- Umrechnung head to head Eng-Eng und Stellung für Stellung), liegt einfach daran, dass das dann auch gleich aufgrund dieser WDL- Messung die dem game playing äquivalenten error bars für die Performance- Unterschiede ausrechnet und das eben nicht anhand irgendwelcher Summen- Unterschiede der ganzen Suiten, sondern anhand jeder einzelnen Stellung im direkten Vergleich Engine zu Engine, Run zu Run und im Listenvergleich mit jedem neuen Run wieder Stellung für Stellung und Engine für Engine gespeicherten alten Run.
Was man beim ausschließlichen Betrachten der Lösungszahlen einzelner Runs allein immer wieder übersieht: es sind einerseits auch nicht immer wieder dieselben Stellungen, die nicht gelöst werden, (das aber noch eher, wenn's für die Hardware- TC und den Engine- Pool einfach zu "schwere" oder sonst irgendwie ungeeignete Stellungen sind) aber welche von welcher Engine schon (und in welcher Zeit) und von welcher nicht, das schwankt noch zusätzlich um das alles, was Kurt da jetzt mal wieder festgestellt hat, es haben nicht einfach nur die Suiten ihre statistische Schwankungen, ja, schon auch, aber die sind viel weniger relevant als die die der einzelnen Stellungen und einzelnen Engines (oder Runs) im direkten Vergleich.

Übrigens macht MEA das (die Umrechnung in Elo), auch so ähnlich ,wenngleich auch ohne Ansicht der genauen Lösungszeiten und ohne jeden neuen Run jeder Engine  mit jedem alten zu vergleichen, dafür aber anhand von mehr Stellungen mit mehreren zu bewertenden Lösungen pro Stellung und verschieden hohen Punkten pro Stellung und Lösung, und weder Leute wie Frank Schubert, der wie gesagt auch ELOStat programmiert hat und das Gemeinsame und die Unterschiede der EloStatTS- Elo und der Elostat- Elo wird kennen und beurteilen können, noch Leute wie Ferdinand Mosca und Ed Schröder (beide an MEA beteiligt) sind im Computerschach ganz unbekannt und irrelevant, finde ich halt.

Man muss das alles nicht so machen, man muss es nicht wichtig und nicht interessant finden, was man schachlich- sachlich dagegen Vernünftiges einzuwenden hätte, ist eine andere Frage. Und die statistische Relevanz der Ergebnisse, die man bekommt, wenn man denn überhaupt welche zu bekommen versucht, wird man irgendwie beachten müssen, sonst soll man das mit den Stellungstests, wenn überhaupt, Stellung für Stellung machen. Dann kann man auf solche Spitzfindigkeiten wie Elo erst recht gut verzichten (man könnte trotzdem und erst recht Elo anhand von WDL- Kriterien für die einzelne Stellung berechnen, bei Menschen kann man ja auch mit jeder einzelnen neuen Partie gegen jeden einzelnen beliebigen Gegner, der eine Wertung hat, neue Elo angeben), dafür kann man single thread testen oder mit beliebig vielen runs multi thread, außer der time to solution noch time to depth, time to eval, time to best line, Output von mehr als dem ersten Halbzug allein beurteilen, Forward- Backward relativ zum Start mit leerem Hash vergleichen, der Phantasie sind keine Grenzen gesetzt. Wenn man mehr als die einzelne Stellung allein in Suiten laufen lassen will, sollte man sich über die statistische Relevanz dessen, was heraus kommt, halt auch ein bisschen Gedanken machen, sonst hat man nicht nur das Problem, sich von Kritikern sagen lassen zu müssen, die Stellungen, die man interessant findet, seien zu praxisfremd (soll heutzutage meistens heißen zu weit weg von dem, was Engines gegeneinander selbst aufs Brett bringen, selbst wenn die Eröffnungsstellungen, von denen ausgespielt wird, auch überhaupt nicht von Engines selbst gespielt würden aus der Grundstellung), zu uninteressant, zu was auch immer, sondern man muss sich auch noch zu Recht sagen lassen, dass sie (die Summen- Ergebnisse von Suiten) keinerlei Reproduzierbarkeit an und für sich haben und mehr Zufall sind als sonst was.
Just my two cents
Parent - - By Kurt Utzinger Date 2025-08-05 11:07
Lieber Peter

Sorry, aber einmal mehr musste ich eine KI bitten, deine mir unverständlichen Sätze in eine lesbare Form zu bringen. Das ist dabei herausgekommen:

Gruss
Kurt

Was mich immer wieder wundert: Wenn ein Schachprogramm gegen ein anderes spielt, wird jeder kleinste Unterschied gleich in Centi-Elo (eigentlich Centi-Celo) gemessen, als wäre das unbedingt nötig. Dabei sind die meisten dieser Programme heute so stark, dass ein Vergleich mit menschlicher Spielstärke kaum noch Sinn ergibt – zumindest nicht ohne spezielle Vorgaben wie Zeitbegrenzungen oder Figurennachteile. Trotzdem besteht bei Engine-Tests oft der Zwang, alles in Elo-Werten auszudrücken. Dabei haben diese Werte bei Computern längst kaum noch etwas mit menschlichem Elo zu tun.

Besonders absurd wird es, wenn man sich über Umrechnungen bei Stellungstests aufregt, obwohl man dabei einfach die Ergebnisse aus Gewinn, Remis und Niederlage zählt – genauso wie man es beim Spielen tut. Programme wie EloStatTS machen das automatisch, und auch manuell geht es ganz einfach: Man legt Lösungstabellen nebeneinander und schaut für jede Stellung, welche Engine sie besser behandelt hat. Man beachtet, ob sie gelöst wurde, wie schnell, und ob es klare Unterschiede gibt. Diese Daten lassen sich dann bequem z.B. mit ELOStat (von Frank Schubert) analysieren.

Dass dabei auch wieder Celo-Werte entstehen, erklärt sich von selbst. Natürlich muss man es nicht tun, und wer sich durch diese Anwendung der Elo-Messung persönlich angegriffen fühlt, wirkt auf mich regelmäßig überempfindlich.

Warum ich diese Methode schätze – also die WDL-Umrechnung (Win-Draw-Loss) und den Vergleich Engine-gegen-Engine, Stellung für Stellung – liegt daran, dass man damit direkt die Leistungsunterschiede sichtbar machen kann. Und zwar nicht pauschal über eine ganze Testreihe, sondern genau für jede einzelne Stellung und jeden Durchgang. So lassen sich auch Fehlerbereiche besser abschätzen.

Was viele übersehen: Nicht bei jedem Test scheitern die Engines an denselben Stellungen. Manche sind einfach zu schwer oder ungeeignet für bestimmte Hardware oder Software. Und selbst bei bekannten Schwankungen in den Suites (Testreihen) sind die Unterschiede bei einzelnen Engines und einzelnen Stellungen viel entscheidender.

MEA berechnet Elo übrigens auch, wenn auch etwas anders. Es berücksichtigt mehrere Lösungen pro Stellung und vergibt unterschiedlich viele Punkte. Dabei werden nicht wie bei EloStatTS die genauen Lösungszeiten verglichen oder jeder neue Run mit alten abgeglichen. Dennoch ist MEA ein ernstzunehmendes Werkzeug, und die Entwickler – wie Frank Schubert, Ferdinand Mosca oder Ed Schröder – sind in der Szene keine Unbekannten.

Natürlich muss man solche Methoden nicht verwenden. Ob man sie sinnvoll oder interessant findet, ist eine andere Frage. Wer aber überhaupt aussagekräftige Testergebnisse haben möchte, muss über statistische Relevanz nachdenken. Am besten testet man Stellung für Stellung – dann braucht man nicht unbedingt Elo-Werte, obwohl man sie trotzdem berechnen könnte (so wie man auch bei Menschen nach jedem Spiel eine neue Wertung ermitteln kann).

Und was ist sonst noch möglich? Single-Thread-Tests, Multi-Thread-Tests, Zeit bis zur Lösung, Tiefe der Analyse, Bewertung, beste Varianten – man kann sich richtig austoben. Doch wer ganze Stellungssammlungen verwendet, muss bedenken, wie aussagekräftig die Ergebnisse tatsächlich sind. Sonst wird man zu Recht kritisiert, etwa weil die Stellungen zu unrealistisch oder nicht reproduzierbar sind.

Nur meine bescheidene Meinung.

Parent - - By Peter Martan Date 2025-08-05 11:13
Kurt Utzinger schrieb:

Sorry, aber einmal mehr musste ich eine KI bitten, deine mir unverständlichen Sätze in eine lesbare Form zu bringen.

Ein Mann muss tun, was ein Mann tun muss
Parent - - By Kurt Utzinger Date 2025-08-05 12:02
Peter Martan schrieb:

Kurt Utzinger schrieb:

Sorry, aber einmal mehr musste ich eine KI bitten, deine mir unverständlichen Sätze in eine lesbare Form zu bringen.

Ein Mann muss tun, was ein Mann tun muss



Hallo Peter
Ich weiss zum Glück, dass du mir nicht böse bist. Ich finde es einfach wahnsinnig schade, deine sachkompetenten Beiträge nicht geniessen zu können. Wenn du schon EloStat erwähnst, habe ich nirgends eine 64-bit Version gefunden. Und ohne 32-bit Rechner ist man da aufgeschmissen.
Gruss
Kurt
Parent - - By Peter Martan Date 2025-08-05 12:05 Edited 2025-08-05 12:08
Ja, leider gibt's den Download auf der Glarean- site nicht mehr, ich kann dir aber die Binary per Mail schicken, wenn du willst.
Hier mal wieder der Link zum .pdf von Frank Schubert über die Funktionsweise des Tools:

https://glarean-magazin.ch/wp-content/uploads/2017/03/L%C3%B6sung-eines-alten-Problems-Frank-Schubert-1.pdf
Parent - - By Kurt Utzinger Date 2025-08-05 12:27
Peter Martan schrieb:

Ja, leider gibt's den Download auf der Glarean- site nicht mehr, ich kann dir aber die Binary per Mail schicken, wenn du willst.
Hier mal wieder der Link zum .pdf von Frank Schubert über die Funktionsweise des Tools:

<a class='ura' href='https://glarean-magazin.ch/wp-content/uploads/2017/03/L%C3%B6sung-eines-alten-Problems-Frank-Schubert-1.pdf'>https://glarean-magazin.ch/wp-content/uploads/2017/03/L%C3%B6sung-eines-alten-Problems-Frank-Schubert-1.pdf</a>


Danke Peter
Kann ich diese Datei mit 7-zip entpacken? Und ist diese ist 64-bit? Die 32-bit Version habe ich.
Gruss
Kurt
Parent - - By Peter Martan Date 2025-08-05 12:29 Edited 2025-08-05 13:01
7zip ja, 64bit ja.
Und die Liesmich.rtf hab' ich auch noch nachgereicht, die ich zuvor vergessen hatte.

Edit: die kommt aus irgendeinem Grund nicht durch zu deiner Adresse, hab's schon ein zweites Mal probiert und sie diesmal auch ge7zippt

Ein letzter Versuch noch als .txt
Parent - - By Kurt Utzinger Date 2025-08-05 13:04
Peter Martan schrieb:

7zip ja, 64bit ja.
Und die Liesmich.rtf hab' ich auch noch nachgereicht, die ich zuvor vergessen hatte.

Edit: die kommt aus irgendeinem Grund nicht durch zu deiner Adresse, hab's schon ein zweites Mal probiert und sie diesmal auch ge7zippt

Ein letzter Versuch noch als .txt


Hallo Peter
Habe kürzlich eine meiner Mail-Adressen gelöscht. Ich sende dir eine Mail mit gültiger Adresse.
Gruss
Kurt
Parent - By Peter Martan Date 2025-08-05 13:07
Aber die erste Mail mit der Binary ist anscheinend durchgekommen, nein?

Ich warte jetzt mal auf dein Mail.
Parent - - By Olaf Jenkner Date 2025-08-05 11:53
Es furzt nicht.
Parent - By Peter Martan Date 2025-08-05 12:00
Nicht in Kurt's GPT- Fassung, das war wahrscheinlich gegen die Würde der KI.
Überhaupt finde ich, dass viel von der ursprünglichen Würze verloren gegangen ist
Parent - By Frank Quisinsky Date 2025-08-04 18:37 Edited 2025-08-04 19:02
Hallo Andreas,

der erste Schachcomputer mit Hash-Tabellen war der Fidelity Mach 2.
Das funktionierte allerdings anfangs nicht wie gewollt und wurde korrigiert.
Daher die Modelle bis Mach 2c.

Sehe das auch so, wie von Dir beschrieben.
Neural-Network hat Grenzen bzw. Bereiche wo dann gar, je nach Stellungstyp, auch Dinge nicht gefunden werden.
Daher macht z. B. auch der Einsatz von gut optimierten HCE Engines Sinn.
Sicherlich auch bei Teststellungen.
Verurteile das nicht wenn sich Personen für Test-Sets interessieren, auch dieser Bereich ist nicht uninteressant.
Wäre aber nichts für mich, zwei verschiedene Welten und Spielstärke lässt sich mit Teststellungen nicht messen.

Es sei denn es gibt ein Testverfahren wo z. B. positionelle Schwächen bei den Bauernstrukturen abgetestet wird.
Meist gibt es nur irgend etwas, wo ein bestmöglicher Zug gefunden werden soll. Zu Themen wo im Eng-Eng
Zweikampf Entscheidungen erzwungen werden gibt es wenig bis nichts. Wer sollte das mit unserem Wissen auch
erstellen? Sind ja hier keine Großmeister mit 3500 Elo unterwegs, vor allen gibt es die auch nicht.

Die wirklichen Hardcore Programmierer, der Zeit vor Neural Network, fanden zwar zunächst das Trainieren von Netzen
auch reizvoll, fummeln aber lieber selbst an der Suche. Denen fehlt auf Dauer eher was. Der jüngeren
Generation an Programmierern offensichtlich eher nicht. So mein Eindruck nach vielen Kommentaren die mich
dazu erreichten. Vielleicht liegt im guten Mix das Geheimnis? Suche unterteilen, Teils Dinge ausklammern als
alles zu automatisieren?!

Schaue ich bei starken Engines zu, spielt sich alles stark überwiegend im späten Mitteilspiel ab.
Es geht bei den Partien meist nur noch um Bauernstrukturen. Gibt es Löcher, wie fabriziere ich die beim Gegner?
Wie kann ich schlechte Bauernstrukturen produzieren um um langfristig Endspielvorteile zu generieren.
Und das alles dann aus dem Training von Netzen, prima!

Schach kann so einfach sein wenn es nicht so kompliziert wäre.

Viele Grüße
Frank
Up Topic Hauptforen / CSS-Forum / Schachtests für die Katz?

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill