Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Test Suites
- - By Kurt Utzinger Date 2024-09-06 17:58 Upvotes 1
Welche Test-Suites machen heute überhaupt noch Sinn?
Meine Frage deshalb, weil m.E. alle Tests mit Stellungen,
die von jeder Engine im 5 - 10 Sekundenbereich gelöst werden
nichts mehr bringen.
Gruss
Kurt
Parent - - By Max Siegfried Date 2024-09-06 18:54
Kurt Utzinger schrieb:

<code>Welche Test-Suites machen heute überhaupt noch Sinn?
Meine Frage deshalb, weil m.E. alle Tests mit Stellungen,
die von jeder Engine im 5 - 10 Sekundenbereich gelöst werden
nichts mehr bringen.
Gruss
Kurt
</code>


Genau. Deshalb greife zu:
https://www.mediafire.com/file/cypaz2t0yanouob/Top_Chess_Engines_Testsuite_2024_v2.pgn/file
Parent - - By Kurt Utzinger Date 2024-09-06 19:52 Upvotes 1
Max Siegfried schrieb:

Kurt Utzinger schrieb:

<code>Welche Test-Suites machen heute überhaupt noch Sinn?
Meine Frage deshalb, weil m.E. alle Tests mit Stellungen,
die von jeder Engine im 5 - 10 Sekundenbereich gelöst werden
nichts mehr bringen.
Gruss
Kurt
</code>


Genau. Deshalb greife zu:
<a class='ura' href='https://www.mediafire.com/file/cypaz2t0yanouob/Top_Chess_Engines_Testsuite_2024_v2.pgn/file'>https://www.mediafire.com/file/cypaz2t0yanouob/Top_Chess_Engines_Testsuite_2024_v2.pgn/file</a>


Hallo Max
Besten Dank ... werde mir das anschauen.
Gruss
Kurt

Parent - - By Reinhold Stibi Date 2024-09-07 09:19
Hallo Kurt,

ich teste gerne mit dem HTC 114; der ist anspruchsvoll, beliebt und
eignet sich deshalb sehr gut für Vergleiche.
Der ERET ist inzwischen zu leicht.

Grüße   
Reinhold
Parent - - By Kurt Utzinger Date 2024-09-07 14:59
Reinhold Stibi schrieb:

Hallo Kurt,

ich teste gerne mit dem HTC 114; der ist anspruchsvoll, beliebt und
eignet sich deshalb sehr gut für Vergleiche.
Der ERET ist inzwischen zu leicht.

Grüße   
Reinhold


Hallo Reinhold
Auch dir danke für den Hinweis. Beide Testsuites (HTC 114 als auch TCE 2024 v2 enthalten Stellungen,
die ich in einer Testsuite nicht sehen will. Ich werde mir nun einen UTZ_HTC 114_TCE 2024_ENET 2024
Test aus drei Testsuites zusammenstellen, der meinen Ansprüchen genügt:
- keine völlig Partie irrelevanten Stellungen (Ausnahme: Aufbau einer Festung)
- keine Best-Move-Stellungen, wo auch der zweit- oder gar drittbeste Zug ebenfalls leicht gewinnt
- keine Stellungen, die heute von den Spitzenengines in 5 - 10 Sek. gelöst werden
Viele Grüsse
Kurt
Parent - By Tommy Tulpe Date 2024-09-07 15:46 Upvotes 2
Anspruchsvoller und sinnvoller Ansatz, Kurt.
Wenn du fertig bist mit der Erstellung und die Test Suites mit anderen teilst, habe ich großes Interesse.
Parent - By Reinhold Stibi Date 2024-09-07 16:44 Upvotes 1
Hallo Kurt,

das ist eine sehr gute Idee von dir.

Das gute bei Schach.de ist, dass doch auch sehr schöne Gewinnpartien zustande
kommen wenn auch nach sehr vielen Abläufen.
Siehe meine letzte Gewinnpartie dort wo ich eine weitere taktische Schwäche von
Lc0 aufdecken konnte.

Werde es, wenn ich Zeit habe, genauso machen wie du mit Ergänzung aus den eigenen
Gewinnpartien.

Viele Grüße
Reinhold
Parent - By Roland Riener Date 2024-09-07 17:01 Upvotes 2
Kurt Utzinger schrieb:

Zitat:
- keine völlig Partie irrelevanten Stellungen (Ausnahme: Aufbau einer Festung)


Es ist bekannt, dass du mit diesen nichts anzufangen weisst, also mit Problemschach und Studien. Mich interessiert aber im Gegensatz dazu die Performance der Engines bei Lösungen auf diesem Gebiet. " Not because they are easy, but because they are hard."

MfG Roland
Parent - - By Max Siegfried Date 2024-09-07 17:06 Upvotes 1
Kurt Utzinger schrieb:

Reinhold Stibi schrieb:

Hallo Kurt,

ich teste gerne mit dem HTC 114; der ist anspruchsvoll, beliebt und
eignet sich deshalb sehr gut für Vergleiche.
Der ERET ist inzwischen zu leicht.

Grüße   
Reinhold


<code>Hallo Reinhold
Auch dir danke für den Hinweis. Beide Testsuites (HTC 114 als auch TCE 2024 v2 enthalten Stellungen,
die ich in einer Testsuite nicht sehen will. Ich werde mir nun einen UTZ_HTC 114_TCE 2024_ENET 2024
Test aus drei Testsuites zusammenstellen, der meinen Ansprüchen genügt:
- keine völlig Partie irrelevanten Stellungen (Ausnahme: Aufbau einer Festung)
- keine Best-Move-Stellungen, wo auch der zweit- oder gar drittbeste Zug ebenfalls leicht gewinnt
- keine Stellungen, die heute von den Spitzenengines in 5 - 10 Sek. gelöst werden
Viele Grüsse
Kurt
</code>


Wie definierst du "nicht sehen will"? Geht mir und den anderen übrigens genauso.
Nur lautet die Frage: Warum glaubt man, dass man eine Wahl hätte?
Die Top Chess Engines Testsuite 2024 v2 enthält die Stellungen aus allen zum Zeitpunkt der Veröffentlichung online verfügbaren Testsuites.
Natürlich nur die Stellungen, die von Stockfish und LC0 innerhalb einer gewissen Zeit nicht gelöst worden sind.
Das bedeutet: Von gefühlt 10000 Teststellungen, bleiben nur "diese" übrig.
Mit anderen Worten: Die Top Engines lösen 99,99% aller Stellungen. Tendenz steigend.
Das dort mehrere Teststellungen aus HTC sind, welche du in einer Testsuite nicht haben willst, lässt sich nicht wirklich vermeiden.
Die anderen werden nunmal gelöst. Das lässt sich auch nicht vermeiden und wurden deshalb aussortiert.
Die v2 ist doch schon von der Anzahl der Stellungen her winzig.

Ich werde mir nun einen UTZ_HTC 114_TCE 2024_ENET 2024 Test aus drei Testsuites zusammenstellen, der meinen Ansprüchen genügt:)
Nur sind die nicht gelösten Teststellungen aus HTC und ENET bereits in der v2 drin. Somit erstellst du eigentlich eine Testsuite, aus nur einer Testsuite, die deinen Ansprüchen genügt:)

- keine völlig Partie irrelevanten Stellungen (Ausnahme: Aufbau einer Festung)
Naja einige Stellungen, welche die Kreativität einer Engine testen, sind auch nicht verkehrt und werden niemanden umbringen.
Beim menschlichen Schach geht es doch bei der gigantischen Mehrheit aller Spieler drunter und drüber.

- keine Best-Move-Stellungen, wo auch der zweit- oder gar drittbeste Zug ebenfalls leicht gewinnt
Diese sind ein Indikator dafür wie gut die Engine in der Partie den potentiell besten Zug auswählt, bei minimalen Bewertungsvorteil zum zweit oder drittbesten Zug.
Habe selbst vor einigen Monaten eine Partie gehabt: Endspiel mit Bauern auf beiden Seiten + Turm, Läufer, Springer gegen Dame 1-0. Brettstellung mit 5 spielbaren Gewinnzügen. 4 davon mit ungefähr +2,50 Bewertung. Mein Zug führte übrigens durch Mattdrohung in fünf, zu einem Damengewinn in zwei, was Stockfish mit +250 bewertete. Dafür brauchte Stockfish im Multi PV Modus etwas Zeit. Im single PV Modus hatte er den Zug nicht einmal wahrgenommen.
Ich habe dann die Stellungen testhalber gegen Stockfish gespielt und alle mit ausreichend Zeit ohne Probleme leicht gewonnen.
Best-Move-Stellungen sind doch nicht erst bei +4,90 vs +5,00 wichtig "oder bei +3,90 vs +4,00 oder bei +2,90 vs +3,00 oder bei +1,90 vs +2,00 oder bei +0,90 vs +1,00", sondern schon bei +0,00 vs +0,10 zumindest in der Praxis ab einem bestimmten Niveau.
10x hintereinander den Best-Move und schon steht man bei +1,00.

- keine Stellungen, die heute von den Spitzenengines in 5 - 10 Sek. gelöst werden
Das wird extrem problematisch.
Nehme die Top Chess Engines Testsuite 2024 v2 und lasse die Engines drauf los mit 10, 15, 30 Sekunden Bedenkzeit.
Da bleibt kaum was übrig.
Und was übrig bleibt, sind die Teststellungen, welche du nicht in einer Testsuite sehen möchtest. Das sind aber nur einige Stellungen und die anderen Teststellungen, welche du in einer Testsuite nicht sehen möchtest, wurden sogar gelöst, von daher passen sie eigentlich sogar rein.

Wenn du die Stellungen rausnimmst, welche inzwischen zu leicht sind und dann auch noch die Stellungen raus nimmst, welche du in einer Testsuite nicht sehen möchtest, dann bleiben 5 Teststellungen für deine neue Testsuite übrig, wenn es gut läuft    
...deshalb sollte man die v2 Testsuite auch mit 1 Sekunde Bedenkzeit pro Stellungen verwenden.
Parent - - By Kurt Utzinger Date 2024-09-07 20:19 Upvotes 1
Max Siegfried schrieb:

Kurt Utzinger schrieb:

Reinhold Stibi schrieb:

Hallo Kurt,

ich teste gerne mit dem HTC 114; der ist anspruchsvoll, beliebt und
eignet sich deshalb sehr gut für Vergleiche.
Der ERET ist inzwischen zu leicht.

Grüße   
Reinhold


<code>Hallo Reinhold
Auch dir danke für den Hinweis. Beide Testsuites (HTC 114 als auch TCE 2024 v2 enthalten Stellungen,
die ich in einer Testsuite nicht sehen will. Ich werde mir nun einen UTZ_HTC 114_TCE 2024_ENET 2024
Test aus drei Testsuites zusammenstellen, der meinen Ansprüchen genügt:
- keine völlig Partie irrelevanten Stellungen (Ausnahme: Aufbau einer Festung)
- keine Best-Move-Stellungen, wo auch der zweit- oder gar drittbeste Zug ebenfalls leicht gewinnt
- keine Stellungen, die heute von den Spitzenengines in 5 - 10 Sek. gelöst werden
Viele Grüsse
Kurt
</code>


Ich werde mir nun einen UTZ_HTC 114_TCE 2024_ENET 2024 Test aus drei Testsuites zusammenstellen, der meinen Ansprüchen genügt:)
Nur sind die nicht gelösten Teststellungen aus HTC und ENET bereits in der v2 drin. Somit erstellst du eigentlich eine Testsuite, aus nur einer Testsuite, die deinen Ansprüchen genügt:)


Da ich noch keine Zeit gefunden haben, die TCE 2024 v2 Tests anzuschauen, war mir das nicht bewusst.


Zitat:
Wenn du die Stellungen rausnimmst, welche inzwischen zu leicht sind und dann auch noch die Stellungen raus nimmst, welche du in einer Testsuite nicht sehen möchtest, dann bleiben 5 Teststellungen für deine neue Testsuite übrig, wenn es gut läuft    
...deshalb sollte man die v2 Testsuite auch mit 1 Sekunde Bedenkzeit pro Stellungen verwenden.


So schlimm wird es wohl nicht sein. Die TCE Testsuite scheint doch noch genügend
Stellungen zu enthalten, die nicht in 1 Sekunde gelöst werden.

Gruss
Kurt
Parent - By Lothar Jung Date 2024-09-10 19:01 Edited 2024-09-10 19:09 Upvotes 1
Hallo Kurt,

Deine Testsuite entstand vor dem Hintergrund der damaligen Engineentwicklung und der Hardware.
Mittlerweile ist sie - vor allem wegen der Steigerung der Rechentiefe -  nicht mehr aussagefähig.
Aber die Struktur stimmte!
Die Stellungen hatten jeweils ein bestimmtes Schachthema: Spielphase, Initiative, Damenangriff, Mattsetzung, Opfer, Freibauer, Zugzwang, Patt, Läuferpaar etc..
Dadurch entstand ein taktischer und positioneller Mehrwert bei der Beurteilung der Engines.
Dies wünsche ich mir für eine zukünfige ausgewogene Suite.
Es reicht nicht, einfach nicht gelöste oder schwierige Stellungen aufzuaddieren.

Grüße
Lothar
Parent - By Max Siegfried Date 2024-09-07 16:13
Reinhold Stibi schrieb:

Hallo Kurt,

ich teste gerne mit dem HTC 114; der ist anspruchsvoll, beliebt und
eignet sich deshalb sehr gut für Vergleiche.
Der ERET ist inzwischen zu leicht.

Grüße   
Reinhold


Beide Testsuites sind bekannterweise steinalt und zu leicht.
Die Engines sind zu stark.
Die Engines entwickeln sich zwar Elotechnisch langsam weiter, aber was das Schachverständnis auf dem Level angeht, geht es trotzdem sehr schnell voran.
Up Topic Hauptforen / CSS-Forum / Test Suites

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill