Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Stockfish Test Suite 2022 als Download :-)
- - By Max Siegfried Date 2022-10-15 16:50 Upvotes 1
https://www.mediafire.com/file/dg8q0qcf2ccstdl/Stockfish_Test_Suite_2022.pgn/file

Stockfish Test Suite 2021 + viele neue Suiten + weitere Stellungen = Viele Stellungen.

Diese Stellungen wurden überprüft, getestet usw. mit einem gigantischen Arbeitsaufwand.

Stellungen die Stockfish gelöst hat wurden entfernt.

Es bleiben 27 Stellungen übrig.
Von den 27 Stellungen hat Stockfish 0 Stellungen gelöst, trotz der 100000 Versuche pro Stellung die er zur Verfügung hatte.

Gearbeitet wurde mit einem MacBook Pro 16-Zoll M1 MAX. Selbstverständlich das Beste vom Besten.
-7-Steiner standen zur Verfügung
-sowie 32 GB RAM für Stockfish, was beim MacBook anscheinend kein Problem und keine sonstigen Nachteile darstellt und somit waren Beschränkungen auf 160 oder 320 oder 500 MB RAM nicht nötig.
-der RAM füllt sich auf dem MacBook, vor allem bei Stellungen die besonders stark auf 7-Steiner zugreifen, super extrem schnell.

------------------------------------------------

Mal schauen ob Stockfish es in den nächsten 1-2 Jahren schafft auch nur eine, mehrere oder alle 27 Stellungen bei einer Sekunde pro Stellung zu lösen.

Die Stockfish Test Suite 2022 ist eine extrem schwierige Test Suite für Stockfish.
Im Vergleich dazu ist die Stockfish Test Suite 2021 für Stockfish inzwischen nur noch (mittelschwer). Diese hat aber gefühlt 10x mehr Stellungen zum lösen. Hier sind auch LC0 und KomodoDragon gut im Rennen.
Bei Ceres habe ich keine Ahnung. Der läuft noch nicht auf dem MacBook.

Wer Lust hat der kann natürlich eine große Test Suite herstellen die gefühlt 10x größer ist (2500 Stellungen) oder
eine ganz große Test Suite herstellen mit 10000 Stellungen. Diese würde sich sehr gut eignen um wirklich alle Engines zu testen und beim erstellen dieser Test Suite kann man sich die Definitionen "zu leicht" und "zu schwer" sparen, da es hierbei offensichtlich um eine Sammlung von Teststellungen geht.

Für alle die jetzt über so eine universelle Test Suite nachdenken ein Beispiel zum starten:
-Man lädt alle im Internet verfügbaren Test Suites + ggf. einzelne Teststellungen herunter.
-Man fügt sie mit ChessBase 16 oder welchem Programm auch immer zusammen in z.B. eine PGN.
-Man startet die Dubletten Suche und entfernt automatisch die doppelt oder dreifach vorhandenen Stellungen so das diese nur einmal vorhanden sind.
-Jetzt hat man eine gigantisch große Test Suite und die halbe Arbeit ist bereits erledigt.
-Nun muss man nur noch überprüfen ob der jeweilige Lösungszug korrekt ist oder diesen umändern falls es einen besseren gibt, denn ein Matt in 2 ist besser als ein Matt in 10, welches besser ist als eine +20.00 Stellung, welche wiederum besser ist als eine +10.00 Stellung und auch eine +2.00 Stellung ist besser als eine +1.50 Stellung und diese ist besser als eine +1.00 Stellung und auch wenn es 2, 3 oder 10 Gewinnzüge gibt, zählt trotzdem nur der beste Zug.
-Danach ist die Test Suite zu gefühlt 99% fertig und ihr könnt selbst eure retro Engines testen.
Parent - - By Jörg Oster Date 2022-10-15 17:21 Upvotes 5
Max Siegfried schrieb:

...
Diese Stellungen wurden überprüft, getestet usw. mit einem gigantischen Arbeitsaufwand.


Der war gut! 
Parent - - By Walter Eigenmann Date 2022-10-15 18:21 Upvotes 6
.

Jede Arbeit, die man gratis für die Community leistet, ist aller Ehren wert - auch deine "Stockfish Testsuite".

Aber sorry: Diese sog. Stockfish-Testsuite (2021) und auch ihre nun auf 27 Stellungen eingedampfte Fassung 2022 ist kompletter Unfug.

Ein Stellungstest, der diesen Namen verdient, ist eben mehr als einfach ein paar wahllos hergenommene bekannte Suiten in einen Kübel zu schmeissen und daraus dann jene Aufgaben rauszugrabschen, deren Lösungen etwas länger als 5 Sekunden dauern.
Denn deiner sog. Stockfish-Testsuite (2021) fehlte leider von Anfang an: Die Ausgewogenheit der wichtigen Partiephasen Mittel-/Endspiel; der möglichst hohe Realitätsbezug; der einheitliche Schwierigkeitsgrad; und die möglichst breite Abdeckung der Schachmotive - um nur die wichtigsten paar Grundlagen einer kompakten und konsistenten Sammlung mit einiger Praxistauglichkeit zu nennen.

Schauen wir uns noch kurz die nun 27 verbliebenen aus den ursprünglich 238 Stellungen an:
- Die meisten ACT-Stellungen schrammen haarscharf am Märchenschach vorbei, so extrem realitätsfremd sind sie. Manche darunter sind ausserdem zu leicht, und einige haben Doppel- bzw. Mehrfachlösungen.
- Diese drei Punkte treffen auch auf die Hard-Talkchess-Aufgaben zu.
- Von den 27 Aufgaben verbleibt vielleicht noch eine Handvoll brauchbare - und die stammen vom ERET und von den CRACKERS...

Fazit: Die "Stockfish-Testsuite" lohnt leider die Aufmerksamkeit nicht, ihre schachliche Aussagekraft tendiert gegen null. Sie bietet bietet bestenfalls einen gewissen Spass-Faktor, aber eine ernstzunehmende Suite zum Engine-Testen zwecks Erkenntnisgewinn ist sie in keiner Hinsicht.

Nix für ungut: Walter (Der Miesmacher)

.
Parent - - By Peter Martan Date 2022-10-15 18:52 Edited 2022-10-15 19:23
Danke, dass du's ihm auch mal sagst, Walter, ich hatte es ja schon hin und wieder probiert

Zu vorletzt z.B. in diesem "Thread"

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=157525#pid157525
Parent - - By Reinhold Stibi Date 2022-10-16 05:32 Upvotes 3
Tatsache ist, das der gute alte ERET inzwischen zu leicht für den Test der jetzigen Engines ist.

Walter Eigenmann hatte doch jetzt wirklich viele Jahre Zeit einen neuen zeitgemäßen ERET
zu entwickeln. Er wäre doch dazu der Speziallist und die Computerschachfreunde würden es ihm sehr danken
und schätzen.

Der ursprüngliche Sinn, die Spielstärke durch einen Stellungstest zu ermitteln kann aber damit
nicht mehr erreicht werden. Das zeigen doch die Engines die bei Stellungstests ganz hervorragend sind
aber dann im praktischen Spiel deutlich abfallen.

Diese Engines sind in Wirklichkeit gar nicht optimal für die Analyse eines Spieles geeignet, da sie
wie die Verlustpartien zeigen, doch in der Taktik oder positionell einbrechen. Durch die sehr hohe
Rechentiefe sind die Übergänge zwischen Taktik und Positionell nicht stark abgegrenzt sondern fließend.

Die wirklichen sehr guten Analyse-Engines sind die Engines die bei Stellungstests ganz hervorragend
abschneiden und sich auch im praktischen Spiel bewähren.

Eine solche Engines ist z.B. ShashChess 25 mit der Einstellung GoldDigger.
Parent - - By Walter Eigenmann Date 2022-10-16 07:48 Upvotes 4
Reinhold Stibi schrieb:
Tatsache ist, das der gute alte ERET inzwischen zu leicht für den Test der jetzigen Engines ist.
Walter Eigenmann hatte doch jetzt wirklich viele Jahre Zeit einen neuen zeitgemäßen ERET zu entwickeln.
Was fällt dir ein, hier von Leuten Frondienst einzufordern!
Ich bitte um ein Minimum Anstand.

Ausserdem sei mal wieder Dieter Nuhr empfohlen:
https://www.youtube.com/watch?v=j9HtuqmrnY4&ab_channel=RobertPalmerVEVO

.
Parent - - By Reinhold Stibi Date 2022-10-16 09:19 Edited 2022-10-16 09:22 Upvotes 2
Niemand fordert Frondienst ein; es war nur eine Anregung; alles ist freiwillig.

Deine Antwort ist unanständig und unsachlich. Wenn man Andere angeht könnte man auch ein klein wenig einstecken.
Parent - - By Hauke Lutz Date 2022-10-16 09:34 Upvotes 3
Reinhold Stibi schrieb:

Walter Eigenmann hatte doch jetzt wirklich viele Jahre Zeit einen neuen zeitgemäßen ERET
zu entwickeln.

Ein Hoch auf deinen Altersstarrsinn.
Für mich vollkommen verständlich, dass so eine Aussage nicht auf Gegenliebe stößt...
Parent - By Rainer Neuhäusler Date 2022-10-16 19:14 Upvotes 2
Hauke Lutz schrieb:

Reinhold Stibi schrieb:

Walter Eigenmann hatte doch jetzt wirklich viele Jahre Zeit einen neuen zeitgemäßen ERET
zu entwickeln.

Für mich vollkommen verständlich, dass so eine Aussage nicht auf Gegenliebe stößt...

Wer mit ORANG-UTAN oder OCHSENFROSCH eröffnet, darf sich nicht wundern wenn kein GIUOCO PIANISSIMO daraus wird 
Parent - By Peter Martan Date 2022-10-16 09:41 Edited 2022-10-16 10:31
Reinhold Stibi schrieb:

Der ursprüngliche Sinn, die Spielstärke durch einen Stellungstest zu ermitteln kann aber damit
nicht mehr erreicht werden.

Mit entsprechend kurzer TC schon. Drum hab ich ihn in den Sammlungen, bei denen mit very short TC und dafür entsprechend vielen Stellungen getiestet wird auch teilweise immer noch bzw. wieder drin. Das braucht dann natürlich außer Diskrimination, die man über das Abschneiden des Rechnens wieder bekommt, die Engines müssen dann halt "positionell" bewerten, sozusagen aus der "statischen Eval" heraus und wenn sie das nicht schaffen, weil's taktisch dann doch wieder zu schwer wird, fallen sie gegen diejenigen ab, die's können, dann braucht das hingegen auch wieder mehr Ausgleich an Sensitivität mit Stellungen, die bei dieser VSTC auch gelöst werden, also eine um das (die wachsende "Remisrate") größere Stelungsanzahl ("Partiezahl").

Das Wichtigste ist immer, dass die Stellungen single best move- Lösungen haben, dann ist der Rest (fast) nur mehr eine Frage von ausreichender Zahl, richtiger Hardware- TC und richtigem Engine- Pool, den man vergleicht.
Der "Schönheitspreis" geht dann natürlich nur an diejenigen Sammlungen, die noch dazu verschiedene Stellungsmuster in die Breite abbilden. Da war und ist der Eret immer noch das Paradebeispiel, diese Ordnung nach Motiven hat so richtig eigentlich nur der, da ist halt mit wachsender Engine- Spiestärke das Problem, dass strategische Muster, wie sie der Mensch sucht und ja eigentlich doch immer willkürlich sortiert, mit dem, was Engines unter Evaluieren immer weniger vom Rechnen trennen, weil das Rechnen einfach schon in Sekundenbruchteilen in die Tiefe geht, immer weniger zu tun hat. So gesehen sind die "strategischen" Stellungen, sofern sie es je waren, von ihrer taktischen Schwierigkeit nicht mehr trennbar. Oder anders: was für eine Engine wie "schwierig" ist, das hat mit dem, was der Mensch aus strategischen oder taktischen Gründen schwierig findet, nichts mehr zu tun. Da hat dann ein "strategisches Motiv" für die Engine einfach keine Bedeutung.
Mir ist hingegen bei der Auswahl (und auch der leichteren Kontrolle wegen bei der Ordnung in der Suite) noch wichtig, dass Eröffnung (doch doch, die sollte schon auch drin sein) Mittel- und Endspiel je nach Schwierigkeit halbwegs gleichmäßig vertreten sind, wenn die Sammlung keine ist, bei der's ausschließlich auf taktische Schwierigkeit in Hinblick auf die Länge der TC ankommt.
Und natürlich sollten nicht zu viele zu Praxis- ferne Studien drin sein, aber ganz ohne die kommt man dann nicht aus, wenn man für hohe taktische Selektivität Stellungen braucht, die single best move sind und von den Engines, die man damit testet, nicht in kurzer TC lösbar. Die Studien sind die Refugien für entsprechende Anzahl an selektiven wirklich schweren taktischen single best move- Stellungen, ob man sie praxisnahe oder nicht findet, ist ein Urteil, das der Mensch aus seiner subjektiven Sicht davon treffen muss, aber da hat man als Mensch wenigstens überhaupt noch etwas mitzureden und man hat das Urteil von Preisrichtern als Anhaltspunkt. Was für Engines "praxisnahe" ist, das steht neuerlich und erst recht auf einem ganz andern Blatt, Stichwort Anti- Engine- Puzzles, bei den Studien- Komponisten ein Ziel für sich mittlerweile, ein bisschen was von dieser Art sollte in einer Sammlung ruhig auch drin sein, damit man die Blechis überhaupt noch ein bisschen ärgern kann

Es gibt eben nicht nur eine Sammlung für alle Fragen, die man an verschiedene Teilaspekte von "Spielstärke" stellen und beantworten kann, es gibt ja auch nicht nur eine Art von Eng-Eng-Match. Ranking und Rating sind immer nur bedingt zwischen verschiedenen Tests (wieder, bei Eng-Eng ebenso, die Auswahl der Eröffnungs- Teststellungen ist da mittlerweile genau so eine Selektionsfrage und eigentlich ist es auch genau dieselbe Antwort: genug Partien mit genug verschiedenen Ausgangsstellungen für die "Elo- Spreizung" durch mehr Diskrimination und deren Kompensation an Senistivität, weil die error bar ja mit den 1:1- Paaren sonst wieder noch mehr steigt als mit den Remis) vergleichbar.

Wichtig ist, dass innerhalb des einzelnen Tests die Ergebnisse reproduzierbar und statistisch belastbar sind.

Edit, edit, edit: Der Ausraster an Textlänge ist mir auch deshalb mal wieder passiert, weil ich deiner (tatsächlich ziemlich nassforschen) Forderung nach einer neuen Suite schon ein bisschen eine Nachdenk- Anregung entgegen halten wollte, was da eigentlich, wollte man's ordentlich machen, für eine Arbeit drinsteckt.

Da hat mal wieder wer geschrieben vor einer Weile, die Stellungstests seien so beliebt, weil sie soviel einfacher abzuwickeln sind als die Matches, da hat man mal wieder gesehen, dass sich solche Statements einfach immer sofort selbst denunzieren als "nie probiert, immer nur gewettert dagegen weil immer schon lieber ahnungslos geblieben".
Nicht einmal die sinnvolle Auswertung ist dann noch soo einfach, was man da, selbst wenn man eine gute Suite schon mal hat, noch alles falsch machen kann beim Aussuchen der Engines und der Hardware- TC, und dann vor allem auch noch beim Vergleichen und Bewerten der Ergebnisse, das wäre noch ein Kapitel für sich.

Mich freut nur dann auch immer wieder zu sehen, mit welcher Ahnungslosigkeit die Leute, die nichts von Stellungstests halten, dann aber auch an die Eng-Eng-Matches herangehen und meinen, man müsste da ja auch nur die Engines gegeneinander spielen lassen und lang genug warten, bis es genug Partien sind, und dann würde das schon automatisch passen von den Ergebnissen und ihrer Aussagekraft her. Schert man sich bei Eng-Eng-Matches nicht um die Auswahl der Eröffnungs- Teststellungen in Hinblick auf die Zahl, der Partien, die man brauchen wird, nicht um die dazu passende Auswahl der Engines, die man miteinander vergleichen und gegeneinander spielen lassen will und nicht um die Hardware- TC, dann ist man beim Eng-Eng-Match zwar um das herumgekommen, was man sich bei den Stellungstests auch nicht antun will, die Ergebnisse sind aber dann noch mehr für den Kübel als die der Stellungstests, weil bei letzteren weiß man wenigstens, dass sie für sich stehen, bei den Eng-Eng-Matches ist der Bias, das wäre dann automatisch immer "overall playing strength" und die so gemessenen Elo wären die einzig wahren, das ist dann für mich immer wieder genau das:
Ja, schmeck's
Up Topic Hauptforen / CSS-Forum / Stockfish Test Suite 2022 als Download :-)

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill