div. Stellungstests: Überblick, URLs und Senf :-)

By Michael Scheidl Date 2011-12-27 10:48

Es gibt zahlreiche, z.T. schon seit Jahren bekannte Testsuites, also Sammlungen von Testpositionen mit bestimmten Lösungszügen. Hier eine subjektive Auswahl von mir besonders interessant scheinenden:

Test        von         n Pos.  URL
-------------------------------------------------------------------------
AH_Endgames A.Huerga      250   http://www.mediafire.com/?m6u7w3g4r9m1cu4
AH_Tactics  A.Huerga      250   http://www.mediafire.com/?0xfu5bh4zcwvoou
Arasan 13   J.Dart        175   http://arasanchess.org/testsuite.shtml
E-E-T       W.Eigenmann   100   http://glareanverlag.wordpress.com/2007/09/07/hundert-schach-endspiele/
GAT         M.Gurevich    154   http://ndersleben.de/w/stellungstest.htm
Irazoqui-13 E.Irazoqui     13   http://rybkaforum.net/cgi-bin/rybkaforum/topic_show.pl?pid=145378#pid145378
PET (*)     P.McKenzie     50   http://www.jakob.at/steffen/hossa/testsuites/pet.html
STS (1-13)  Swaminathan  1300   https://sites.google.com/site/strategictestsuite/download-all-epds-in-one-file
STS 14      Swaminathan   100   https://sites.google.com/site/strategictestsuite/queens-and-rooks-to-the-7th-rank
SwissTest4  W.Eigenmann    64   http://glareanverlag.wordpress.com/category/swiss-test/
Quicktest   M.Scheidl      24   http://members.aon.at/computerschach/quick/quick2.htm
                         ----
                         2480

*) zur PET-Nr. 44 sollte man folgende Lösungsalternativen zulassen:

1r6/Rp2rp2/1Pp2kp1/N1Pp3p/3Pp1nP/4P1P1/R4P2/6K1 w - - bm Nxb7 Rxb7; id "PET044: RRN vs RRN";

(zu den AH-Tests siehe auch http://talkchess.com/forum/viewtopic.php?t=41023 )

Man weiß, daß Stellungstests hinsichtlich einer allgemeinen Spielstärkebestimmung nicht besser als mehr oder weniger ungenau sein können, aber andererseits mitunter erstaunlich gute Näherungen für die Rangfolge der meisten getesteten Engines (nicht aller) erzielen konnten. Die Ergebnisqualität hängt von der Güte der Teststellungen selbst, nicht zuletzt von deren Anzahl, sowie geeigneten Testbedingungen und Auswertungsverfahren ab.

Das ganze war seinerzeit heiß umstritten, was insofern nicht schlecht ist da so eine gesunde Skepsis erhalten bleibt. M.a.W. man sollte selbst vom "optimalsten" Stellungstest keine Wunder erwarten. Allerdings sollte z.B. klar herauskommen, ob etwa eine bisher unbekannte Engine anscheinend in die Kategorie Stockfish bis Houdini, oder eher nur um Crafty herum gehört...

Um mich zu wiederholen: Ich glaube daß man derzeit, um Unterschiede deutlich erkennbar werden zu lassen, sehr viele Positionen auf sehr kurzer Zeit je Stellung testen sollte. Es bringt nichts wenn jede Engine tagelang rechnet und dann alle bis runter zum Dreißigsten 95%...99% gelöst haben. Mir würde idealerweise vorschweben, daß die Top-20 (max. Top-30) zwischen 20% und 80% mit (sehr) wenig Zeit, und vielleicht als zweiten Durchlauf 40%...95% mit etwas mehr Zeit lösen.

By Ingo Bauer Date 2011-12-27 10:58

[quote="Michael Scheidl"]
...
Man weiß, ...
[/quote]

Das ist wohl eine unzulässige Veralgemeinerung. Das einzige was in der Retrospektive richtig ist und somit aller Wahrscheinlichkeit auch für zukünftige Stellungstest gilt ist, was du mit Worten wie "Optimalstem, keine Wunder, bisher unbekannte Engine ..." ein wenig andeutest, das : Sie werden für bestehende Systeme gemacht und haben Probleme mit neuem. Stellungstests versagen früher oder später! (Es sei denn man bastelt ständig daran herum um sie anzupassen, aber das ist für einen Test eigentlich unwissenschaftlich).

Kurz: Es gibt keine Methode um Engines zuverlässig und schnell einzuordnen!

Gruß
Ingo

By Thomas Müller Date 2011-12-27 11:25

Hallo,

schöne Übersicht!
Es gibt noch 300 von Dann Corbit.
Jedenfalls hatte ich die 2010 mal irgendwo runtergeladen

300d.epd-bz2 heisst die datei.
Beim stöbern bin ich noch darüber gestolpert...
http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=314539&t=31431

gruß thomas

By Michael Scheidl Date 2011-12-27 12:09

Dort gehts um (frühe) Eröffnungsstellungen, sogar 2 x 300. Leider hat D.Corbit, wie ich den Postings entnehme, jeweils die Zugentscheidung aus einer tiefen Computeranalyse als "bm" gesetzt, der sich jeweils vom in praktischen Meisterpartien am häufigsten gewählten Zug unterscheidet.

Das ist zwar interessant, ist aber in dieser Form m.E. nicht sehr sinnvoll für automatische Tests verwendbar. Dafür hätte der vorwiegende menschliche Meisterzug als bm gesetzt werden müssen (bzw. mehrere Alternativen, falls fast gleichwertig). Dann könnte man zu einer Aussage gelangen, welche Engine die "menschlichsten" - nicht notwendigerweise tatsächlich besten - Eröffnungszüge aus eigener Kraft ermitteln kann.

Mein Enthusiasmus reicht leider nicht soweit, daß ich 600 Stellungen (je Engine!) manuell durchackern möchte.