Es gibt zahlreiche, z.T. schon seit Jahren bekannte Testsuites, also Sammlungen von Testpositionen mit bestimmten Lösungszügen. Hier eine subjektive Auswahl von mir besonders interessant scheinenden:
Test von n Pos. URL
-------------------------------------------------------------------------
AH_Endgames A.Huerga 250 http://www.mediafire.com/?m6u7w3g4r9m1cu4
AH_Tactics A.Huerga 250 http://www.mediafire.com/?0xfu5bh4zcwvoou
Arasan 13 J.Dart 175 http://arasanchess.org/testsuite.shtml
E-E-T W.Eigenmann 100 http://glareanverlag.wordpress.com/2007/09/07/hundert-schach-endspiele/
GAT M.Gurevich 154 http://ndersleben.de/w/stellungstest.htm
Irazoqui-13 E.Irazoqui 13 http://rybkaforum.net/cgi-bin/rybkaforum/topic_show.pl?pid=145378#pid145378
PET (*) P.McKenzie 50 http://www.jakob.at/steffen/hossa/testsuites/pet.html
STS (1-13) Swaminathan 1300 https://sites.google.com/site/strategictestsuite/download-all-epds-in-one-file
STS 14 Swaminathan 100 https://sites.google.com/site/strategictestsuite/queens-and-rooks-to-the-7th-rank
SwissTest4 W.Eigenmann 64 http://glareanverlag.wordpress.com/category/swiss-test/
Quicktest M.Scheidl 24 http://members.aon.at/computerschach/quick/quick2.htm
----
2480
*) zur PET-Nr. 44 sollte man folgende Lösungsalternativen zulassen:
1r6/Rp2rp2/1Pp2kp1/N1Pp3p/3Pp1nP/4P1P1/R4P2/6K1 w - - bm Nxb7 Rxb7; id "PET044: RRN vs RRN";
(zu den AH-Tests siehe auch
http://talkchess.com/forum/viewtopic.php?t=41023 )
Man weiß, daß Stellungstests hinsichtlich einer allgemeinen Spielstärkebestimmung nicht besser als
mehr oder weniger ungenau sein können, aber andererseits mitunter erstaunlich gute
Näherungen für die Rangfolge der meisten getesteten Engines (nicht aller) erzielen konnten. Die Ergebnisqualität hängt von der Güte der Teststellungen selbst, nicht zuletzt von deren Anzahl, sowie geeigneten Testbedingungen und Auswertungsverfahren ab.
Das ganze war seinerzeit heiß umstritten, was insofern nicht schlecht ist da so eine gesunde Skepsis erhalten bleibt. M.a.W. man sollte selbst vom "optimalsten" Stellungstest keine Wunder erwarten. Allerdings sollte z.B. klar herauskommen, ob etwa eine bisher unbekannte Engine anscheinend in die Kategorie Stockfish bis Houdini, oder eher nur um Crafty herum gehört...
Um mich zu wiederholen: Ich glaube daß man derzeit, um
Unterschiede deutlich erkennbar werden zu lassen, sehr viele Positionen auf sehr kurzer Zeit je Stellung testen sollte. Es bringt nichts wenn jede Engine tagelang rechnet und dann alle bis runter zum Dreißigsten 95%...99% gelöst haben. Mir würde idealerweise vorschweben, daß die Top-20 (max. Top-30) zwischen 20% und 80% mit (sehr) wenig Zeit, und vielleicht als zweiten Durchlauf 40%...95% mit etwas mehr Zeit lösen.