Reinhold Stibi schrieb:
Der ursprüngliche Sinn, die Spielstärke durch einen Stellungstest zu ermitteln kann aber damit
nicht mehr erreicht werden.
Mit entsprechend kurzer TC schon. Drum hab ich ihn in den Sammlungen, bei denen mit very short TC und dafür entsprechend vielen Stellungen getiestet wird auch teilweise immer noch bzw. wieder drin. Das braucht dann natürlich außer Diskrimination, die man über das Abschneiden des Rechnens wieder bekommt, die Engines müssen dann halt "positionell" bewerten, sozusagen aus der "statischen Eval" heraus und wenn sie das nicht schaffen, weil's taktisch dann doch wieder zu schwer wird, fallen sie gegen diejenigen ab, die's können, dann braucht das hingegen auch wieder mehr Ausgleich an Sensitivität mit Stellungen, die bei dieser VSTC auch gelöst werden, also eine um das (die wachsende "Remisrate") größere Stelungsanzahl ("Partiezahl").
Das Wichtigste ist immer, dass die Stellungen single best move- Lösungen haben, dann ist der Rest (fast) nur mehr eine Frage von ausreichender Zahl, richtiger Hardware- TC und richtigem Engine- Pool, den man vergleicht.
Der "Schönheitspreis" geht dann natürlich nur an diejenigen Sammlungen, die noch dazu verschiedene Stellungsmuster in die Breite abbilden. Da war und ist der Eret immer noch das Paradebeispiel, diese Ordnung nach Motiven hat so richtig eigentlich nur der, da ist halt mit wachsender Engine- Spiestärke das Problem, dass strategische Muster, wie sie der Mensch sucht und ja eigentlich doch immer willkürlich sortiert, mit dem, was Engines unter Evaluieren immer weniger vom Rechnen trennen, weil das Rechnen einfach schon in Sekundenbruchteilen in die Tiefe geht, immer weniger zu tun hat. So gesehen sind die "strategischen" Stellungen, sofern sie es je waren, von ihrer taktischen Schwierigkeit nicht mehr trennbar. Oder anders: was für eine Engine wie "schwierig" ist, das hat mit dem, was der Mensch aus strategischen oder taktischen Gründen schwierig findet, nichts mehr zu tun. Da hat dann ein "strategisches Motiv" für die Engine einfach keine Bedeutung.
Mir ist hingegen bei der Auswahl (und auch der leichteren Kontrolle wegen bei der Ordnung in der
Suite) noch wichtig, dass Eröffnung (doch doch, die sollte schon auch drin sein) Mittel- und Endspiel je nach Schwierigkeit halbwegs gleichmäßig vertreten sind, wenn die Sammlung keine ist, bei der's ausschließlich auf taktische Schwierigkeit in Hinblick auf die Länge der TC ankommt.
Und natürlich sollten nicht zu viele zu Praxis- ferne Studien drin sein, aber ganz ohne die kommt man dann nicht aus, wenn man für hohe taktische Selektivität Stellungen braucht, die single best move sind und von den Engines, die man damit
testet, nicht in kurzer TC lösbar. Die Studien sind die Refugien für entsprechende Anzahl an selektiven wirklich schweren taktischen single best move- Stellungen, ob man sie praxisnahe oder nicht findet, ist ein Urteil, das der Mensch aus seiner subjektiven Sicht davon treffen muss, aber da hat man als Mensch wenigstens überhaupt noch etwas mitzureden und man hat das Urteil von Preisrichtern als Anhaltspunkt. Was für Engines "praxisnahe" ist, das steht neuerlich und erst recht auf einem ganz andern Blatt, Stichwort Anti- Engine- Puzzles, bei den Studien- Komponisten ein Ziel für sich mittlerweile, ein bisschen was von dieser Art sollte in einer Sammlung ruhig auch drin sein, damit man die Blechis überhaupt noch ein bisschen ärgern kann
Es gibt eben nicht nur eine Sammlung für alle Fragen, die man an verschiedene Teilaspekte von "Spielstärke" stellen und beantworten kann, es gibt ja auch nicht nur eine Art von Eng-Eng-Match. Ranking und Rating sind immer nur bedingt zwischen verschiedenen
Tests (wieder, bei Eng-Eng ebenso, die Auswahl der Eröffnungs-
Teststellungen ist da mittlerweile genau so eine Selektionsfrage und eigentlich ist es auch genau dieselbe Antwort: genug Partien mit genug verschiedenen Ausgangsstellungen für die "Elo- Spreizung" durch mehr Diskrimination und deren Kompensation an Senistivität, weil die error bar ja mit den 1:1- Paaren sonst wieder noch mehr steigt als mit den Remis) vergleichbar.
Wichtig ist, dass innerhalb des einzelnen
Tests die Ergebnisse reproduzierbar und statistisch belastbar sind.
Edit, edit, edit: Der Ausraster an Textlänge ist mir auch deshalb mal wieder passiert, weil ich deiner (tatsächlich ziemlich nassforschen) Forderung nach einer neuen
Suite schon ein bisschen eine Nachdenk- Anregung entgegen halten wollte, was da eigentlich, wollte man's ordentlich machen, für eine Arbeit drinsteckt.
Da hat mal wieder wer geschrieben vor einer Weile, die Stellungs
tests seien so beliebt, weil sie soviel einfacher abzuwickeln sind als die Matches, da hat man mal wieder gesehen, dass sich solche Statements einfach immer sofort selbst denunzieren als "nie probiert, immer nur gewettert dagegen weil immer schon lieber ahnungslos geblieben".
Nicht einmal die sinnvolle Auswertung ist dann noch soo einfach, was man da, selbst wenn man eine gute
Suite schon mal hat, noch alles falsch machen kann beim Aussuchen der Engines und der Hardware- TC, und dann vor allem auch noch beim Vergleichen und Bewerten der Ergebnisse, das wäre noch ein Kapitel für sich.
Mich freut nur dann auch immer wieder zu sehen, mit welcher Ahnungslosigkeit die Leute, die nichts von Stellungs
tests halten, dann aber auch an die Eng-Eng-Matches herangehen und meinen, man müsste da ja auch nur die Engines gegeneinander spielen lassen und lang genug warten, bis es genug Partien sind, und dann würde das schon automatisch passen von den Ergebnissen und ihrer Aussagekraft her. Schert man sich bei Eng-Eng-Matches nicht um die Auswahl der Eröffnungs-
Teststellungen in Hinblick auf die Zahl, der Partien, die man brauchen wird, nicht um die dazu passende Auswahl der Engines, die man miteinander vergleichen und gegeneinander spielen lassen will und nicht um die Hardware- TC, dann ist man beim Eng-Eng-Match zwar um das herumgekommen, was man sich bei den Stellungs
tests auch nicht antun will, die Ergebnisse sind aber dann noch mehr für den Kübel als die der Stellungs
tests, weil bei letzteren weiß man wenigstens, dass sie für sich stehen, bei den Eng-Eng-Matches ist der Bias, das wäre dann automatisch immer "overall playing strength" und die so gemessenen Elo wären die einzig wahren, das ist dann für mich immer wieder genau das:
Ja, schmeck's