Intelligenztest für Engines

Not logged inCSS-Forum

Forum

CSS-Online

Help

Search

Login

CSS-Shop

Impressum

Datenschutz

Topic Hauptforen / CSS-Forum / Intelligenztest für Engines

1 2

By Peter Martan Date 2022-08-17 01:02

Übrigens, je mehr ich mit der neuen Sammlung teste, umso mehr komme ich zu dem Schluss, dass sie für eine größere Bandbreite an Engines, was die größeren Unterschiede an taktischer Spielstärke angeht, nicht so gut geeignet ist, wie die alte war.
Auch bei der musste man sich auf Engines beschränken, die wenigstens 20 mit halbwegs kurzer TC lösen konnten. Das ist aber mit der im Schnitt doch deutlich schwereren ein deutlich kleineres Feld.
Ich werde die neuen Stellungen nur zum Vergleich der Settings, Versionen und Netze der Spitzenreiter verwenden und für das größere Feld mit einem bunteren Engine- Mix weiter die alte.

By Peter Martan Date 2022-08-19 09:26 Edited 2022-08-19 09:39 Upvotes 1

Ok, die allgemeinen Kritikpunkte betrachtend von Denen, die hier mitgeschrieben haben, gehe ich davon aus, dass diese Suite als solche in Summe nicht wirklich positiv aufgenommen wird.
Tatsächlich sind wahrscheinlich relativ zu viele zu schwere Studien drin, von denen einige zu Praxis- fern sind, zumindest für das, was sich Computerschachspieler unter Spielpraxis vorstellen, wobei gerade dieses Kriterium auch nicht wirklich leicht zu beurteilen ist, und es bei Kompositionen in aller Regel ohnehin das Urteil von Fachleuten zur jeweiligen Studie gibt, meistens auch eines von Preisrichtern. Aber inwieweit das mit dem Urteil von Computerschach- Fans in Einklang zu bringen ist, das sehe ich schon bei mir selbst, wie sehr das dann doch ein teilweise sehr unterschiedlicher Zugang ist. Die Studien- Komponisten leiden unter dem, was die Engines da an zusätzlichem Publikum darstellen, wahrscheinlich am meisten, dafür hatte man halt die Unterstützung durch Engines und Datenbanken, die man früher nicht hatte, bei der Konstruktion neuer Puzzles.
Das Computerschach (die tbs- Datenbanken wahrscheinlich noch mehr als die spielenden Engines, die sind ja, was die Kompositionen angeht, in Wirklichkeit gar nicht so viel besser geworden, man muss sich nur ein paar anschauen, wie sie von Oldies teilweise immer sogar noch besser gelöst werden als von den heutigen NNUE- und NN- Spitzen, lustig auch, dass das Abdrehen der NNUE- Nutzung da auch immer wieder mal hilft statt schadet) hat die Studien sicher auch stark beeinflusst. Ein eigenes Genre könnte man es direkt auch nennen, was da an Anti- Engie- Puzzles konstruiert wird, ob solche dann zum Testen von Engines geeignet sind, oder nicht, das wäre ein interessantes Thema für sich, aber natürlich auch immer nur anhand einzelner Beispiele.

Walter Eigenmann meinte damals auch gleich per Mail, dass die vielen den 7Steinern nahen Endspiele ein Nachteil sind, und das stimmt schon auch, natürlich wäre damit das Ergebnis dann auch davon abhängig, ob man 7Steiner auf der Festplatte hätte und welche.
Kann man zwar von den Bedingungen her wieder vereinheitlichen, wenn man mit Probe Limit 6 max. testet, aber es wäre jedenfalls ein weiterer Punkt, an dem verschiedene Bedingungen verschiedene Ergebnisse erbrächten, und mit den vielen Endspielen als solchen in einer Suite sind ja die LC0- artigen Engines relativ zu den A-B-Suchern an und für sich schon auch noch nach wie vor benachteiligt, wenn auch nicht mehr so stark wie früher.

Wie auch immer, bevor ich hier weitermache, indem ich einzelne Stellungen austausche blase ich dieses Projekt für mich jetzt erstmal wieder ab. Es können ja Andere diese mit anderen Stellungen kombininieren und dann hier oder anderswo darüber berichten.
Ich fange wieder von vorn an, natürlich auf bereits auf der Festplatte Vorhandenes aufbauend, aber dass etwas besser wird als die alten 128 Stellungen, das sehe ich erstmal wieder in ziemliche Ferne gerückt. Sehr viel einfacher wird's ja, wenn man auf die Quellenangaben verzichtet, die sind ein großer Teil der Gesamtarbeit.

Testresultate, wenn überhaupt, werde ich vorerst mal wieder nur mehr mit den alten 128 erzeugt, veröffentlichen (da hab' ich ohnehin auch immer noch mit Abstand am meisten Engine- Runs gespeichert in der zugehörigen .cbh), das hat auch den Vorteil, dass sie mit den alten am besten vergleichbar sind.

Danke fürs Interesse und die Mitarbeit an Alle, die sich beteiligt haben.

By Peter Martan Date 2022-08-20 10:11 Edited 2022-08-20 10:56

Nehme alles zurück und behaupte das Gegenteil!

Die Suite ist hervorragend geeignet, genau die Art von taktischer Stärke zu messen, die in diesen Stellungen zählt, ganz nach dem Satz von Boring, Intelligenz ist, was der Intelligenztest misst

Von mir aus kann man die schöne Neghina-Rusz-Studie "Shield", die ja schon irgendwie ein Anti- Engine- Puzzle auch ist, durch eine leichtere Stellung ersetzen, diejenige, die ich schon vorgeschlagen hatte

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=157420#pid157420

, ist auch zu schwer für die Engines bei kurzer bis mittlerer Hardware- Zeit, allerdings kann man ihr wirklich keine Praxis- Ferne vorwerfen. Man sieht, nicht alles, was die Engines nicht lösen, ist irrelevant, es sei denn halt für den Betrachter.

Zu viele zu schwere Stellungen sollen einfach aus statistischen Gründen nicht drin sein, nämlich im Vergleich zu den Lösungszeiten im Schnitt. Ich hatte auch schon wieder einen Versuch, mehr leichte zusätzlich zu den schweren reinzupacken, das ist ok, so lange es eben nicht auch wieder zu viele zu leichte werden, bei denen auch EloStatTS, wenn jede getestete Engine nur einzelne Sekunden braucht, daraus entsprechende Unterschiede in der Wertung herauszurechnen. Im Prinzip ist es immer wieder dasselbe Problem, egal ob im Stellungstest, wenn er so wie ElotStatTS die einzelnen Stellungen anhand der einzelnen Lösungszeiten als einzelne Matches (siehe deren Zahl in der Tabelle unter diesem Titel) zwischen je Engines an einer Stellung wertet, oder ob man Stellungen ausspielen lässt. Elo- Spreizung gegen error bar ist immer dasselbe Prinzip und dasselbe Problem, was in Wirklichkeit einfach immer den größten Unterschied macht, ist die Hardware- Zeit, die man für das eine oder das andere Ergebnis braucht, um es statistisch abzusichern.

Viel leichter aber verwendbar ist z.B. die hier von A.Jasik (wenn die Angabe im ACT5, aus dem sie stammt, richtig ist, dort ist sie die Nr.89):

bm 1.Tc6+

So als .epd- Stellung, wenn man sie mit dem Editor direkt austauschen will aus dem, was ich am Anfang reinkopiert habe ins Posting.

2k4q/1p2p3/1Pr2Rp1/PK1p2P1/P1p3R1/3p4/p2P4/2Q5 w - - bm Rxc6+; id "ACT5.098";

Also die bisherige Nr. 105 gegen sie austauschen, dann hat man eine Endspiel- Stellung durch eine andere ersetzt und hat eine weitere bei 15" von den meisten Engines, die ich bisher probiert hab, ziemlich sichere Lösung, bei der's mit EloSatTS "nur" auf die Zeiten ankommt.

Und wen diese Art von Stellungen, die die Engines in dieser Suite zu lösen haben, nicht interessiert, der nimmt halt andere. Ich nehm' die Suite sehr wohl auch weiterhin, um möglichst schnell möglichst viel Diskrimination zwischen genau den Engines zu bekommen, die in diesen Stellungen gut sind. Vergleichbar sind damit halt statistisch keine Engines, die unter 20 Stellungen lösen, aber da gibt' schon eine ganze Reihe von solchen, dass Sting auch dabei ist, wundert nicht. Und ja, im praktischen Spiel wird er nicht so gut abschneiden, aber so what?
Und die Resultate, die ich mit dieser Suite bekomme, muss ich ja nicht veröffentlichen, ätsch!

Im Ernst, man muss sowieso auch immer strenger unterscheiden, welche Engines man in welchem Test miteinander vergleicht, das ist gerade auch beim Eng-Eng-Match so, wie man jüngstens erst wieder im TCEC gesehen hat. Wenige Partien von vielen einzelnen Underdogs gegen die viel Stärkeren 3, ist auch ein Methode, aber auch eine die ziemlich für sich allein steht, und dass ausgerechnet dieser Bonus ohne Buch gespielt werden konnte und wurde, hatte schon auch seine schachlichen Gründe und seine Berechtigung.

Topic Hauptforen / CSS-Forum / Intelligenztest für Engines

1 2