Komodo 11.3

By Peter Martan Date 2018-03-09 22:27 Edited 2018-03-09 22:41

Nein, leider, Günter, eine wahre Spielstärke gibt es nicht, sie ist (messbar) immer nur stellungsabhängig zu sehen.

Würdest du sie real messen wollen, müsstest du endlos viele Partien gegen endlos viele Gegner von alle möglichen Schachstellungen aus messen.
Dabei wird die Frage, ob du dir das komplette Ausspielen durch entsprechend gute Stellungstests bei endlich oder vielleicht sogar auch unendlich vielen Stellungen davon ersparen könntest, irgendwie wenig wichtig.

Und die Frage, ob Stellungsstests besser und genauer sind, wenn sie ausgespielt werden, oder ob genauere Fragestellungen nicht genauer durch zugbegrenzte Testlines (und damit auf die jeweilige in Frage stehende Partiephase Eröffnung, Mittel- und Endspiel begrenzt) beantwortet werden können, hat damit eigentlich auch nichts zu tun.

Und dass die von den Ranglistenerstellern sogenannte "Overall Playing Strength" (nur für eine fiktive solche hätte ein übertragbares Elo- Maß überhaupt einen Sinn), die ausschließlich durch Kurz(hardware)zeitpartien mit vielen Gegnern einer gewissen Spielstärkebandbreite von grundstellungsähnlichen Ausgangsstellungen eruiert wird, die Engines mittlerweile automatisch in einen immer gemeinsameren Programmcode hinein nivelliert, ist jedenfalls schon ziemlich lang ziemlich evident, finde ich.

Das Maß an Celozunahme hat immer weniger mit tatsächlicher (für menschliche Begriffe und Verwendungszwecke) Spielstärkesteigerung zu tun, es wird mehr und mehr zum reinen Selbst(entwicklungs)zweck.

By Michael Scheidl Date 2018-03-10 00:58

Zitat:

Das Maß an Celozunahme hat immer weniger mit tatsächlicher (für menschliche Begriffe und Verwendungszwecke) Spielstärkesteigerung zu tun, es wird mehr und mehr zum reinen Selbst(entwicklungs)zweck.

Ich ahne was Du meinst, aber in dieser Form scheint mir das überakzentuiert sozusagen. Ein Erfolgszuwachs innerhalb der Enginekonkurrenz ist natürlich eine tatsächliche Spielstärkesteigerung. Wer begnügt sich mit Stockfish 7 wenn Stockfish 9 ~150 Celo mehr erzielt? Das ist schon sehr wichtig für menschliche Anwendungen, auch wenn der Unterschied in vielen konkreten Fällen nicht augenfällig sein mag. Die stärkere Engine genießt den größeren Vertrauensvorschuß, und das mit Recht.

Mir kommt es nicht darauf an, ob sich die Leistungssteigerungen (über Statistik hinaus) noch innerhalb meines Erkenntnishorizontes abbilden oder nicht. Sonst hätte ich schon vor 20 Jahren aufhören können

By Peter Martan Date 2018-03-10 01:24 Edited 2018-03-10 01:30

Michael Scheidl schrieb:

Das ist schon sehr wichtig für menschliche Anwendungen, auch wenn der Unterschied in vielen konkreten Fällen nicht augenfällig sein mag. Die stärkere Engine genießt den größeren Vertrauensvorschuß, und das mit Recht.

Ja, ich sage ja auch nicht, dass die Ranglistencelo nichts mehr mit relevanter Spielstärke zu tun haben, die Art, wie sie erspielt werden, ist aber zu speziell, um auf alle oder auch nur die meisten Stellungen 1:1 übertragbar zu sein.

Ich probiere ja bei Stellungen, von denen ich noch nichts weiß, auch zuerst die top Gereihten, finde dadurch aber immer wieder heraus, dass Settings von ihnen, und sei es nur mal mehr und mal weniger Contempt, der verändert ist, vor Allem und oft genug aber auch wirklich andere Suchparameter, (Nullzug, LMRs, breitere oder auch schmälere Suchbäume) schneller weiter helfen und dass die dann auch im Ausspielen erfolgreicher sind, nicht unbedingt über Unmengen ganzer Partien, weil, wenn's eine Eröffnungsstellung oder eine Mittelspielstellung ist, die anderen Partiephasen vielleicht wieder von der default Version erfolgreicher bis zum Ende gespielt werden.

Aber über bestimmte Testlines geben, gerade auch mit backward gefülltem Hash immer wieder andere Versionen, Settings, Engines bessere Ergebnisse als die Ranglisten- Führer. Und auf jeden Fall auch zwischen den großen 3, um die's momentan geht, kehrt sich das Verhältnis von Ranglisten- Celo zu Stellungstestergebnis bei selektiveren Eröffnungs- Mittelspiel- und Endspielstellungen immer wieder um.

Diese Arbeit, das herauszufinden, kann dir beim Analysieren keine Rangliste abnehmen, ebensowenig wie das Forward- Backward selbst, um dann auch noch eigens zu testen, ob das Hashlernen der einen oder der anderen Engine besser für die jeweilige einzelne Stellung funktioniert.

Und der Hauptpunkt ist, dass die Anwendung Grundstellungsmatch (dem von grundstellungsähnlichen Stellungen ausgehenden Match praktisch identisch mittlerweile im Ergebnis) gegen ungefähr ähnliche und ganz ganz ähnliche Engines (die Bandbreite des Teilnehmerfeldes bestimmt die Ergebnisse mittlerweile mehr als alles andere bei gleichen Eröffnungen) eine ganz bestimmte Art von Engines, die genau auf diese Anwendung hin entwickelt und angepasst wurden und weiter werden, so sehr selektiert, dass die Steigerung der so gemessenen speziellen Spielstärke immer mehr Ähnlichkeit der Programme bewirkt, was den Code und die Art der Suche und Eval angeht.

Es sind nicht (nur und ich glaube auch nicht einmal hauptsächlich) die offenliegenden GPL- und anderen Sourcen, die bewirken, dass die Inzucht überhand nimmt, es ist die Nivellierung durch die Tests, besser gesagt durch den einen zu sehr nivellierten und dadurch nivellierenden Test.