S22 - 4x time odds

By Peter Martan Date 2022-05-01 23:43 Edited 2022-05-02 00:26

Bisher sind's die gleichen 3x1.5:0.5- Paare bei denselben Eröffnungen, die's im Sufi waren. Sagt natürlich noch gar nichts, vermutet hätte ich, dass es eher weniger Abstand als zwischen SF und dem damaligen Dragon werden wird, vielleicht ungefähr so wie zwischen LC0 und Dragon, aber (selbst bei denselben Eröffnungen) ist ja im Zeitalter des Remistodes ab einer gewissen Hardware- Zeit- Software- Kombi nicht einmal mehr das Ungleichgewicht von einem bestimmtes Hardware- Zeitverhältnis auf ein anderes derselben Engine übertragbar. Es könnte z.B. durchaus sein, dass die 4fache Zeit der einen SF- Engine gegen dieselbe im Zeitrahmen des Sufis ein völlig anderes Ergebnis brächte als die Verfierfachung für eine Seite bei der TC, die jetzt läuft.
So what...

By Frank Brenner Date 2022-05-02 15:10

Hallo Benno,

wo ? Bei Dir zuhause ?

Ach ich wollte ja noch vor 2 monaten die Ergebnisse von meinen Tests hier im Forum mitteilen.

Damals kam ja ein neues sehr starkes SF Patch heraus mit Optimierungen für sehr hohe Bedenkzeiten.

Bei meinen Tests haben die Verbesserungen sich bei SF vs SF bestätigt, ab 3 Min + 3 s/Zug pro Partie.

Bei Spielen gegen andere Gegner erzielte der Patch mit 3 Min + 3s/Zug keine nachweisebare Verbesserung.

Bei noch höherere Bedenkzeit von 10 Min + 10s/Zug jedoch erzielte der Patch auch gegen fremde Engines einen ordentlichen, aber nicht mehr ganz so großen Elosprung.

Ich bin jetzt insgesamt zu folgendem Ergebnis gekommen bei Engine Tests:

1. Es ist wichtig unausgewogene Eröffnungen vorzugeben. Stefan pohls DrawKiller Eröffnungen mit möglichst wenigen Vorgabezügen sind schon sehr gut dafür geeignet.

2. Tests mit unterschiedlichen Bedenkzeiten/ Threadzahlen sind ebenfalls sehr ertragreich. Deswegen ein Daumen hoch für deine Arbeit

Grüße Frank

By Chess Player Date 2022-05-03 11:20

also ca. 100 Elo .... besser. alles im lot. lucki kentucki https://www.schachbund.de/fide-tabellen.html

By Benno Hartwig Date 2022-05-03 13:03

> also ca. 100 Elo ....

Diese Aussage halte ich für gewagt, denn solche Elo sind vermutlich nicht die Elo, die nach normalen Eröffnungen mit den vielen Remis entstehen.

Meiner Meinung nach taugen diese Eröffnungen also ganz wunderbar dazu, Spielstärkereihenfolgen zu ermitteln. ("Wer ist eigentlich stärker?")
Sie taugen aber nicht, die Spielstärke-Differenz in Elo zu beziffern.

By Peter Martan Date 2022-05-03 13:18 Edited 2022-05-03 13:52

Benno Hartwig schrieb:

Meiner Meinung nach taugen diese Eröffnungen also ganz wunderbar dazu, Spielstärkereihenfolgen zu ermitteln. ("Wer ist eigentlich stärker?")
Sie taugen aber nicht, die Spielstärke-Differenz in Elo zu beziffern.

Dann muss man aber eigentlich auch wieder fragen, Spielstärkenreihenfolgen bei welchem Teilnehmerfeld und welcher Hardware- TC und genau welchen Eröffnungsstellungen?
Und wenn Elo nicht einmal mehr als Differenzwerte etwas taugen an Übertragbarkeit, wozu dann die Messung in Elo überhaupt?
Oder wenn nicht in Elo sondern nur in Performance- Prozent, wenn die auch überhaupt nicht übertragbar sind, wozu dann in extenso und mit irgendwelchen quantitativen Messungen verbunden überhaupt?

Ich weiß, wir hatten das Thema schon öfter in der letzten Zeit, aber am Beispiel TCEC und den vielen Zusatzfinali, die wir da jetzt gemeinsam mit diesem Blitz- NotsoSTC- Selfplay- Experiment sehen durften, was haben wir davon, wenn wir wissen, dass bei genau dieser Hardware und genau diesen Eröffnungen (das mit dem "taugen diese Eröffnungen" lässt die Frage nach dem "diesen" schon auch etwas ungenau beantwortet erscheinen, denn es könnte ja durchaus sein, dass es mit Eröffnungen mit ähnlich großem Vorteil aber nicht genau diesen Stellungen gleich wieder komplett anders aussähe, z.B. auch einfach erst später in der Partie zählt der eine Bauer Eval- Differenz viel weniger als ganz am Anfang, ) genau dieses TC- (Miss-)Verhältnis bei genau dieser Engine im Selfplay genau so ausgeht.

Die einzige Frage, welche Engine-TC da besser abschneiden wird, braucht keinen so aufwändigen Test und wenn das das einzige ist, was man dann aus ihm dann ableiten kann...
Hier

Benno Hartwig schrieb:

Es gibt vielleicht eine Ahnung davon, wie die LF-Dragon-Überlegenheit und auch die Lc0-Dragon-Überlegenheit im Vergleich zu der Überlegenheit dastehen, die eben durch eine vierfache Zeit entsteht.
Ist es mehr? Ist es weniger?

warst du auch noch deutlich anspruchsvoller, da wolltest du nicht einfach nur wissen, ob SF/4 gegen SF auf genau den Sufi- Eröffnungen mit dieser Hardware verlieren wird. Du wolltest sehr wohl die Performance des SF-SF/4-Selfplays mit den Performanes des Sufi und des LC0-Dragon-Bonus vergleichen.
Der Irrtum (die Elosion) ist nicht die Angabe der Verhältnisse in Elo, der Irrtum ist, man könnte solche Messungen überhaupt irgendwie miteinander vergleichen, das mit dem Ranking statt Rating scheitert ja schon allein daran, dass du automatisch ein anderes Ranking erst recht hast, wenn du aus deiner einen fertigen Liste einen Teilnehmer herausnimmst. Es ändern sich vordergründig die Platznummern dadurch unterhalb des Ausfalls, und wenn du Pech hast, die oberhalb auch, daher: du müsstest das Ganze auch dann schon von vorn anfangen, wenn du nur am Ranking interessiert bist, aber zur Kenntnis genommen hast, dass es auch nicht übertragbar ist. Nicht einmal bei genau gleichen Bedingungen aber nicht dem genau gleichen Teilnehmerfeld.
Merke: die fehlende Transitivität ist nicht dadurch verursacht, dass man ausgerechnet in Elo misst. Die wohnt dem Spiel in allen seinen Spielarten inne, nicht der Maßzahl.
Sorry, could schon wieder mal not resist

By Benno Hartwig Date 2022-05-03 14:28

> Hier ... warst du auch noch deutlich anspruchsvoller, da wolltest du nicht einfach nur wissen, ob SF/4 gegen SF auf genau den Sufi- Eröffnungen mit dieser Hardware verlieren wird.

Stimmt, etwas mehr lässt sich schon herauslesen.
Wenn A gegen B einen größeren Vorsprung herausholt als C gegen D, dann akzeptiere ich, dass A gegen B wohl eine größere Überlegenheit hat als C gegenüber D.
Und vermutlich ist auch die tatsächliche Elo-Differenz A-B größer als C-D.
Nur wie groß diese Elo-Differenzen tatsächlich sind (welche Elo-Differenzen also normale Schachtuniere im Mittel hervorbringen würden), erfahren wir mit den TCEC-Eröffnungen wohl nicht.
Dafür sind die Spielbedingungen von denen normaler Schachevents wohl doch zu sehr verschieden, haben zu großen Einfluss auf die Remis-Wahrscheinlichkeit.

By Peter Martan Date 2022-05-03 18:00 Edited 2022-05-03 18:28

Benno Hartwig schrieb:

Wenn A gegen B einen größeren Vorsprung herausholt als C gegen D, dann akzeptiere ich, dass A gegen B wohl eine größere Überlegenheit hat als C gegenüber D.

Sag ich ja, du bist und bleibst ein Elosionist, wie auch immer du es (das Maß der nicht vorhandenen Transitivität) auch nennst bzw. anlegst, nämlich in welchen Einheiten. Dass es mit genau diesen Eröffnungen genau so und so wenig übertragbar ist, heißt doch im Wesentlichen nur, wie sehr viel mehr oder weniger es das (übertragbar) mit einem genau anderen Eröffnungs- Testset bei genau anderen Engines und einer genau anderen Hardware- TC ist, weißt du nicht. Dass es anders ist, weißt du, ok, das weiß ich auch ohne, es immer wieder auf die verschiedensten Arten zu probieren

Wenn die 70. Partie mit einem weiteren 1.5:0.5- Paar für den Vollzeitfisch aus einer 16 Züge langen Lenzerheide- Variation geendet haben wird, die im Sufi ein Remispaar war(

1.e4 e5 2.Nf3 Nc6 3.Bb5 a6 4.Ba4 Nf6 5.O-O Be7 6.Re1 b5 7.Bb3 d6 8.c3 O-O 9.h3 Bb7 10.d4 Nd7 11.Nbd2 exd4 12.cxd4 Re8 13.Nf1 Na5 14.Bc2 Bf6 15.Rb1 c5 16.d5 Nc4):

Wins   = 25
Draws  = 40
Losses = 5
Av.Op. Elo = 3500

Result     : 45.0/70 (+25,=40,-5)
Perf.      : 64.3 %
Margins    :
 68 %       : (+  3.5,-  3.5 %) -> [ 60.7, 67.8 %]
 95 %       : (+  6.8,-  7.0 %) -> [ 57.3, 71.1 %]
 99.7 %     : (+ 10.2,- 10.7 %) -> [ 53.6, 74.5 %]

Elo        : 3602
Margins    :
 68 %       : (+ 27,- 26) -> [3576,3629]
 95 %       : (+ 54,- 51) -> [3551,3656]
 99.7 %     : (+ 84,- 77) -> [3525,3686]