Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / S22 - 4x time odds
- - By Benno Hartwig Date 2022-05-01 21:16
Im Moment spielt Stockfish gegen ein Duplikat von sich selbst, wobei dieses nur ein Viertel der Zeit bekommt.
Es geht wieder über 100 Partien. Ähnliche oder sogar gleiche Eröffnungen?

Ich finde dies durchaus interessant!
Es gibt vielleicht eine Ahnung davon, wie die LF-Dragon-Überlegenheit und auch die Lc0-Dragon-Überlegenheit im Vergleich zu der Überlegenheit dastehen, die eben durch eine vierfache Zeit entsteht.
Ist es mehr? Ist es weniger?
Parent - By Peter Martan Date 2022-05-01 23:43 Edited 2022-05-02 00:26
Bisher sind's die gleichen 3x1.5:0.5- Paare bei denselben Eröffnungen, die's im Sufi waren. Sagt natürlich noch gar nichts, vermutet hätte ich, dass es eher weniger Abstand als zwischen SF und dem damaligen Dragon werden wird, vielleicht ungefähr so wie zwischen LC0 und Dragon, aber (selbst bei denselben Eröffnungen) ist ja im Zeitalter des Remistodes ab einer gewissen Hardware- Zeit- Software- Kombi nicht einmal mehr das Ungleichgewicht von einem bestimmtes Hardware- Zeitverhältnis auf ein anderes derselben Engine übertragbar. Es könnte z.B. durchaus sein, dass die 4fache Zeit der einen SF- Engine gegen dieselbe im Zeitrahmen des Sufis ein völlig anderes Ergebnis brächte als die Verfierfachung für eine Seite bei der TC, die jetzt läuft.
So what...
Parent - By Frank Brenner Date 2022-05-02 15:10
Hallo Benno,

wo ? Bei Dir zuhause ?

Ach ich wollte ja noch vor 2 monaten die Ergebnisse von meinen Tests hier im Forum mitteilen.

Damals kam ja ein neues sehr starkes SF Patch heraus mit Optimierungen für sehr hohe Bedenkzeiten.

Bei meinen Tests haben die Verbesserungen sich bei SF vs SF bestätigt, ab 3 Min + 3 s/Zug  pro Partie.

Bei Spielen gegen andere Gegner erzielte der Patch mit 3 Min + 3s/Zug keine nachweisebare Verbesserung.

Bei noch höherere Bedenkzeit von 10 Min + 10s/Zug jedoch erzielte der Patch auch gegen fremde Engines einen ordentlichen, aber nicht mehr ganz so großen Elosprung.

Ich bin jetzt insgesamt zu folgendem Ergebnis gekommen bei Engine Tests:

1. Es ist wichtig unausgewogene Eröffnungen vorzugeben. Stefan pohls DrawKiller Eröffnungen mit möglichst wenigen Vorgabezügen sind schon sehr gut dafür geeignet.

2. Tests mit unterschiedlichen Bedenkzeiten/ Threadzahlen sind ebenfalls sehr ertragreich. Deswegen ein Daumen hoch für deine Arbeit

Grüße Frank
- - By Benno Hartwig Date 2022-05-02 06:38 Edited 2022-05-02 06:43
16 Partien wurden jetzt gespielt.
Der SF mit mehr Zeit hat tatsächlich bislang jeden Eröffnungsvorteil zu einem Sieg führen können.
Dass sich der Zeitvorteil so deutlich auswirkt, hatte ich gar nicht erwartet. Mal sehen, wie es weiter geht.
Immerhin 2 mal gelang aber auch dem "kleineren SF" dieser Erfolg.

Der Stand im Moment also: 11.0 zu 5.0, der SF mit langer Zeit erreichte bislang 68,75%
SF erreichte gegen Dragon 59,5%
und Lc0 erreichte gegen Dragon 54,5%
Parent - By Max Siegfried Date 2022-05-02 08:27
Benno Hartwig schrieb:

16 Partien wurden jetzt gespielt.
Der SF mit mehr Zeit hat tatsächlich bislang jeden Eröffnungsvorteil zu einem Sieg führen können.
Dass sich der Zeitvorteil so deutlich auswirkt, hatte ich gar nicht erwartet. Mal sehen, wie es weiter geht.
Immerhin 2 mal gelang aber auch dem "kleineren SF" dieser Erfolg.

Der Stand im Moment also: 11.0 zu 5.0, der SF mit langer Zeit erreichte bislang 68,75%
SF erreichte gegen Dragon 59,5%
und Lc0 erreichte gegen Dragon 54,5%


Nur mit dem Unterschied das die Bedenkzeit ganz anders ist.
Das ist so also ob man bei Menschen 2h+30min Turnierspieler = Ergebnis A vs Bullet Spieler = Ergebnis B vergleichen würde.

Wenn man jetzt beim TCEC die gleiche Bedenkzeit wie vorhin im Superfinale verwendet hätte, dann wäre der Unterschied zwischen den beiden Stockfishen deutlich kleiner als gegen den KomodoDragon.
Weil ab Tiefe X deutlich weniger schief gehen kann.
Parent - By Peter Martan Date 2022-05-02 09:42
Ja, erstaunlich, scheint doch eine sehr gute TC zu sein, um SFx4Zeit gegen SF gut ausschauen zu lassen auf dieser Hardware mit diesen Eröffnungen.

Nach 20 Partien schon 70%.
- - By Peter Martan Date 2022-05-03 08:35 Edited 2022-05-03 08:45
Nach 55 Partien, von denen die 55. noch läuft aber Remis ausgehen wird, wie's ausschaut, haben wir einen 15 Punkte- Vorsprung vom Vollzeit- SF gegen den Geviertelten (35-20 bei 20-5 Siegen). Das habe ich eigentlich auch jetzt erst mitbekommen (noch keine Partien live verfolgt gehabt), dass die 30'+3" die Zeit des Bevorteilten sind, sodass der Benachteiligte eigentlich Blitzschach spielt, das macht dann natürlich schon noch mehr Unterschied, als ich ursprünglich gedacht hatte.

Obwohl der Punkteabstand schon schön gewachsen ist, die Performance ist "nur" noch 63,6% und die error bar im 95%- Intervall +-8%.
Parent - - By Chess Player Date 2022-05-03 11:20
also ca. 100 Elo .... besser. alles im lot. lucki kentucki https://www.schachbund.de/fide-tabellen.html
Parent - - By Benno Hartwig Date 2022-05-03 13:03

> also ca. 100 Elo ....


Diese Aussage halte ich für gewagt, denn solche Elo sind vermutlich nicht die Elo, die nach normalen Eröffnungen mit den vielen Remis entstehen.

Meiner Meinung nach taugen diese Eröffnungen also ganz wunderbar dazu, Spielstärkereihenfolgen zu ermitteln. ("Wer ist eigentlich stärker?")
Sie taugen aber nicht, die Spielstärke-Differenz in Elo zu beziffern.
Parent - - By Peter Martan Date 2022-05-03 13:18 Edited 2022-05-03 13:52
Benno Hartwig schrieb:

Meiner Meinung nach taugen diese Eröffnungen also ganz wunderbar dazu, Spielstärkereihenfolgen zu ermitteln. ("Wer ist eigentlich stärker?")
Sie taugen aber nicht, die Spielstärke-Differenz in Elo zu beziffern.

Dann muss man aber eigentlich auch wieder fragen, Spielstärkenreihenfolgen bei welchem Teilnehmerfeld und welcher Hardware- TC und genau welchen Eröffnungsstellungen?
Und wenn Elo nicht einmal mehr als Differenzwerte etwas taugen an Übertragbarkeit, wozu dann die Messung in Elo überhaupt?
Oder wenn nicht in Elo sondern nur in Performance- Prozent, wenn die auch überhaupt nicht übertragbar sind, wozu dann in extenso und mit irgendwelchen quantitativen Messungen verbunden überhaupt?

Ich weiß, wir hatten das Thema schon öfter in der letzten Zeit, aber am Beispiel TCEC und den vielen Zusatzfinali, die wir da jetzt gemeinsam mit diesem Blitz- NotsoSTC- Selfplay- Experiment sehen durften, was haben wir davon, wenn wir wissen, dass bei genau dieser Hardware und genau diesen Eröffnungen (das mit dem "taugen diese Eröffnungen" lässt die Frage nach dem "diesen" schon auch etwas ungenau beantwortet erscheinen, denn es könnte ja durchaus sein, dass es mit Eröffnungen mit ähnlich großem Vorteil aber nicht genau diesen Stellungen gleich wieder komplett anders aussähe, z.B. auch einfach erst später in der Partie zählt der eine Bauer Eval- Differenz viel weniger als ganz am Anfang, ) genau dieses TC- (Miss-)Verhältnis bei genau dieser Engine im Selfplay genau so ausgeht.

Die einzige Frage, welche Engine-TC da besser abschneiden wird, braucht keinen so aufwändigen Test und wenn das das einzige ist, was man dann aus ihm dann ableiten kann...
Hier
Benno Hartwig schrieb:

Es gibt vielleicht eine Ahnung davon, wie die LF-Dragon-Überlegenheit und auch die Lc0-Dragon-Überlegenheit im Vergleich zu der Überlegenheit dastehen, die eben durch eine vierfache Zeit entsteht.
Ist es mehr? Ist es weniger?

warst du auch noch deutlich anspruchsvoller, da wolltest du nicht einfach nur wissen, ob SF/4 gegen SF auf genau den Sufi- Eröffnungen mit dieser Hardware verlieren wird. Du wolltest sehr wohl die Performance des SF-SF/4-Selfplays mit den Performanes des Sufi und des LC0-Dragon-Bonus vergleichen.
Der Irrtum (die Elosion) ist nicht die Angabe der Verhältnisse in Elo, der Irrtum ist, man könnte solche Messungen überhaupt irgendwie miteinander vergleichen, das mit dem Ranking statt Rating scheitert ja schon allein daran, dass du automatisch ein anderes Ranking erst recht hast, wenn du aus deiner einen fertigen Liste einen Teilnehmer herausnimmst. Es ändern sich vordergründig die Platznummern dadurch unterhalb des Ausfalls, und wenn du Pech hast, die oberhalb auch, daher: du müsstest das Ganze auch dann schon von vorn anfangen, wenn du nur am Ranking interessiert bist, aber zur Kenntnis genommen hast, dass es auch nicht übertragbar ist. Nicht einmal bei genau gleichen Bedingungen aber nicht dem genau gleichen Teilnehmerfeld.
Merke: die fehlende Transitivität ist nicht dadurch verursacht, dass man ausgerechnet in Elo misst. Die wohnt dem Spiel in allen seinen Spielarten inne, nicht der Maßzahl.
Sorry, could schon wieder mal not resist
Parent - - By Benno Hartwig Date 2022-05-03 14:28

> Hier ... warst du auch noch deutlich anspruchsvoller, da wolltest du nicht einfach nur wissen, ob SF/4 gegen SF auf genau den Sufi- Eröffnungen mit dieser Hardware verlieren wird.


Stimmt, etwas mehr lässt sich schon herauslesen.
Wenn A gegen B einen größeren Vorsprung herausholt als C gegen D, dann akzeptiere ich, dass A gegen B wohl eine größere Überlegenheit hat als C gegenüber D.
Und vermutlich ist auch die tatsächliche Elo-Differenz A-B größer als C-D.
Nur wie groß diese Elo-Differenzen tatsächlich sind (welche Elo-Differenzen also normale Schachtuniere im Mittel hervorbringen würden), erfahren wir mit den TCEC-Eröffnungen wohl nicht.
Dafür sind die Spielbedingungen von denen normaler Schachevents wohl doch zu sehr verschieden, haben zu großen Einfluss auf die Remis-Wahrscheinlichkeit.
Parent - By Peter Martan Date 2022-05-03 18:00 Edited 2022-05-03 18:28
Benno Hartwig schrieb:

Wenn A gegen B einen größeren Vorsprung herausholt als C gegen D, dann akzeptiere ich, dass A gegen B wohl eine größere Überlegenheit hat als C gegenüber D.

Sag ich ja, du bist und bleibst ein Elosionist, wie auch immer du es (das Maß der nicht vorhandenen Transitivität) auch nennst bzw. anlegst, nämlich in welchen Einheiten. Dass es mit genau diesen Eröffnungen genau so und so wenig übertragbar ist, heißt doch im Wesentlichen nur, wie sehr viel mehr oder weniger es das (übertragbar) mit einem genau anderen Eröffnungs- Testset bei genau anderen Engines und einer genau anderen Hardware- TC ist, weißt du nicht. Dass es anders ist, weißt du, ok, das weiß ich auch ohne, es immer wieder auf die verschiedensten Arten zu probieren

Wenn die 70. Partie mit einem weiteren 1.5:0.5- Paar für den Vollzeitfisch aus einer 16 Züge langen Lenzerheide- Variation geendet haben wird, die im Sufi ein Remispaar war(

1.e4 e5 2.Nf3 Nc6 3.Bb5 a6 4.Ba4 Nf6 5.O-O Be7 6.Re1 b5 7.Bb3 d6 8.c3 O-O 9.h3 Bb7 10.d4 Nd7 11.Nbd2 exd4 12.cxd4 Re8 13.Nf1 Na5 14.Bc2 Bf6 15.Rb1 c5 16.d5 Nc4):

Wins   = 25
Draws  = 40
Losses = 5
Av.Op. Elo = 3500

Result     : 45.0/70 (+25,=40,-5)
Perf.      : 64.3 %
Margins    :
68 %       : (+  3.5,-  3.5 %) -> [ 60.7, 67.8 %]
95 %       : (+  6.8,-  7.0 %) -> [ 57.3, 71.1 %]
99.7 %     : (+ 10.2,- 10.7 %) -> [ 53.6, 74.5 %]

Elo        : 3602
Margins    :
68 %       : (+ 27,- 26) -> [3576,3629]
95 %       : (+ 54,- 51) -> [3551,3656]
99.7 %     : (+ 84,- 77) -> [3525,3686]
- By Peter Martan Date 2022-05-04 16:51
Wins   = 33
Draws  = 57
Losses = 10
Av.Op. Elo = 3500

Result     : 61.5/100 (+33,=57,-10)
Perf.      : 61.5 %
Margins    :
68 %       : (+  3.0,-  3.1 %) -> [ 58.4, 64.5 %]
95 %       : (+  5.9,-  6.1 %) -> [ 55.4, 67.4 %]
99.7 %     : (+  8.9,-  9.3 %) -> [ 52.2, 70.4 %]

Elo        : 3581
Margins    :
68 %       : (+ 23,- 22) -> [3559,3604]
95 %       : (+ 45,- 44) -> [3538,3626]
99.7 %     : (+ 69,- 66) -> [3515,3651]


Jetzt läuft wieder der lustige 1 day Per Move - Bonus.
- By Peter Martan Date 2022-05-07 09:00 Edited 2022-05-07 09:30
Der Bonus, der jetzt läuft, heißt VVLTC, 360'+60" mit SF, LC0 und Dragon, 3 Partien am ersten Tag (immerhin besser als nur 1 Zug ), SF führt vor LC0 und Dragon mit 2:1:0 Punkten (die 3. Partie läuft noch) aus je 2 Partien jeder Engine.
Die Eröffnungen kommen nicht in der Sufi- Reihenfolge, wurden aber dort auch verwendet, zumindest die eine aus der noch laufenden Partie.

Edit: die anderen 2 auch.
Up Topic Hauptforen / CSS-Forum / S22 - 4x time odds

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill