Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / TCEC S25
1 2 3 Previous Next  
Parent - By Max Siegfried Date 2023-10-28 22:23
Benno Hartwig schrieb:

Ja, Lc0 hat ganz schön an Boden gut gemacht.
Kurz vor der Hälfte überlegte ich noch, ob SF diese 56%-Quote wird halten können,
und jetzt steht der Fisch doch "nur" bei beschaulichen 52%.


Der kommende LC0 + neue Netze usw. wird noch deutlich stärker sein.
- - By Peter Martan Date 2023-10-29 09:37 Edited 2023-10-29 09:56
Das Sufi geht gerade mit einem letzten 1:1- Paar zu Ende, somit (wenn man das eine 2 x 0-1 mitrechnet) werden's 18 aus 50, weit über einem Drittel, das schmälert die ohnehin schmale Ausbeute der statistischen Aussage mehr, als wenn das statt der 1:1- Ergebnisse lauter Remis geworden wären, ich hab' hier mal eine kleine Vergleichsrechnung von EloStat anstellen lassen:

Wins   = 27
Draws  = 50
Losses = 23
Av.Op. Elo = 3500

Result     : 52.0/100 (+27,=50,-23)
Perf.      : 52.0 %
Margins    :
68 %       : (+  3.5,-  3.5 %) -> [ 48.5, 55.5 %]
95 %       : (+  6.9,-  6.9 %) -> [ 45.1, 58.9 %]
99.7 %     : (+ 10.4,- 10.5 %) -> [ 41.5, 62.4 %]

Elo        : 3514
Margins    :
68 %       : (+ 24,- 24) -> [3489,3538]
95 %       : (+ 49,- 48) -> [3465,3562]
99.7 %     : (+ 74,- 74) -> [3440,3588]

New calculation (y/n) ? y

Wins   = 18
Draws  = 68
Losses = 14
Av.Op. Elo = 3500

Result     : 52.0/100 (+18,=68,-14)
Perf.      : 52.0 %
Margins    :
68 %       : (+  2.8,-  2.8 %) -> [ 49.2, 54.8 %]
95 %       : (+  5.5,-  5.5 %) -> [ 46.5, 57.5 %]
99.7 %     : (+  8.4,-  8.4 %) -> [ 43.6, 60.4 %]

Elo        : 3514
Margins    :
68 %       : (+ 20,- 19) -> [3494,3534]
95 %       : (+ 39,- 38) -> [3475,3553]
99.7 %     : (+ 59,- 58) -> [3456,3573]


Oben das, was war (wenn die 100. aus ist) und dann eine theoretische Annahme, die 36 von beiden Seiten abwechselnd mit vertauschten Farben gewonnenen Partien wären auch Remis gewesen.
Gleiche Performance in % und in Elo (14), aber die error bar im zweiten Fall 39 (Elo) im ersten 49. So geht "Elospreizung" nicht, bzw. in die Hose.
Spielt natürlich keine wirklich große Rolle, wenn die Partiezahl sowieso viel zu niedrig ist, aber es zeigt eben. dass man sich in diesem einen Match zwischen diesen beiden Engines auf dieser Hardware- TC just gar nix an Partien erspart, um eine LOS zu bekommen, wenn man den Anzugsvorteil einer Seite zu groß ansetzt, im Gegenteil, es kostet zusätzliche Hardware- Zeit (Partiezahlen).
Wie gesagt, das Entscheidende ist in so einem Match der Unterhaltungswert, aber da bevorzuge ich halt auch im Allgemeinen das umkämpfte Remis vor dem Start- Ziel- Sieg, der abwechselnd für die eine und die andere Seite durch die Eröffnungsvorgabe (relativ zur Spielstärke der Engine- Hardware- TC- Kombi) vorprogrammiert ist.
Just my two cents, regards
Parent - - By Benno Hartwig Date 2023-10-29 10:03

> ...das umkämpfte Remis...


Ja, das ist erstrebenswert, die umkämpfte Entscheidung zwischen Remis oder Sieg.
Aber so einfach scheint mir dies nicht zu justieren.
Denn sehr häufig haben wir eben auch die Remisen gesehen, in denen keine Seite einen Hebel fand, den anderen auch nur mal etwas unter Druck zu setzen.

Ich denke, die TCEC-Leute justieren weiter,
und wir werden vielleicht das nächste Mal einen Satz Eröffnungen sehen, bei denen der Vorteil einer Seite wieder etwas geringer ist.
Parent - - By Peter Martan Date 2023-10-29 10:14 Edited 2023-10-29 10:51 Upvotes 1
Benno Hartwig schrieb:

Ja, das ist erstrebenswert, die umkämpfte Entscheidung zwischen Remis oder Sieg.
Aber so einfach scheint mir dies nicht zu justieren.
Denn sehr häufig haben wir eben auch die Remisen gesehen, in denen keine Seite einen Hebel fand, den anderen auch nur mal etwas unter Druck zu setzen.

Ich denke, die TCEC-Leute justieren weiter,
und wir werden vielleicht das nächste Mal einen Satz Eröffnungen sehen, bei denen der Vorteil einer Seite wieder etwas geringer ist.

Wenn das jemand kann, dann Jeroen Noomen, der's jetzt schon jahrelang für genau dieses Turnier macht, und natürlich ist das Justieren eine Frage der teilnehmenden Engines und der Hardware- TC und dann natürlich auch ganz vordergründig der Länge der Vorgaben (book plies).
Und ja, Remis können auch sterbenslangweilig sein, wenn sich nach wenigen Zügen gar nichts mehr bewegt, aber da sind dann wenigstens nur die Engines selbst dran schuld, niemand gibt Eröffnungen vor, die forciert zu blockierten Stellungen oder Repetitions führen. Wählen 2 Engines genau solche Fortsetzungen aus übertriebenem Save Draw (statt Win)- Bedürfnis, sind die Partien wenigstens schneller aus (meistens), und man sieht gleich, dass da 2 Schisser am Werk waren.
Das Problem sind sowieso in erster Linie die im oberen Bereich immer zahlreicher werdenden Engines mit immer ähnlicheren Spielanlagen, sei's, dass die Ähnlichkeit halt mehr oder weniger zwangläufig auch darin besteht, zu wenig Fehler zu machen, die sind es ja bekanntlich, die Schach "schön" und "spannend" machen, wo die fehlen, kannst du an Eröffnungen vorgeben, was du willst, vor allem "frühen", nach 20 Zügen ist ein Vorteil von 1 Bauern oder wie auch immer du ihn automatisch in WDL- Wahrscheinlichkeiten umrechnen lässt, schon eine ganz andere Nummer in der Aussage als nach 5 Zügen, nach 10 ist's auch schon ganz was Anderes als nach 5, in den meisten Stellungen, im Endspiel heißt die eine 1.00 cp- Eval eigentlich schon eher, dass es Remis ausgehen wird, als dass eine Seite wirklich die angestrebten 50% Gewinn- Aussichten hat. Ohne Fehler wird's nix mit den "High Lights", egal aus welchem Vorgabe- Vorteil heraus.

Und übrigens ist das alles natürlich Jammern auf sehr hohem Niveau, was von TCEC geboten wird, ist schon irgendwie immer noch großes Kino und diesmal war's wenigstens auch mal wieder spannender, weil Lc0 doch deutlich weniger abgehängt wurde, als knapp zuvor noch.
Gratuliere dem 2. Sieger
Parent - - By Peter Martan Date 2023-10-29 12:50 Edited 2023-10-29 13:07
Zitat:

und natürlich ist das Justieren eine Frage der teilnehmenden Engines und der Hardware- TC und dann natürlich auch ganz vordergründig der Länge der Vorgaben (book plies).
....
kannst du an Eröffnungen vorgeben, was du willst, vor allem "frühen", nach 20 Zügen ist ein Vorteil von 1 Bauern oder wie auch immer du ihn automatisch in WDL- Wahrscheinlichkeiten umrechnen lässt, schon eine ganz andere Nummer in der Aussage als nach 5 Zügen, nach 10 ist's auch schon ganz was Anderes als nach 5, in den meisten Stellungen, im Endspiel heißt die eine 1.00 cp- Eval eigentlich schon eher, dass es Remis ausgehen wird, als dass eine Seite wirklich die angestrebten 50% Gewinn- Aussichten hat.

Wie als Antwort auf dieses mein Posting läuft auf TCEC jetzt etwas unter dem Namen Variability Experiment Bonus, wieder zwischen Lc0 und SF, TC 30'+3", und die erste Eröffnungsvorgabe besteht in 16 Zügen Spanisch, von denen praktisch nur der 12. und der 16. Schwarz- Zug nicht dem absoluten Mainstream entsprechen.

1.e4 e5 2.Nf3 Nc6 3.Bb5 a6 4.Ba4 Nf6 5.O-O Be7 6.Re1 b5 7.Bb3 d6 8.c3 O-O 9.h3 Na5 10.Bc2 c5 11.d4 Qc7 12.Nbd2 Nc6 13.d5 Nd8 14.a4 Rb8 15.axb5 axb5 16.b4 c4

Danach hat SF mit Weiß eine Eval von 0.98, Lc0 mit Schwarz 1.02.
So geht's natürlich auch, wie oben schon erwähnt, dass man den einen Bauern (Engine- Eval-) Vorteil dadurch wieder entschärft, dass man ihn nach einer längeren Eröffnungsvorgabe einstellt.
Ich persönlich wäre überhaupt immer schon dafür gewesen, Spielstärke- Messungen nicht immer nur von frühen Eröffnungsstellungen aus zu machen, ich würde immer schon auch Mittel- und Endspielstellungen nehmen bzw. genommen haben, von mir aus davon auch bis zum Partieende ausgespielt. (Darf das übrigens mit GUI- Adjudikation sein? Wieviele cp von 0.00 entfernt sollen wieviele Züge weit vorkommen müssen, wie hoch muss die Eval sein, damit das GUI als gewonnen adjudizieren darf? Oder muss man ohnehin immer alles bis zum Matt oder bis zum Remis durch Materialmangel, Zugwiederholung oder Erreichen der 50- Züge ausspielen lassen?)
Wobei das bei den Endspielstellungen, die man ja in der Regel ohnehin schon mit entsprechend guter Analyse als gewonnen oder Remis beurteilen (lassen) können müsste, halt dann schon auf Stellungstests im engeren Sinn hinausliefe, aber da hab' ich ja auch keine Berührungsängste, weil es mir nichts ausmacht, dass Elo mit Elo nicht verglichen werden müssen, können, sollen, dürfen
Parent - - By Olaf Jenkner Date 2023-10-29 13:32
Peter Martan schrieb:

die erste Eröffnungsvorgabe besteht in 16 Zügen Spanisch, von denen praktisch nur der 12. und der 16. Schwarz- Zug nicht dem absoluten Mainstream entsprechen.

Das verstehe ich nicht.
Wenn der 12. Zug nicht dem Mainstream entspricht, wie soll dann der 16. Zug dem Mainstream entsprechen?
Parent - - By Peter Martan Date 2023-10-29 13:43 Edited 2023-10-29 14:11
Dass jemand meine Postings derartig aufmerksam liest, rührt mich direkt, Olaf

Und ja, du hast natürlich völlig recht, abgesehen davon, dass es nach der ersten Abweichung bei 12...c4, die ein ?! im Hiarcs online- Abo- Tournament- book hat und nur 28 gespeicherte Partie- Beispiele (zum Unterschied von 12...cxd4 mit 308), wieder mit einem der in weiterer Folge jeweils am häufigsten gespielten Züge (was eben dieses eine Buch und seine Statistiken angeht) so lange weitergeht, bis dann mit 16...c4 einer mit einem !? kommt, der nur mehr 4 Beispiele hat und keine aktive Ausspielwahrscheinlichkeit mehr. Wieder zum Vergleich dazu werden hier 16...Sb7, 16...Se8 und 16...Lc7 mit je 33% aktiver Wahrscheinlichkeit favorisiert.

Von Mainstream kann man nach dem 12. Zug von Schwarz schon nicht mehr sprechen, damit hast du recht, sagen wir halt, es geht danach wieder noch eher mainer streamig weiter, als es dann mit 16... schon ganz und gar nicht mehr mainig zu Ende streamt
Parent - - By Olaf Jenkner Date 2023-10-29 15:11
Andere Frage:
Gab es schon mal Vorgabetourniere, bei denen in der Ausgangsstellung einfach der Bauer auf a3 statt a2 steht?
Damit wäre der weiße Vorteil ein wenig stärker. Man kann mit jedem der 20 Züge experimentieren.
Bei Zug e4 müßte es für den Sieg reichen, aber wer weiß?
Parent - - By Peter Martan Date 2023-10-29 15:24 Edited 2023-10-29 15:32
Olaf Jenkner schrieb:

Bei Zug e4 müßte es für den Sieg reichen, aber wer weiß?

Du meinst nicht ernsthaft, dass die Vorgabe 1.e4 und Schwarz am Zug eine Remisrate starker Engines auf vernünftiger Hardware wesentlich unter 100% hätte, nein, du meinst natürlich, dass Weiß mit dem Bauern schon auf e4 noch einmal ziehen dürfte, also einen Zug mehr hätte.
Aber sieh mal, Olaf, das läuft auf Experimente hinaus, die in der verschiedensten Weise so ähnlich natürlich auch schon viel gemacht wurden, neuhochdeutsch nennt man das move odds, neben material odds, material+move odds, time odds, das mit einseitigen oder beidseitigen castling odds war erst vor Kurzem hier wieder in Diskussion, was auch immer du dir neben im realen Schach vorkommenden Stellungen und Bedingungen noch ausdenken kannst, mag dich persönlich durchaus interessieren und vielleicht ja auch noch den einen oder anderen weiteren Sonderling wie mich, nur wie willst du derartige Ergebnisse dann als etwas verkaufen, was man sich doch so gern als "overall playing strength" unter uns alten Elosionisten aufmalt?

Da würde ich halt lieber gleich Stellungstests machen...
Parent - - By Olaf Jenkner Date 2023-10-29 15:34
Natürlich meine ich, daß es mit Weiß los geht.
Mich interessieren die geringst möglichen Stellungsveränderungen. 16 Züge Vorgabe, das ist mir zu beliebig.
Mit dem einen Zug als Stellungsänderung entstehen allesamt Stellungen, die es gar nicht gibt.
Man muß schon viele Züge spielen, um in eine bekannte Variante einzubiegen. Wahrscheinlich
ist das bei starkem Spiel beider Gegner überhaupt niemals der Fall.
Parent - - By Peter Martan Date 2023-10-29 17:50
Jetzt ist offenbar 4x French Tarrasch dran

1.e4 e6 2.d4 d5 3.Nd2 a6 4.Ngf3 Nf6 5.e5 Nfd7

Obwohl die Engines sogar ein bisschen weniger Vorteil anzeigen (in der gerade laufenden Lc0 mit Weiß 0.76 und SF mit Schwarz 0.94) gab's schon 1 1:1- Paar.
Sag ich ja, ein Bauer Engine- Eval nach 5 Zügen ist eine andere Hausnummer als nach 16 Zügen.
Parent - - By Andreas Matthies Date 2023-10-29 18:24
Peter Martan schrieb:

Jetzt ist offenbar 4x French Tarrasch dran

Meines Wissens sollen in diesem Bonus genau die Eröffnungen des SUFI gespielt werden, die dort eine Entscheidung in Form eines gewonnenen Paars gebracht haben, und man will wohl schauen, ob eine deutlich kürzere TC etwas am Ergebnis ändert.
Parent - - By Peter Martan Date 2023-10-29 18:34
Ah, danke für die Info, aber schon mit je 2x Farbwechsel für eine Stellung?
Parent - - By Benno Hartwig Date 2023-10-29 19:50
56 Partien sind geplant, 14 Eröffnungen zählte ich mit einem Sieg-Remis-Ergebnis.
Wird hier jetzt also einfach 4 mal jede Partie beackert?
Vielleicht die Partien 3 und 4 mit irgendwie anderen Bedingungen?
Parent - By Andreas Matthies Date 2023-10-30 06:52
Jetzt hat man doch auf 200 Partien aufgestockt. Aus dem TCEC-Discord: `Variability Experiment Bonus` extended with all the rest of the Sufi 25 openings, ~7 days now.

Etwas einfallslos nach meiner Meinug, aber gönnen wir den Admins und sonstigen Beteiligten etwas Ruhe und Entspannung, bevor sie sich an kommende Turniere machen.
Parent - By Peter Martan Date 2023-10-30 09:47
Benno Hartwig schrieb:
.
Wird hier jetzt also einfach 4 mal jede Partie beackert?

Wie willst du deine Justierung anders machen? Die Prozent an Gewinnpunkten, die du gern hättest, müsstest du ja schon auch ein bisschen mit Partiezahlen anhand der einzelnen Stellung absichern, und das natürlich für jedes Engine- Paar und jede Hardware- TC extra, sonst freust du dich immer wieder mal zu früh, wenn's zufällig stimmt oder bist unnötig enttäuscht, wenn's nicht ganz passt bei einem einzelnen Partiepaar.
Früher hieß es immer, die Stellungstests testen die Teststellungen, ich fand immer schon, dass das gut so war und ist, wenn dem so war und ist.
Immer schon aber jetzt halt auch immer augenfälliger war und ist das auch so für die Matches, die Engine- Engine- Matches testen die Eröffnungsteststellungen.
Parent - By Peter Martan Date 2023-10-29 15:08 Edited 2023-10-29 15:17
Es scheint so, dass diese 16- zügige Spanisch- Variante, auf TCEC als Ruy Lopez, closed, Chigorin, 12...Nc6 bezeichnet, mehrmals mit Farbwechsel wiederholt wird.
Die ersten 3 Partien sind Remis ausgegangen, jetzt macht SF aber in der 4. offenbar doch einen ganzen Punkt daraus, jedenfalls schaut's nach 50 Zügen stark danach aus.
In diesem Sinn hat die Variability, die hier laut Titel des Bonus der Inhalt des Experiments sein soll, wie's scheint, ja schon mal funktioniert, wäre doch auch ziemlich genau das, was Benno gerne hätte, 25% entschiedene Partien und das mit nur einer Stellung allein

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=166591#pid166591

Ach so, nochmal genauer gelesen, 25% der Paare sollen entschieden sein, ja, das ist jetzt hier schwierig, von Paaren zu sprechen, aber unter uns () 75% Remis wären mir durchaus eh auch noch recht, wenn's dafür halt Stellungen sind, die schachlich tatsächlich irgendwen interessieren.
Würde man den echten Mainstream von Spanisch 16 Züge lang genommen haben, wäre die Remisrate vermutlich um einiges höher, sagen wir so um die 100%?
- - By Peter Martan Date 2023-11-03 08:39 Edited 2023-11-03 09:04
In dem laufenden Variability Experiment Bonus mit einem Viertel der TC (30'+3" statt 120'+12"), denselben Eröffnungen doppelt so oft wiederholt (mit 2fachem Farbwechsel) und doppelt sovielen Partien (200 statt 100), wird's, wenn die laufende 112. Partie SF gewinnt, wonach es nach einem boom beim 35. Zug von Schwarz stark aussieht, mit EloStat diesen Zwischenstand haben:

Wins   = 29
Draws  = 64
Losses = 19
Av.Op. Elo = 3500

Result     : 61.0/112 (+29,=64,-19)
Perf.      : 54.5 %
Margins    :
68 %       : (+  3.0,-  3.1 %) -> [ 51.4, 57.5 %]
95 %       : (+  6.0,-  6.0 %) -> [ 48.4, 60.4 %]
99.7 %     : (+  9.0,-  9.2 %) -> [ 45.3, 63.5 %]

Elo        : 3531
Margins    :
68 %       : (+ 21,- 21) -> [3510,3553]
95 %       : (+ 42,- 42) -> [3489,3574]
99.7 %     : (+ 65,- 64) -> [3467,3596]


Zum Vergleich, das war das Ergebnis vom Sufi selbst:

Wins   = 27
Draws  = 50
Losses = 23
Av.Op. Elo = 3500

Result     : 52.0/100 (+27,=50,-23)
Perf.      : 52.0 %
Margins    :
68 %       : (+  3.5,-  3.5 %) -> [ 48.5, 55.5 %]
95 %       : (+  6.9,-  6.9 %) -> [ 45.1, 58.9 %]
99.7 %     : (+ 10.4,- 10.5 %) -> [ 41.5, 62.4 %]

Elo        : 3514
Margins    :
68 %       : (+ 24,- 24) -> [3489,3538]
95 %       : (+ 49,- 48) -> [3465,3562]
99.7 %     : (+ 74,- 74) -> [3440,3588]


Die 1:1- Partiepaare sind weniger geworden, momentan nach 56 Paaren sind's 14 (wenn man die beiden 2x2x0-1 auch mitrechnet, und wenn ich mich nicht verzählt habe), am Ende vom Sufi waren's 36%, jetzt wären's vorläufig 25%, auch noch viel.

Dass kürzere TC die Elo spreizt, ist ja bekannt, was man hier für das eine Paar, das eine Eröffnungs- Testset und das eine Hardware- TC- Verhältnis ganz gut sieht, aber auch dass die 112 Partien von jetzt zwar immer noch zu wenige sind, um aus der error bar rauszukommen, aber immerhin ist das Verhältnis von Elo- Unterschied zum 95%- Intervall deutlich kleiner geworden (im Sufi 14 zu 48, jetzt 31 zu 42).
Parent - By Peter Martan Date 2023-11-07 09:14 Edited 2023-11-07 09:44
Ende des Variability Experiment Bonus, ganz schöne kräftige Elo- Spreizung im Vergleich zur 4-fachen Bedenkzeit mit halb so vielen Partien im Sufi selbst (120'+12" damals und 30'+3" jetzt, bei gleichen Eröffnungen und doppeltem Farbwechsel pro Stellung):

Wins   = 55
Draws  = 111
Losses = 34
Av.Op. Elo = 3500

Result     : 110.5/200 (+55,=111,-34)
Perf.      : 55.2 %
Margins    :
68 %       : (+  2.3,-  2.3 %) -> [ 52.9, 57.6 %]
95 %       : (+  4.5,-  4.6 %) -> [ 50.7, 59.8 %]
99.7 %     : (+  6.9,-  7.0 %) -> [ 48.3, 62.1 %]

Elo        : 3537
Margins    :
68 %       : (+ 16,- 16) -> [3520,3553]
95 %       : (+ 32,- 32) -> [3505,3569]
99.7 %     : (+ 49,- 49) -> [3488,3586]


Beim händischen Abzählen der 1:1- Paare (mit dem Gamepairs Rescorer Tool geht's ja leider nicht, weil die Eröffnungen verschieden lang sind) komm' ich auf 30 incl. der 2x2 0-1 Ergebnisse, das wären 30%, im Sufi waren's 36%, also da hat sich nicht so viel geändert.
Nach den 200 Partien beginnt das Ergebnis knapp aus der error bar zu kommen (37 Elo zu +-32 im 95%- Intervall).
Up Topic Hauptforen / CSS-Forum / TCEC S25
1 2 3 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill