Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / SF gegen H bei Chess960 weniger erfolgreich.
- - By Benno Hartwig Date 2014-07-07 11:31
Wenn laut CCRL 40/4 Stockfish5 gegen Houdini4 66,8% holt (Ok, bei gerade mal 134 Partien, 42,5% remis)
und wenn das bei 40/4FRC nur 54,8% sind (300 Partien, nur 35% remis),
muss man dann nicht den Schluss ziehen, das Houdini mit den Prinzipien der Eröffnung deutlich besser zurecht kommt als Stockfish?
Ist das so? Kann SF Eröffnung schlechter als H?

Benno
Parent - By Michael Scheidl Date 2014-07-07 12:12
Den direkten Vergleich mit Houdini-Eröffnungskünsten habe ich zwar nicht, aber das Remis gegen Tornado gestern könnte ein Musterbeispiel sein. Die frühe Eröffnung scheint ein, oder vielleicht der einzige kleine Schwachpunkt des derzeitigen Stockfisches zu sein (was mir, evtl. weniger deutlich, auch schon bei anderen Partien so vorkam).

Wobei nicht ausgeschlossen werden kann, daß das "Einzelerscheinungen" sind, denn das sind zahlenmäßig keine statistisch relevanten Beobachtungen. Bei einem Gesamtscore von 11,0/12 nehme ich, einer Restunsicherheit zum Trotz, an daß diese eventuelle Schwäche keine dramatische sein kann.
Parent - - By Frank Brenner Date 2014-07-07 19:20
Wie schon oft gesagt wurde: Einzelresultate die aus den einschlägig bekannten Elolisten stammen spielen keine Rolle, da hier für jede Einzelbegegnung nur wenige Spiele gespielt werden.

Du hast doch selber einen Rechner. Dann spiel doch einfach mal ein paar Tausend FRC Partien SF5 vs H4.

So viel müssen es schon sein um eine Auflösung von 10 oder 20  ELO zu erzielen.
Parent - - By Benno Hartwig Date 2014-07-08 07:29
Klar, die wenigen Partien sind eine Problem bei der Betrachtung.
66,8% entspricht ca. 120 ELO, die 54,8% ca. 30 ELO.
Wir haben es hier also mit einer schon recht auffälligen 90-ELO-Differenz zu tun und nicht mit den von dir angedeuteten 10 bis 20 ELO.

Benno
Parent - - By Frank Brenner Date 2014-07-08 14:28
Meine angedeuteten 10 bis 20 ELO erzielst du ja auch erst mit einigen Tausend Partien. Und die müssen es schon mindestens sein.

> 66,8% entspricht ca. 120 ELO, die 54,8% ca. 30 ELO. Wir haben es hier also mit einer schon recht auffälligen 90-ELO-Differenz zu tun


Und eben genau hier ist Dein Fehler. Die wenigen Partien erlauben überhaupt keine Aussage:  120 ELO (Standardschach) Vs 30 ELO (FRC)

Aus den wenigen Partien kannst du so gut wie nichts ableiten.

Eine weitere Fehlerquelle besteht darin,  dass die Partiequelle von extern ist und noch dazu aus unterschiedlichen Ranglisten, unterschiedliche Pcs unterschiedliche Tester unterschiedliher Setup usw.... Grundsätzlich sind externe Quellen stets mit einem zusätzlichen unbekannten Fehlerpotential behaftet.
Parent - By Ernest Bonnem Date 2014-07-09 03:06
Frank Brenner schrieb:
Meine angedeuteten 10 bis 20 ELO erzielst du ja auch erst mit einigen Tausend Partien. Und die müssen es schon mindestens sein.

Warum denn?
20 Elo (95%) kriegst Du mit weniger als Tausend Partien...
Parent - - By Benno Hartwig Date 2014-07-09 09:48

> Und eben genau hier ist Dein Fehler. Die wenigen Partien erlauben überhaupt keine Aussage:  120 ELO (Standardschach) Vs 30 ELO (FRC)


Das sagst du so forsch.
Magst du abschätzen, wie hoch die Wahrscheinlichkeit dafür ist, dass bei angenommener gleicher Überlegenheit dermaßen unterschiedliche Ergebnisse herauskommen?
mindestens 66,8% aus 134 Partien und höchstens 54,8%  aus 300 Partien?

Vielleicht hast du ja recht, und sowas passiert doch mit einigermaßen großer Wahrscheinlichkeit. OK.
Vielleicht ist solche eine Differenz der Erfolgsquoten aber auch doch so unwahrscheinlich, dass eine These "Die Überlegenheit SF vs. H ist beim Normalschach und FRC gleich" als widerlegt gelten kann.

Kannst du diese Wahrscheinlichkeit abschätzen?

Benno
Parent - - By Frank Brenner Date 2014-07-09 13:09
Selbstverständlich kann ich das.

jedoch ist es unsinnig,  denn

Stockfish erzielt bei CCRL  mit FRC  Spielen insgesamt 8 Elo mehr als H4 bei 40/4  und (1800 SF5 / 3800 H4)  

In Klammern stehen die Anzahl der Spiele die insgesamt für SF5 und H4 ausgewertet wurden.

In anderen ELo Listen die auf einer ähnlich kurzen Bedenkzeit basieren und auf Standardschachpartien  basieren (also kein FRC) erzielt Stockfish einen ähnlich großen Abstand zu H4

Ipon: +11   (3300 SF5 / 3300 H4)
Cegt: +15   (1150 SF5 / 2700 H4)
CCRL + 33  (1242 SF5 / 1643 H4)

Aus diesem kleinen unterschied von 8 gegenüber +20 ELO (durchschnitt aus 11,15,33)  zu folgern dass Stockfish die Eröffnungsphase der ersten paar Züge schlechter behandelt als die anderen Engines ist absolut nicht gerechtfertigt.

Du siehst ausserdem, dass bereits 1300-3000 Spiele je Engine noch nicht ausreichen die Genauigkeit des Ergebnisses der Elodifferenz von SF5 und H4  auf 22 ELO genau zu bestimmten

Was mir auch auffällt, wenn wir schon mit so kleinen Elodifferenzen hantieren: Wie werden die Elowerte aus einem Turnier in den verschiedenen Ranglisten berechnet ?

Das von Frank Schubert vor vielen Jahren auf Basis eines Iterationsferfahren von Ken Thompson entwickelte EloStat produziert in dieser geringen Auflösung von 0-30 Elo sehr fehlerhafte Werte.
EloStat macht einen Fehler indem es den Eloschnitt der Gegner berechnet und aus dem Erfolgsscore gegen diesen Schnitt mit der exakten Elo Formel die Elo zahl der nächsten Iteration berechnet.
Diese Methode führt zwar schnell zu einer Konvergenz aber gegen den falschen Elo Wert.
Insbesondere die stärkste Engine wird hierbei am stärksten benachteiligt.
Parent - - By Benno Hartwig Date 2014-07-09 13:40

> jedoch ist es unsinnig,  denn
> Stockfish erzielt bei CCRL  mit FRC  Spielen insgesamt 8 Elo mehr als H4 bei 40/4  und (1800 SF5 / 3800 H4)


Unsinnig?
Wir haben die Konkreten Ergebnisse (gewonnen, remis, verloren).
Und völlig unabhängig von irgendwelchen ELO-Berechnungen könnte man versuchen abzuschätzen, mit welchern (vermutlich sehr kleinen!) Wahrscheinlichkeit derart deutlich unterschiedliche Werte aufteilen, wenn man denn tatsächlich annehmen will, dass die Überlegenheit gar nicht unterschiedlich ist.
Eine Untersuchung, die taugen kann, diese Annahme statistisch zu widerlegen.
Mit irgendeiner korrekten oder fehlerhaften ELO-Berechung hat das sicher rein gar nichts zu tun. ELO-Werte tauchen nicht auf.

Wenn du es so selbstverständlich kannst, dann bitte ich dich, dies gern mal zu machen.
Sooo trivial finde ich diese Aufgabe gar nicht. Aber vielleicht weiß ich nur zu wenig davon.

Benno
Parent - - By Frank Brenner Date 2014-07-09 14:19
Wenn du sagen wir 2000 stochastische Ereignisse hast  (die aus zb 10 Einzelergebnissen zu je 200 Ereignissen bestehen)  welche in ihrer Gesamtheit die Schlußfolgerung A wiederlegt, so ist es unsinnig das extremste Einzelergebnis aus diesen 10 herauszunehmen und zu versuchen hiermit die Schlußfolgerung A zu doch noch zu belegen.

Wenn du das "Big Picture" nicht verstehst helfen dir auch seitenweise mathematische Argumentationen nichts.
Parent - By Benno Hartwig Date 2014-07-09 14:43 Edited 2014-07-09 15:15

> ...so ist es unsinnig das extremste Einzelergebnis aus diesen 10 herauszunehmen...


Nein. Ich selektierte nicht die 'Extremsten' sondern ich nahm direkt die beiden mich hier einzig Interessierenden: SF und seinen einzigen ernstzunehmenden Konkurrenten H. Und hier fiel halt eine Diskrepanz ins Auge.

> Wenn du das "Big Picture" nicht verstehst helfen dir auch seitenweise mathematische Argumentationen nichts.


Schau, und nun wissen wir doch, trotz deines "Selbstverständlich kann ich das",  beide, was wir voneinander halten wollen.

Benno
Parent - - By Tom Paul Date 2014-07-07 20:11
Hast du dir schon die ganzen FRC Partien von Stockfish angeschaut?
Ich finde, dass Stockfish nicht nur die Remis Partien schlecht gespielt hat, sondern auch die Partien wo der Gegner in totalen Endspiel-Remisstellungen gepatzt und verloren hatte.
Wie bereits herausgefunden, bieten einige der FRC Grundstellungen-Eröffnungen viel mehr mögliche und auch sinnvolle Züge, als die normale Grundstellung. Dadurch entsteht ein sehr sehr viel viel breiterer Variantenbaum.
Da Stockfishs Gegner einen anderen Spielstil haben, sehen diese zwangsläufig etwas was Stockfish nicht sehen kann und umgekehrt.
Somit gewinnt Stockfish zwar immer noch die meisten Partien muss aber ab und zu ein Remis abgeben. Auch gegen 400 und deutlich mehr DWZ schwächere!
Hier wäre es wieder sinnvoll mehr in die Breite zu gehen.
Taktisch müsste Stockfish auch noch verbessert werden, warum sonst steht Houdini mit einem Punkt hinter Stockfish beim FRC?
Ich habe auch schon oft gezeigt, dass Stockfish nicht immer den richtigen Entwicklungszug spielt und das sieht man hier auch ganz gut.
Parent - By Michael Scheidl Date 2014-07-08 17:23
Nebenbemerkung; der gute Eindruck den ich von Tornados Eröffnungen hatte, wurde bei grober Durchsicht weiterer Partien "relativiert" sozusagen. - Daß die Partiebehandlung von Engines in zwei, oder einer Hand voll Partien einen völlig verschiedenen Eindruck vermitteln kann, ist aber eh ein alter Hut. Ich muß da wirklich selber aufpassen, nicht zu früh zu verallgemeinern.

Voraussichtlich werden somit unter den schließlich 28 TCEC-Partien einige sein, wo Stockfish die Eröffnung richtig gut gespielt hat. Dann sehen wir wieder: Den Vorhang zu, und alle Fragen offen
Up Topic Hauptforen / CSS-Forum / SF gegen H bei Chess960 weniger erfolgreich.

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill