Eine Aufgabe für Benno ...

By Benno Hartwig Date 2013-12-30 08:50

So rein Stochastisch betrachtet (und gänzlich ohne ein realistisches oder auch romantisch verklärtes "Meine Engine kann aber besonders gut gegen jene Engine!") ist wohl unstrittig:

264 ELO-Differenz entsprechen einer 82:18-Überlegenheit
In Abhängigkeit von der Remis-Wahrscheinlichkeit, die ich leider nur schätzen kann (wie würdest du diese bei 264 ELO-Differenz schätzen?), gilt dann:

Code:

P(remis)    P(2:0 für den Schwächeren)
0,10         0,017
0,14         0,012
0,20         0,006

Derartige Betrachtungen sind sicher dann gut, wenn diese ELO-Differenz das einzige ist, was man wirklich weiß.
Die Ergebnisse werden Durchschnittlich korrekt sein. Es wird nach meiner Erwartung keine bessere Methode geben.

Wenn du mehr weißt (Also kein Bauchgefühl, Ahnung, Beobachtung aus nur vglw. wenigen Parien), wenn du also gutes, hartes und belastbares Wissen hast, dann wird es sicher sinnvoll sein, auch dieses neben der ELO-Differenz, bei der Abschätzung der sicherlich auch dann ganz realen, konkreten (nur eben leider nicht unbedingt genau bekannten) Wahrscheinlichkeiten einfließen zu lassen.

Mein Script berechnet sicherlich korrekt die Wahrscheinlichkeiten der Ausgänge solcher Testreihen.
Es geht aber von Wahrscheinlichkeiten aus für Sieg, Remis und Niederlage in der einzelnen Partie aus.
Wenn die nicht korrekt sind, z.B. weil ein ELO-Wert fasch war, oder weil A tatsächlich besonders gut gegen B kann (was dann aber bitte belastbar belegt werden sollte), dann stimmen natürlich auch die Ausgaben nicht.
In den allermeisten Fällen, denke ich, bietet die ELO-Differenz und eine für die jeweiligen Bedingungen geschätzte Remis-Wahrscheinlichkeit aber eine recht gute Basis!

BTW:
Sequenzen von 2 Partien hast du vermutlich sehr viele Tausende, richtig?
Unter diesen werden ganz sicher sehr viele (Hast du mehr als 100.000 Partien gespielt? Dann währen es vermutlich mehr als 1000!!) sein, die diesen eigentlich ziemlich unwahrscheinlichen Ausgang zeigen.

Benno

By Frank Quisinsky Date 2013-12-30 22:01

Hallo Benno,

ich müsste das mal recherchieren anhand von dem *.sto file (Shredder Turnier Datei).
Die sto's von der SWCR1 habe ich leider nicht mehr.

Aber sofern ich mich erinnere gab es die Konstellation bislang in der SWCR2 noch nicht. Immerhin sind da schon 14.000 Partien gespielt.
In der Regel bei 50 Partien 8-10 Punkte für ca. 225-250 Punkte unterlegen.
Maximal ein Sieg dabei, selten zwei und der Rest der 8-10 Punkte sind Remis.
Das ist "normal" schon OK mit der 82:18 Überlegenheit.

Dennoch, Jonny überraschte schon öfters in den starken Partiephasen der IPPs, Rybka's und Houdini's und siegte hin- und wieder. Die Engine hat sehr gute Ansätze im späten Mittelspiel. Finde Jonny ausgesprochen gut und sehr interessant. Eine echte Bereicherung für meine Liste. In der CEGT 40/20 punktet Jonny ca. 20-30 schwächer. Das kann sehr wohl daran liegen das dort vielleicht nicht gegen viele so starke Programme gespielt wird wie bei "jeder gegen jeden" in der SWCR.

Schon echt krass ...
0.0 : 2.0 bei 260 ELO Differenz. Hintereinander zwei Siege, also ich kann mich nicht daran erinnern das überhaupt schon mal wahrgenommen zu haben.

In der SWCR waren es ca. 180.000 Partien. Aber wir benötigen ja die Sequenzen bei ca. 250 ELO Unterschied. Wie gesagt, ich habe die sto's nicht mehr.
Echt stümperhaft das ich so wichtige Sachen neben den Partienkommentaren gelöscht habe.

Das mache ich in der SWCR2 besser, auch ein paar Kleinigkeiten besser wie ...

- alle nur noch auf ein System
- SSD für OS, Endspieldatenbanken
- sehr schneller Prozessor bei 1Core
- bessere Aufzeichnung der Partien in meine Statistikdateien.

Hatte Dich auch noch in dem Thread zur Liste angeschrieben.
Wenn Du ein Interesse daran hast nehme ich Dich in den Verteiler auf.
Das Interesse hier ist erwartungsgemäß nicht so hoch dass ich mir die Arbeit machen muss das alles ins Forum und auf Webseiten zu bringen.

Viele Grüße
Frank

By Klaus Meier Date 2013-12-30 12:02 Edited 2013-12-30 12:07

Frank Quisinsky schrieb:

Soweit zum Thema feste theoretische Statistikauswertungen ...
Die sind im Schach einfach unsinnig, weil so viele Dinge zusammen kommen und mithin Standard Wahrscheinlichkeitsberechnungen unsinnig sind.

Hi Frank,

Ja sicher, für starke Schachspieler kommen viele Dinge zusammen.
Standard Wahrscheinlichkeitsberechnungen liefern bei starken Schachspielern systematisch fehlerbehaftete Bewertungen.
Auf Schachanfänger und noch sehr spielschwache Schachspieler sind die gängigen Statistikauswertungen jedoch durchaus weitgehend ohne
systematischen Fehler anwendbar. Dazu folgendes :

Der ELO-Systematik liegen Voraussetzungen (Annahmen) zugrunde wie z.B. :
a) Der erwartete Punktestand (erwartetes Spielergebnis) ist unabhängig von der Seitenwahl (unabhängig von Spiel mit WEISS oder SCHWARZ)
b) Spielergebnisse sind zufällig

Diese Voraussetzungen gelten in guter Näherung für Schach - Anfänger bzw. für sehr schwache Spieler. Tatsächlich sind die Mehrzahl der Menschen vergleichsweise schwache Schachspieler und so hatte Prof. ELO damals bei seinen Untersuchungen genügend Spielergebnisse von schwachen Spielern zur Verfügung. Dies erklärt auch die erwähnten Voraussetzungen.

Diese Voraussetzungen (a,b) sind jedoch bei erfahrenen, spielstarken Schachspielern.
nicht gegeben. Nun ist davon auszugehen das :
a) Schachspieler haben gelernt, den Anzugvorteil (Spiel mit WEISS) sehr häufig in ein vorteilhaftes Punktergebnis umzusetzen. ==> Der erwartete Punktestand ist abhängig von der Seitenwahl.
b) Schachspieler haben gelernt, besondere Stärken und Schwächen in der Spielweise des Gegners zu erkennen und sind in der Lage dies sehr häufig in ein vorteilhaftes Punktergebnis umzusetzen. ==> Spielergebnisse sind nicht zufällig.

Folglich :
Die ELO-Systematik bewertet Anfänger im Schach systematisch fehlerfrei.
Die ELO-Systematik bewertet starke Schachspieler systematisch fehlerhaft.

Standard Wahrscheinlichkeitsberechnungen machen, auf schwache Schachspieler angewendet, durchaus einen Sinn.

Viele Grüße

By Frank Quisinsky Date 2013-12-30 22:10

Hallo Klaus,

mir war die Info neu das die Berechnung so unterschiedlich ist, je nach Spielstärke.
Ich meine klar wird es schon in den Listen die ich so alle in den Jahren gemacht habe.

Also ich denke wirklich wir brauchen ein neues Berechnungssystem für die Spielstärke von Engines wenn es im Grunde schon über 2.600 geht. Und hierfür müssen eine Statistiken her halten und mithin brauchen wir gekoppelt zum neuen Berechnungssystem eine GUI mit der wir zunächst mal vernünftige Statistikideen entwickeln. Steht die GUI dann werten wir aus und dann wird's auch einfacher hinsichtlich Entwicklung einen klaren Berechnungssystems.

Wenn wir das hätten, würden die Computerschächler sicherlich jubeln und das auch gerne anwenden. Die blanken vierstelligen Zahlen sind verrückt. Auch eine dreistellige Wertungszahl reicht völlig aus. Bei einer dreistelligen Zahl werden auch deutlich weniger Partien notwendig sein, könnten ja mit einer Komma oder zwei Kommastellen arbeiten.

Wer sich hierrüber mal Gedanken macht merkt auch wie sinnlos es ist so viele Partien spielen zu lassen. Denn im Grunde 10 ELO mehr oder weniger ist bei einer normalen Berechnung einer Spielstärke maximal eine Zahl hinter dem Komma und die ist nicht wichtig. Willkürlich über 800 oder 1000 zu starten ist einfach Schrott. Das ganze Berechnungssystem ist für so starke Programme wie Houdini, Stockfish, Komodo meines Erachtens unbrauchbar dann wenn etwas mit einer einzigen Zahl ausgesagt werden soll.

Aber die Diskussion hatten wir ja vor ca. 2 Monaten hier im Forum.

Vielleicht finden sich ja im Jahr 2014 ein paar Personen zusammen um einen vernünftigen Spielstärke Schlüssel zu arbeiten, auch weg von logischen Statistik Ansätzen hin zum: In der Praxis schaut es wie folgt aus ... denn Datenbanken haben wir genug und brauchen die Statistik hier nicht. Wir müssen einfach nur die Datenbanken auswerten und haben eine speziell für Schach erstellte Vorlage.

Gruß
Frank

By Klaus Meier Date 2013-12-31 02:11

Hi Frank,

Ich habe bisher Datenbanken mit Partieergebnissen ausgewertet, die Menschen gegeneinander gespielt haben.
Hieraus geht klar hervor, das stärkere Spieler einen Anzugvorteil umsetzen können, während das schwache Spieler nicht können.
Die Grenze liegt etwa bei 1400 ELO-Punkten.

Datenbanken mit Spielergebnissen aus Computer-Computer-Matches habe ich daraufhin noch nicht untersucht.
Möglicherweise können Schachprogramme (heutzutage) den Anzugvorteil nicht umsetzen, egal welche Spielstärke das Programm hat.

Gruß
K.M.