Hi Benno,
noch kurz:
z. B. der Eintrag 171 in meinem NewsTicker. Schaue auf Komodo 1.3 x64. Ist ein gutes Beispiel zur ErrorBar die nie stimmte. Die Error Bar ist einfach nicht genau genug und kann auch nicht alle möglichen Beeinflussungsfaktoren miteinbeziehen. Von Partie Nummer 170 - 750 verlor Komodo 1.3 50 ELO, spielt aber stabil ... wie im Grunde 98% aller anderen SWCR engines auch nach maximal 520 Partien.
Mein ermittelter Optimalwert bei einer Ratingliste wenn die ELO nur in 1/100 getesteten Fällen um mehr als +-7 abweichen sollte wäre:
25 Gegner
je 50 Partien
= 1.250 Partien
1.250 Partien sind notwendig bei dem Anspruch das nur in einem von 100 Fällen die erzielte ELO tatsächlich um mehr als maximal +-7 vom Endergebnis abweicht. Leider spiele ich bei der SWCR 40 Partien Matches. Kann ich heute nicht mehr ändern
Bei den Einzelwettkämpfen im Vorbeitrag ... sprach auch immer von Maximal Abweichungen.
Optimal wäre es es die ErrorBar neu aufzubauen.
Wichtigster Faktor ist und bleibt die Anzahl der Partien:
1. Anzahl der Partien
2. Anzahl der Gegner
3. Remisquote
4. Durchschnittle ELO der Gegner
5. Zügedurchschnitt sofern ohne Aufgabefaktor
Diese Faktoren müssen bei der Berechnung der ErrorBar einfließen!
Programmiertechnisch vielleicht mit % Werten.
1. Anzahl der Partien 45% Gewichtung
2. Anzahl der Gegner (ja nach Anzahl der Gegner dann von 1% - 35%) Gewichtung
3. Remisquote (10% Gewichtung)
4. Durchschnittliche ELO der Gegner (10% Gewichtung)
Bei Bayesian liegt die Bewertung der Remisquote offensichtlich zu hoch. Bei ELOstat fehlt die Bewertung offenbar komplett. Bei beiden fehlen offenbar die Bewertungen hinsichtlich Anzahl der Gegner.
Insofern, die optimale ELO-Auswertung haben wir nicht und kein Programm gibt uns bei einem Engine Zweikampf eine Error Bar aus bei dem berücksichtigt wird, dass ja nur zwei Engines gegeneinander spielen.
Richtig wäre z. B. folgende Ausgabe
Rybka 3 - Rybka 4 500 Partien
200,0 : 300,0 = 12/148
Rybka 3 = 2.900 ELO
Rybka 4 = 2.960 ELO
wobei 12 bedeutet ... auf 12 ELO genau im Vergleich zwischen den Engines
wobei 150 bedeutet ... 150 ELO könnte die Abweichung betragen im Vergleich zu mindestens 30 unterschiedlichen Gegnern.
Insofern könnte es auch zu dem Ergebnis kommen
150 : 350
Die jetzigen Auswertungsprogramme gaukeln uns vor das die Engines 150 auseinander liegen, tatsächlich sind es aber nur 60. Das meine ich damit, denn das Traumergebnis von 200:300 wird eher selten zu Stande kommen, auch ein Thema von Lieglings-Engines oder Angstgegner je nach Sichtweise.
Früher gab es mal ein ganz krasses Beispiel:
Fritz 7 hatte ganz erhebliche Probleme gegen Gromit (heute Anaconda) bei damals längeren Zeitkontrollen. Spielte viele Serien zwischen den Engines von 50 Partien und Fritz gewann zwar die Matches aber nur sehr knapp. Verlor sehr viele Partien sehr schnell, kam mit dem Spielstil von Gromit nicht klar. Dennoch trennten die beiden Engines ca. 200 ELO.
Gutes Beispiel heute:
Houdini 1.5 - IvanHoe B47 bei längeren Zeitkontrollen.
Siehe z. B. SWCR oder lasse einen Wettkampf mit Ponder durchführen und nehme längere Zeitkontrollen. Houdini hat ganz erhebliche Probleme ist aber ca. 50 ELO stärker und wird den Wettkampf vermutlich verlieren. Bin mir nicht sicher habe derzeit nur 30 Partien und 20 die ich zuzüglich letzte Woche haben spielen lassen.
Glaube hier steht es Houdini 1.5 - IvanHoe B47 23 : 27
Wobei das auch noch ein Zufall sein könnte ...
Ganz schwierige Themen und solche Fragen sind nur zu beantworten mit Pseudo Partien in einer Datenbank.
Bin mir aber nicht im klaren darüber ob es so einfach möglich ist mit Pseudo Partien zu arbeiten auch wenn ich 8x wiederholt habe und die Ergebnisse bis auf +-2 8x gleich waren.
Gruß
Frank