Hallo Klaus,
interessant Deinen Ausführungen zu folgen.
Meines Erachtens ist bei der Erstellung einer Ratingliste hauptsächlich folgende Frage entscheidend (versuchte ich mit Partiematerial zu lösen).
Bin eher der Praktiker als der große Formelersteller.
Bei wie vielen Gegnern erhalte ich mit möglich wenigen Partien pro Eng-Eng Match das wahrscheinlich beste Ergebnis?
In der SWCR hat immer jeder gegen jeden 40 Partien gespielt (Datenbank ist für statistische Zwecke hervorragend geeignet, siehe unter http://www.amateurschach.de).
Da ich nun den Wert 40 Partien pro Match nach Testzeit x nur sehr aufwendig verändern konnte verblieb als Ersteller für mich die Frage:
OK, bei 40 Partien pro Match wie viele Gegner sollten es sein nach meiner Logik.
Deine Aussage:
Das der zufällige Fehler nach einer einfachen Faustformel nach 40 Spielen noch immer sigma = 230/sqrt(40) = 36 beträgt, das kannte bisher niemand hier und es intressierte bisher wohl niemanden besonders.Wie weit verringert sich dieser Wert wenn Gegner 2, 3, 4, 5, hinzukommt.
Hatte damit anhand der Endergebnisse nach über 100.000 Partien in der Datenbank experimentiert.
Engines herausgepickt und zunächst Ergebnisse simuliert wie es bei 39, 38, 37, 36 etc. Partien aussehen könnte.
Schaue ich in meine älteren Auswertungen und überprüfe nun Deine 36 komme ich zu dem Ergebnis: 38!
Wenn nun Gegner 2 -20 hinzukommt habe ich zum tatsächlichen Ergebnis einer Engine die z. B. 100 Gegner hatte (Shredder in meiner Datenbank hatte gar noch weit mehr Gegner) erhalte ich folgendes Ergebnis:
Bei ca. 22 Gegner und 40 Partien pro Match ist so eine Art Schwelle erreicht. Meine das ein oder 10 weitere Gegner das Endergebnis in ELO zwar noch verändern aber diese Veränderung unerheblich ist weil der Testaufwand sich hierfür hinsichtlich "genauere ELO" nicht lohnt. Insofern Schwelle erreicht hinsichtlich mit dem geringsten Aufwand den größtmöglichen Erfolg ...
Bei 22 Gegnern und 40 Partien pro Match = 840 Partien ist die ELO nach Bayes ca. durchschnittlich 4 ELO genau.
In 3 von 200 Fällen (nach meiner Datenbank) kam es dann zu Abweichungen größer als 20 ELO (maximal waren es 24) nach unten oder oben zum Vergleichs-Ergebnis nach 840 Partien. Damit konnte ich friedlich leben
Bei 10 Gegnern und 40 Partien pro Match = 360 Partien ist die ELO nach Bayes als Beispiel um ca. durchschnittlich 21 ELO genau.
Simuliere ich zu den 10 Gegnern nun 160 Partien pro Match hinzu bleibt im Grunde die Abweichung von ca. 19 ELO.
Es müssen extrem viele Partien gespielt werden um bei 10 Gegner in einer Liste Ausgaben zu erzeugen die vergleichbar sind mit einer Liste wo mehr Gegner wesentlich weniger Partien gespielt haben.
Eine Ratingliste die z. B. also nur 10 Gegner hat liefert Werte die um 19 ELO genau sind wenn ca. das 20fache als 40 Partien gespielt wurden sind.. Sind die Gegner im Grunde noch grob gleich (beruhen auf gleichen Sourcen, gleiches Spielverhalten etc..) fällt der Wert logischer Weise noch ein wenig krasser aus.
Meines Erachtens macht es daher eher Sinn einen Test zu weit es geht hinsichtlich Anzahl der notwendigen Partien zu minimieren (unnötige Stromkosten sollten vermieden werden) um eine ausreichende Aussage über die Spielstärke zu definieren.
Die Frage die interessant ist:
Wie kann ich die 840 Partien weiter minimieren und gute Aussagen zu erhalten. Oder ...
Wie viele Gegner brauche ich wenn ich nur 20 Partien pro Match spielen lasse um die 4 ELO durchschnittliche Abweichung zu erhalten. Wahrscheinlich nicht die doppelte Anzahl an Gegner, sprich 44.
Und insofern verringert sich die notwendige Anzahl an Partien je mehr Gegner hinzukommen.
Nach meiner Erfahrung mit Ratinglisten ist das der wichtigste Faktor für genaue Zahlen in Anbetracht dessen den Testaufwand so weit es geht zu minimieren.
Zwar spielen auch Bedenkzeit, Endspieldatenbanken, Hash, Ponder etc. eine Rolle aber diese Beeinflussungsfaktoren sind nicht so gravierend wichtig als Anzahl der Gegner hinsichtlich genaue Ausgaben in unserer eigentlich ungenauen ELO Berechnung.
Viele Grüße
Frank