Wenn zwei Engines A und B bei gegebenen Rahmenbedingungen gegeneinander antreten, gibt es ja einen i.A. unbekannten Erwartungswert E(A,B), mit dem A gegen B Punkte holt (z.B. 0,6)
Wenn diese Engines dann testweise eine Anzahl Partien machen (z.B. 100, +28 =60 -12) erhalte ich einen Schätzwert SE(A,B)=0,58 für E(A,B), der aber i.A. nicht genau stimmen wird.
SE(A,B) ist also Zufallsvariable mit dem Erwartungswert E(A,B)
Wie kann ich aus solch einer Testreihe nun einen vernünftigen Schätzwert für die Verlässlichkeit von SE(A,B) angeben, für die Varianz oder Standardabweichung?
Oder noch besser noch: Für die Varianz der Elo-Differenz, die dieser Quote entspricht?
Kennt jemand von euch eine Seite, die dies ein wenig beleuchtet?
Ich denke, bei den Rating-Listen werden ähnliche Überlegungen (automatisiert) doch regelmäßig gemacht.