So rein Stochastisch betrachtet (und gänzlich ohne ein realistisches oder auch romantisch verklärtes
"Meine Engine kann aber besonders gut gegen jene Engine!") ist wohl unstrittig:
264 ELO-Differenz entsprechen einer 82:18-Überlegenheit
In Abhängigkeit von der Remis-Wahrscheinlichkeit, die ich leider nur schätzen kann (wie würdest du diese bei 264 ELO-Differenz schätzen?), gilt dann:
Code:
P(remis) P(2:0 für den Schwächeren)
0,10 0,017
0,14 0,012
0,20 0,006
Derartige Betrachtungen sind sicher dann gut, wenn diese ELO-Differenz das einzige ist, was man wirklich weiß.
Die Ergebnisse werden Durchschnittlich korrekt sein. Es wird nach meiner Erwartung keine bessere Methode geben.
Wenn du mehr
weißt (Also kein Bauchgefühl, Ahnung, Beobachtung aus nur vglw. wenigen Parien), wenn du also gutes, hartes und belastbares Wissen hast, dann wird es sicher sinnvoll sein, auch dieses neben der ELO-Differenz, bei der Abschätzung der sicherlich auch dann ganz realen, konkreten (nur eben leider nicht unbedingt genau bekannten) Wahrscheinlichkeiten einfließen zu lassen.
Mein Script berechnet sicherlich korrekt die Wahrscheinlichkeiten der Ausgänge solcher Testreihen.
Es geht aber von Wahrscheinlichkeiten aus für Sieg, Remis und Niederlage in der einzelnen Partie aus.
Wenn die nicht korrekt sind, z.B. weil ein ELO-Wert fasch war, oder weil A tatsächlich besonders gut gegen B kann (was dann aber bitte belastbar belegt werden sollte), dann stimmen natürlich auch die Ausgaben nicht.
In den allermeisten Fällen, denke ich, bietet die ELO-Differenz und eine für die jeweiligen Bedingungen geschätzte Remis-Wahrscheinlichkeit aber eine recht gute Basis!
BTW:
Sequenzen von 2 Partien hast du vermutlich sehr viele Tausende, richtig?
Unter diesen werden ganz sicher sehr viele (Hast du mehr als 100.000 Partien gespielt? Dann währen es vermutlich mehr als 1000!!) sein, die diesen eigentlich ziemlich unwahrscheinlichen Ausgang zeigen.
Benno