Code:
Diese große Zahl der Gegner, deren relative Stärke häufig nur sehr wenige interessieren, stellt aber auch einen möglichen Kritikpunkt dar. Wenn einer ruft "Ich will 'ne starke Engine!" dann interessiert ihn häufig halt besonders ihre Gewinnaussichten gegen die top-10-Engines.
Ja, aber damit kannst Du keine genaue ELO messen, weil zu wenige Gegner spielen. Wir haben heit das Problem, dass zwischen den Gruppen der TOP-30 die Lücken zu weit auseinanderklaffen. Wir haben die TOP-7 und ab Nummer 8 Naum dann wieder eine Gruppe. Und dann ab 2.675 runter wieder eine Gruppe. Starkes oberes Feld, starkes Mittelfeld und starkes untere Feld mit großen Lücken dazwischen.
Nochmals, ob gegen schwächere oder stärkere Engines getestet wird macht laut meinen Analysen 3 ELO durchschnittlich zu Gunsten der Schwächeren aus. Du kannst das wie gesagt alles anhand der SWCR Datenbank nachvollziehen. Das heißt, die schwächeren nehmen durchschnittlich den stärkeren eher Punkte ab. Zu groben Verschiebungen in einer Ratingliste kommt es dadurch nicht.
ELO ist ELO
Gestestet wird gegen das was getestet werden kann und was technisch möglich ist. Es kommt hierbei eine Wertungszahl heraus, die das Ergebnis von einem möglichen Test widerspiegelt. Diese Ergebnisse sind bei den großen Listen +- fast identisch. Die Frage von Dir erübrigt sich, zumal wir davon ausgehen können, dass somit in etwa ein richtiger Wert herauskommt. Jetzt mal unabhängig davon auf welche Engine mit welcher ELO eine Liste geeicht wird. Für wichtiger halte ich es danach zu schauen, wie die Differenzen zwischen den Engines sind oder ob sich neue Versionen verbessert haben oder nicht. Das macht Sinn zu vergleichen und ist eigentlich das Ziel einer größeren Gegenüberstellung mittels einer Tabelle bzw. Ratingliste.
Zu Deinem "Übrigens":
Bei der SWCR ja 40 Partien pro Match, mehr oder weniger immer 40 Runden.
Nun spielt Engine A in Runde 1 sehr gut und in Runde 2 sehr gut. In den folgenden Runden 3-38 normal und in den Runden 39 und 40 eher schlecht. Damit will ich sagen, es gibt öfters mal gute und schlechte Runden. Überwiegend sind es aber Runden mit gleichmäßigen Resultaten.
Vergleichbar mit:
Engine A - Engine B, 14 : 6
Engine A - Engine B, 12 : 8
Engine A - Engine B, 13 : 7
plötzlich
Engine A - Engine B, 18 : 2 ... das passiert ultra- selten schon bei 20 Partien und erst Recht bei 40 Partien.
Der Durchschnittswert aller Partien bildet dann ein Endergebnis.
Schauen wir auf die einzelnen Endergebnisse nach 40 Partien, und vergleichen mit dem Gesamtergebnis nach z. B. 1.200 Partien gegen 30 Gegner fällt auf, dass es nur sehr sehr selten Ergebnisse nach 40 Partien gibt, die dem Gesamtergebnis nicht entsprechen.
Die Frage ist dann ...
Zufall oder Erklärung, meist gibt es eher die Erklärung (Angstgegner).
Das wiederum fällt auf wenn z. B. eine Nachfolgeversion gegen den gleichen Gegner wieder Angstgegner Resultate erzielt.
Lange Rede ...
Suchen nach Schwachstellen von einem Ratinglistensystem ist schwierig. Wäre dankbar wenn herausgefunden wird das es welche gibt denn das dient der zukünftigen Verbesserung. Zu begründen mit Zufallsergebnissen ist aufgrund der Wahrscheinlichkeitsberechnungen dumm, zu selten sind wirkliche Ergebnisse Zufallsergebnisse. Jedes Ergebnis was aus der Reihe tanzt mit ErrorBar als Zufall zu begründen macht nicht nur keinen Sinn, sondern entspricht meist nicht den Tatsachen (andere Gründe).
Gruß
Frank