Hi,
gehe sogar noch weiter ... die Berechnungen werden gar genauer als bei CEGT und IPON
Wenn alle mit 2.870 bewertet werden und dann eine Engine gegen Durchschnitt 2.870 getestet wird.
Warum?
Shredder 12 w32 ist das Problem.
Habe ja fast 10.000 Shredder Partien in der SWCR.
Nehme ich nur die "moderneren neueren Engines, meist Engines die auch deutlich besser sind" kommt Shredder 12 w32 gerade mal auf 2.770. Gegen ca. gleich starke spielt Shredder erfolgreich und erreicht ca. 2.810 und gegen schwächere ca. 2.820. Wird nun eine ganz Liste auf Shredder geeicht und das Verhältnis von schwächer, gleich, stärker stimmt nicht werden alle ELOs der aufgenommenen Engines mit beeinflusst, egal wie viele Partien dann vorhanden sind. Weil ja alles auf Shredder geeicht wird.
Um genauere ELO Zahlen zu produzieren müssten wir eigentlich sagen:
Shredder fest mit 2.800, Rybka fest mit 2.950, Protrector fest mit 2.850 und je mehr dazu kommen desto genauer das Ergebnis aller anderen.
Und wenn wir direkt für 19 einen festen Wert setzen, nach allen vorliegenden Ergebnissen der testenden Gemeinschaft" wird das Ergebnis der getesteten Engine genauer.
Logisch ...
1000 Partien sind besser als 100
100 Gegner sind besser als 10
10 feste Eichungen sind besser als 1
Im Grunde brauchen wir hierzu ja die ELO nicht.
Stockfish 4 erreicht nach 1.000 Partien gegen 21 Gegner ein 700:300
Stockfish x erreicht nach 1.000 Partien gegen 21 Gegner (gleiche Gegner, gleiche Voraussetzungen) ein 720 : 280
Aber da wir ja alles in ELO ausdrücken wollen ... und diese möglichst genau sein soll.
Wobei ich denke, die richtige Gewichtung ist nach diesen Experimenten:
1. Viele Gegner um einen sicheren Durchschnittswert zu ermitteln.
2. Anzahl der Partien
Je mehr Gegner desto weniger Partien werden notwendig.
Gruß
Frank
Oder ...
Nehmen wir an Ingo würde einen Ferret testen der gerade von Bruce Morland herausgekommen ist.
Er setzt seine TOP-20 an ... Er könnte den Durchschnitt der TOP-20 errechnen und alle mit 2.870 antreten lassen wenn 2.870 der Durchschnitt ist.
Das Endergebnis ist das Gleiche.
Gruß
Frank