Hi Ingo,
denke Du spricht mich an.
Kannst mich ruhig beim Namen nennen!
Das es nach 800 Partien noch zu Abweichungen von 20 ELO kommen kann ist auch mir völlig klar.
Könnte sogar 30 sein und über der ErrorBar liegen.
Das habe ich nie in Abrede gestellt.
Aber das sind Fälle die praktisch so selten eintreten, dass sie vernachlässigt werden können.
Das ist mein Aufhänger.
Von Fällen zu sprechen, die quasi fast nie eintreten ist Nonsens.
Daher macht es keinen Sinn tausende von Partien spielen zu lassen um sicher zu sein das der Quasi - Nie - Fall dann wirklich nicht eintritt.
Das hat etwas mit ErrorBar-Verfolgungswahn zu tun
Wenn ich meine ganzen Testergebnisse zusammenziehen, von 15 Jahren bei weit mehr als 300 getestete Engines ... dann hatte ich diesen Fall jetzt 6x. Und nur 1x deutlich über der ausgewiesenen ErrorBar (beim Endergebnis) ... auch das kommt vor.
Insofern, ob 2.000 Partien gespielt wurden oder ob 800 Partien gespielt wurden ...
Das passiert auch nach 2.000 Partien dann, wenn die Anzahl der Gegner nicht ausreicht oder zu viele Angstgegner unter den Gegner waren, oftmals zu viele Versionen von einem Programm.
Möchte das auch nicht immer wieder schreiben nur weil Du dich an etwas aufhängst was Du offenbar statistisch gesehen nie verfolgt hast. Ich verfolgte jede einzelne getestete Engines, bzw. habe für jedes getestete Programm eine ELO-Entwicklungskurve. Daraus ziehe ich meine Aussagen und Auswertungen und nicht aus einer dämlichen Was-Wäre-Wenn-Error-Bar Berechnung die zu viele Fehler hat.
Fehler die erst Recht auffallen wenn verglichen wird.
Ergebnis nach 100, 200, 300, 400, 500 etc. Partien.
Denn es ist nicht nur interessant zu vergleichen was die ErrorBar für Statistiken beim Endergebnis nach sagen wir mal 2.000 Partien ausgibt, sondern was die ErrorBar ausgegeben hat nach 100, 200, 300, 400, 500 Partien. Und wenn Du das mal verfolgst wirst Du jegliche ErrorBar Thesen ... die eh nur einen Anhaltspunkt bilden ... über den Jordan schütten. Wobei die ErrorBar Ausgaben von Bayesian im Vergleich zu ELOstat ja noch ganz OK sind bzw. sich die Fehler bei den ermittelten Werten minimieren.
Hoffe nun, zum 1.000x etwas klarer!
Sich mit einem Thema etwas intensiver beschäftigen ist immer besser als nur Zahlen abzulesen! Du kannst das selbst mal verfolgen und nach 680 Partien auf den 1/52 Fall warten oder verfolgen was nach 100, 200, 300, 400, 500, 600, 680 Partien passiert und statistisch festhalten wie oft sich die ErrorBar geirrt hat.
In der SWCR bislang nach dieser Statistik bei 98 getesteten Engines = 42x passiert.
Gruß
Frank