Hallo,
komme zurück zum ErrBar Thema in den Berechnungsprogrammen.
Bin ja der Meinung, dass diese in allen 4 Modellen nicht korrekt berechnet wird.
Ordo 0.8, Bayesian 0056, Bayesian 0057.3, ELOstat 1.3
Die Berechnungsprogramme weichen minimal bei den Ausgaben ab, also vier Ansätze sind hier enthalten.
In keinem der Ansätze kommt die Anzahl der Gegner zum Tragen.
Also die Ausgabe der ErrorBar bei z. B. 1.000 Partien gegen einen Gegner oder bei 1.000 Partien gegen 20 Gegner ist immer die Gleiche.
Mit mehr Gegner wird die Ausgabe in Elo aber genauer und mithin müsste sich die ErrorBar korrigieren bzw. nach unten regulieren.
Nun halte ich in der SWCR2 mal ein wenig statistisch fest.
Je nach 100 Partien werte ich aus und habe mittlerweile schon über 120 ... 100er Ergebnisse.
Hier mal vom letzten Test: Fire 3.0 AVX x64
Es fließen also bei 1.000 Partien 10 Ergebnisse ein.
Code:
Stats after 100, 200 ... games! Elo Games Score Draws White Black Points w/ d/ l
05. Fire 3.0 AVX x64 2964 1.000 66.7% 37.8% 35,0 31,0 66,0 45/42/13 -0,7
05. Fire 3.0 AVX x64 2964 900 66.8% 37.3% 33,5 31,0 64,5 42/45/13 -2,2
05. Fire 3.0 AVX x64 2967 800 67.1% 36.4% 37,5 30,5 68,0 49/38/13 +1,3
05. Fire 3.0 AVX x64 2965 700 66.9% 36.1% 34,0 30,0 64,0 45/38/17 -2,7
05. Fire 3.0 AVX x64 2968 600 67.4% 35.8% 36,0 31,0 67,0 50/34/16 +0,3
05. Fire 3.0 AVX x64 2968 500 67.5% 36.2% 37,0 29,5 66,5 47/39/14 -0,2
05. Fire 3.0 AVX x64 2970 400 67.8% 35.5% 36,0 34,5 70,5 55/31/14 +3,8
05. Fire 3.0 AVX x64 2964 300 66.8% 37.0% 33,5 28,5 62,0 43/38/19 -4,7
05. Fire 3.0 AVX x64 2983 200 69.2% 36.5% 39,5 31,0 70,5 54/33/13 +3,8
05. Fire 3.0 AVX x64 2973 100 68.0% 40.0% 36,5 31,5 68,0 48/40/12 +1,3
Überprüft kann die ErrBar nun anhand von dem praktischen Beispiel weit weg von statistischen Regeln und Grundsätzen, die meines Erachtens so nicht greifen können weil unser Thema Schach nicht mit einer Schablone über Statistik gesetzt / gelegt werden kann bzw. eingeschränkt.
Die Frage ist nun aber, wie werte ich die SWCR2 Ergebnisse statistisch aus?
Mit einem einfachen Mittelwert?
Fire 3.0 AVX x64 hat also 667 von 1.000 möglichen Punkten erzielt.
Ergibt einen Durchschnitt von 66,7 Punkten (siehe am Ende der Tabelle die Abweichungen).
Höchste Abweichung nach oben = +3,8
Höchste Abweichung nach unten = -4,7
Im Grunde ist es einfach nun festzustellen wie hoch die höchste und niedrigste Abweichung in ELO bei 100 Partien wäre.
Das ist nicht das Thema ...
Das Thema ist eher die 120 Statistiken der 100er Partieserien unter einem Hut zu bekommen.
Stelle mir folgendes vor:
Wahrscheinlichkeit von 80% +- Elo
Wahrscheinlichkeit von 90% +- Elo
Wahrscheinlichkeit von 95% +- Elo
Also, mit einer Wahrscheinlichkeit von 80% wird das Ergebnis zwischen Elo x und Elo y liegen
Mit einer Wahrscheinlichkeit von 90% wird das Ergebnis zwischen Elo x und Elo y liegen
Mit einer Wahrscheinlichkeit von 95% wird das Ergebnis zwischen Elo x und Elo y liegen
Bei den dummen Auswertungsprogrammen bekomme ich maximal bei 100 Partien die Ausgabe +- 60.
Dies ist nach meinen bisherigen SWCR1 Ergebnisse deutlich zu hoch.
Blitzeinschlagtheorien, welche viele User zu übertriebenen Partiemengen animiert um die ErrorBar niedrig zu halten bzw. ein Ergebnis zu untermauern.Wenn diese Aufgabe gelöst ist, kann im Grunde das gleiche Prinzip mit vorhandenen Daten auf 19, 18, 17, 16, 15 Gegner gezogen werden und Bingo, eine genauere Prognose nach Anzahl der Gegner bei einem Turnier wird das Ergebnis sein und mithin wird auch schnell deutlich, das übertriebene Mengen an Partien für die Ermittlung einer Spielstärke gar nicht notwendig sind.
Viele Grüße
Frank