Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / frage zur darstellung von elo zahlen in listen
- - By guest171218 Date 2018-08-24 19:20
Hallo,

in fast allen listen wird wie folgt angegeben:

programm A | ELO 3200 | +9 -9 | ...

ich habe das bisher immer so interpretiert, daß
die wahrscheinlichste elo-zahl eben 3200 ist.
am "zweit" wahrscheinlichsten ist dann 3199 oder 3201
am "dritt" wahrscheinlichsten ist dann 3198 oder 3202
...
am "neunt" wahrscheinlichsten ist dann 3191 oder 3209.

daß 5% aller ergebnisse ohnehin ausserhalb der +-
liegen können, soll für dieses beispiel erst einmal
keine rolle spielen.

nun hat mir ein kollege erzählt, er hat wohl mehr
ahnung als ich von diesen dingen, daß dies so nicht
richtig ist. laut ihm ist jede der oben genannten
möglichkeiten gleich wahrscheinlich?!

stimmt das?

Gruß MiKa.
Parent - - By Guenter Stertenbrink Date 2018-08-25 11:05 Edited 2018-08-25 11:08
wie Sie sagen

der Kollege meinte vielleicht die beiden Werte 3200+x,3200-x sind etwa gleichwahrscheinlich

(zusammen ("oder") groesser als 3200+0 )

die genauen Werte fuer die einzelnen Wahrscheinlichkeiten kann man wohl auch in Tabellen nachgucken
und es gibt einfache Programme dafuer

https://de.wikipedia.org/wiki/Konfidenzintervall
Parent - - By guest171218 Date 2018-08-25 11:42
Hallo,

danke für die informationen. das alles übersteigt mein wissen bei weitem!
auch ist mir jetzt nicht klar ob ihre darlegung nun bedeutet ob ich falsch
oder richtig liege? ich dachte bisher die errechnungsprogramme wie elo-stat,
ordo und so weiter, stellen den wahrscheinlichsten wert dar, in meinem
beispiel also 3200, und alle weiteren werte wären weniger wahrscheinlich?!

Gruß MiKa.
Parent - - By Guenter Stertenbrink Date 2018-08-25 12:00
kann man im wesentlichen so sagen.

Annehmend, dass die Werte normal/binomial verteilt sind, was vereinfachend und meist vernuenftig ist.

Genau genommen, ist es der "Erwartungswert", welcher bei anderen Verteilungen nicht immer auch der
wahrscheinlichste Wert ist, aber bei Elos mit vielen Gegnern kommt das meist gut hin, und ist halt einfacher.
Parent - - By guest171218 Date 2018-08-25 12:02
Hallo,

im nachhinein sehe ich, daß ich mich zu unpräzise ausgedrückt habe.
ich will versuchen es auf den punkt zu bringen:
der kollege meinte, in meinem beispiel, 3209 und 3191 sind genauso
wahrscheinlich wie die dargestellen 3200. und das leuchtet mir
einfach nicht ein.

Gruß MiKa.
Parent - - By Guenter Stertenbrink Date 2018-08-25 13:09
mir auch nicht
Parent - By Michael Scheidl Date 2018-08-25 13:28
Der singuläre Wert ist halt irgendwie unsicher und diese Bandbreite ist realistischer. Wobei ich wegen +/- 9 Elo nicht Statistik studieren würde
Parent - - By Wolfgang Battig Date 2018-08-25 12:08
MiKa schrieb:

Hallo,

danke für die informationen. das alles übersteigt mein wissen bei weitem!
auch ist mir jetzt nicht klar ob ihre darlegung nun bedeutet ob ich falsch
oder richtig liege? ich dachte bisher die errechnungsprogramme wie elo-stat,
ordo und so weiter, stellen den wahrscheinlichsten wert dar, in meinem
beispiel also 3200, und alle weiteren werte wären weniger wahrscheinlich?!

Gruß MiKa.


Moin,

ohne jetzt wirklich Ahnung davon zu haben (ich teste "nur", für Statistik + Co. sind bei uns andere zuständig...), bedeutet der Wert der da steht, also z.B. 3200, die aktuelle, aus den bisherigen Ergebnissen errechnete Wertungszahl. Die Engine hat also jetzt gerade 3200 Punkte.

+/- 9 bedeutet, dass dieser Wert mit sehr hoher Wahrscheinlichkeit (glaube 95% oder so?!) um nicht mehr als eben diese 9 Punkte nach oben oder unten schwanken wird, wenn weitere Partien gespielt werden. Also im "Normalfall" nicht unter 3191 fallen bzw. nicht über 3209 steigen wird.

Je mehr Partien eine Engine gespielt hat umso enger ist das Fenster. Der alten Rybka 4.0 x64 1CPU hat in unserer 40/4-Liste über 16.000 Partien gespielt, da liegt das Intervall bei +/- 4. Der relativ neue Pedone 1.8 x64 1CPU hat bisher nur 700 Partien, das Intervall liegt bei +/- 20.

Daher auch immer die Warnung der Tester/Listenbetreiber nicht schon nach ein paar (hundert) Partien irgendwelche weitgehenden Schlüsse zu ziehen. Wenn ich so Sätze lese wie "LCO hat mit 6:4 gegen Komodo gewonnen und ist somit stärker" stellen sich mir die Nackenhaare auf, weil das aus mehreren Gründen Schwachsinn ist.

- viel zu wenig Partien: 50-100 pro Match sollten es schon mindestens sein
- nur ein (!!) Gegner: 10 (bei 100 Partien) bis 20 (bei 50 Partien) sollten es schon mindestens sein, es sei denn man spielt 1000er Matches wie z.B. Stefan Pohl. Da sind schon aus Zeitgründen ein paar weniger angesagt, 5 vielleicht.

Aber das ist ein Kampf gegen Windmühlenflügel
Parent - By Michael Scheidl Date 2018-08-25 13:19
Was ich am 95%-Intervall interessant finde ist, daß eine 5%-Restchance besteht daß die "wahre" Spielstärke sogar außerhalb davon liegt. Vermutlich nicht realistisch, aber rein rechnerisch bedeutet das: In einem von zwanzig Fällen. Wobei, wenn eine Engine wirklich außerhalb dessen liegt werden es nicht hunderte Elos sein sondern eher nur im einstelligen Bereich. Ich denke die üblichen guten Testbedingungen der Ratingagenturen lassen keine grobe Fehlbewertung zu.
Parent - By Guenter Stertenbrink Date 2018-08-25 13:21
als Faustregel nehm ich immer die 10000 Partien von nextchessmove mit etwa +-4.5
dann braucht man 4 mal so viele Partien um das zu halbieren.

Wobei natuerlich die 95% ziemlich willkuerlich sind, ist halt so eine statistische Konvention,
z.B. Medikamenten-Nebenwirkungen , oder Qualitaetskontrollen - bei sowas kann man
kein grosses Risiko eingehen.
Fuer Elos halte ich 90% oder 80% fuer besser.

Mit meinen 1000 Partien lag ich im Durchschnitt auch +-4 vom
Durchschnitt aller 1000er Messungen entfernt

Damals testete ich noch 1s pro Zug , nun meist 10s+20ms pro Partie.
Ich versteh nicht, warum Ratinglisten meist nur so lange Bedenkzeiten haben,
das dauert ja viel laenger und gibt meist auch keine anderen Elos.
Parent - - By Frank Brenner Date 2018-08-25 13:46 Edited 2018-08-25 13:48
Das berühmteste Beispiel in der Literatur war das 3,5:2,5 Ergebnis von DB vs Kasparov 1997. Die weltweite Presse datiert dieses Match als das Schlüsselereignis an dem die Maschinen im Schachspiel an der Menschheit vorbeizog.

Was ich aber in den letzten Jahren gelegentlich erlebt habe ist, daß ein Tester ein paar Tests macht, sagen wir A und B, und über das Ergebnis überrascht ist und dann einfach  einfach behauptet, daß dann wohl A am linken Rand des  95% Iintervalls und B  am Rechten Rand des  95% Intervalls gelandet sei, anstatt auch nur eine Minute darüber nachzudenken ob vielleicht  bei sich selbst, also in seinem Testaufbau ein Fehler verborgen liegt.
Parent - - By Michael Scheidl Date 2018-08-25 14:21
Zitat:
in seinem Testaufbau ein Fehler

Das ist wirklich eine Kunst die viele nicht beherrschen, was zu einem wahnwitzigen Horror an absurden Resultaten führen kann, die dann von diesen Lemuren ohne Sinn und Verstand in die Foren geknallt werden. Das schlimmste ist wenn nicht verstanden wird, daß Eröffnungsvorgaben nötig sind um unterschiedliche Partien zu erhalten. - Doch vermutlich sollte ich darüber lachen anstatt mich aufzuregen 
Parent - - By Walter Eigenmann Date 2018-08-25 14:55
Michael Scheidl schrieb:

Zitat:
in seinem Testaufbau ein Fehler

Das schlimmste ist wenn nicht verstanden wird, daß Eröffnungsvorgaben nötig sind um unterschiedliche Partien zu erhalten.

Man muss differenzieren. Bei "normalen" Bedenkzeiten und "unterschiedlichen" Turnierteilnehmern kann man problemlos mehrrundige
Engine-Turniere ganz ohne Bücher organisieren und kriegt nicht nur keine Dubletten, sondern auch eine rechte Breite der Eröffnungssysteme.
Denn v.a. in dieser Phase (wo ja oft mehrere gleichwertige Züge bzw. Systeme möglich sind) sind MP-Programme einer gewissen Fluktuation bei
ihrer Zuggenierung unterworfen, was für tüchtig Abwechslung sorgen kann. Habe ich bei meinen eigenen Engine-Turnieren immer wieder
beobachten können. (Eine Untersuchung der TCEC-Partien wiederum käme bei diesen langen BZ ggf. zu einem anderen Ergebnis).

Wer ein möglichst breites Eröffnungsspektrum sehen will, der muss die Programme natürlich diesbezüglich an die Buch-Kandare nehmen,
das ist sicher richtig.

PS: Ich verwende übrigens hie und da immer noch bei Fritz-Turnieren das winzige 5-Moves-Book eines gewissen M.S.
aus dem Jahre letzes Jahrhundert...
Winziges Büchlein, aber interessante Wirkungen...

Gruss: Walter

.
Parent - By Michael Scheidl Date 2018-08-25 16:02
Zitat:
das winzige 5-Moves-Book eines gewissen M.S.

Das schmeichelt mir sehr, wobei alternativ in den Optionen verkürzte folgende Bücher in Betracht kommen:

http://members.aon.at/computerschach/links.htm#downloads

Anwendung auf eigene Gefahr
Parent - By Stefan Pohl Date 2018-08-25 14:58 Edited 2018-08-25 15:05
Wolfgang Battig schrieb:
.
- viel zu wenig Partien: 50-100 pro Match sollten es schon mindestens sein
- nur ein (!!) Gegner: 10 (bei 100 Partien) bis 20 (bei 50 Partien) sollten es schon mindestens sein, es sei denn man spielt 1000er Matches wie z.B. Stefan Pohl. Da sind schon aus Zeitgründen ein paar weniger angesagt, 5 vielleicht.


Es hat nicht nur Zeitgründe, warum ich die Stockfish-Testruns mit 5x1000 Partien durchführe. Lieber wären auch mir 10x500 Partien. Das Problem ist aber, daß es nicht genug starke Gegner für Stockfish gibt. Eigentlich sind nur zwei Gegner wirklich stark (Komodo, Houdini) und schon dahinter klafft eine große Elo-Lücke. Mit 5x1000 Partien sind immerhin 2000 dieser Partien gegen eben diese zwei wirklich starken Gegner. Bei 10x500 wären es nur 1000 (und 4000 gegen 8 deutlich schwächere Gegner). Das halte ich nicht für sinnvoll. Ich führe ja keine Rangliste, sondern teste primär Stockfish und BrainFish. Und das mit sehr kurzen zeitlichen Abständen und daher nur geringen Spielstärkeänderungen. 5000 Partien brauche ich da schon, damit die Meßgenauigkeit überhaupt ausreicht.
Zudem nutzt Thomas Zipproth mein Partienmaterial (welches ja mit seinem 500-Linien HERT Eröffnungsset gespielt wird), um mögliche Lücken bzw. neue Varianten für die Cerebellum-Library zu finden, welche er dann durchkalkuliert und ggf. einbaut. Das war ja auch der primäre Grund, auf das HERT-Eröffnungsset umzustellen (welches ja nur praxisrelevante Eröffnungen aus Engine- und Menschenschach enthält) und die Testbedenkzeit auf 3'+1“ anzuheben. Denn so schlage ich zwei Fliegen mit einer Klappe (was bei meinen begrenzten Hardwareressourcen von großem Vorteil ist), nämlich Stockfish und BrainFish zu testen und gleichzeitig brauchbares Datenmaterial für die Weiterentwicklung der Cerebellum-Library zu liefern. Und mittlerweile habe ich schon 246000 Partien mit dem HERT-Set spielen lassen. Das ist schon eine ganze Menge!
Parent - - By Benno Hartwig Date 2018-08-25 16:40 Edited 2018-08-25 16:52
3200 -9 +9
meint:
- Die Ergebnisse derartiger Tests streuen aber um die tatsächliche (unbekannte) Spielstärke X herum.
   Und nun kam eben 3200 heraus
- Mit 95% Wahrscheinlichkeit liefert so ein Testlauf, wie er jetzt durchgeführt wurde, dann ein Ergebnis, welches zwischen X-9 und X+9 liegt.
- Daraus leitet sich die Aussage ab: mit 95% Wahrscheinlichkeit liegt diese X zwischen 3200-9 und 3200+9

Das bedeutet dann auch
- mit 2,5% Wahrscheinlichkeit ist X kleiner als 3200-9
- mit 2,5% Wahrscheinlichkeit ist X größer als 3200+9

Daraus lässt sich dann auch für andere Wahrscheinlichkeiten berechnen, wie groß die zugehörigen Intervalle sind.
Statt 95% wird auch oft mit 95,45% hantiert, weil damit dann die Abweichung höchstens 2*Standardabweichung ist.

Benno
Parent - - By guest171218 Date 2018-08-27 19:59
Hallo,

vielen dank an alle für die vielen antworten.
trotzdem weiß ich noch immer nicht ob nun mein kollege
oder aber ich näher "dran" waren?

Gruß MiKa.
Parent - - By Benno Hartwig Date 2018-08-27 21:13
Zunächst mal:
Die wahre Spielstärke X ist nicht mit einer bestimmten Wahrscheinlichkeit 3200 und mit einer anderen 3201. Denn die wahre Spielstärke ist ein durch die Gegebenheiten feststehender Wert, nur dass er eben unbekannt ist.
Für eine Aussage "X ist zwischen 3200,5 und 3201,5 (will sagen: ist 3201)" hat dann also die Wahrscheinlichkeit 0 oder 1, nur dass ich dies nicht weiß.
Das meint man also nicht.

Unser Test ist ein Zufallsexperiment, über das wir Wahrscheinlichkeitsaussagen machen können.
Es liefert bei geeigneter Partienzahl und Testverlauf also 95%-Intervalle mit Breite 18. Diese Intervalle sind Ergebnisse eines Zufallsprozesses
Tatsache ist nun, dass solche Intervalle (A,A+18) mit meistens größerer Wahrscheinlichkeit (X-9, X+9) sind als beispielsweise (X-10, X+8) oder gar (X-17, X+1).
Das rechtfertigt dann die sehr laxe Formulierung. "Bei Intervall (3191,3209) hat mit größerer Wahrscheinlichkeit X den Wert 3200 als 3201 oder gar 3209." Weil man eben weiß, was damit gemeint ist.
Und nur in diesem laxen Sinne "ist"(???) also die Wahrscheinlichkeit für 3200 am größten. Etwas kleiner und ungefähr gleich groß "sind" die Wahrscheinlichkeiten für 3199 und 3201". Ganz symmetrisch läuft das AFAIK aber nicht unbedingt weiter.

Benno
Parent - - By Michael Scheidl Date 2018-08-27 22:09
Ich glaube da irrst Du Dich, aber dazu müßten wir einen studierten Statistiker hören. Meines Erachtens verdienen alle Werte innerhalb des Intervalls dieselbe Vertrauenswahrscheinlichkeit (oder wie immer das auch heißen mag...). Ich meine, wenn ein Vertrauensintervall angegeben wird, ist doch nicht der mittlere Wert wahrscheinlicher als die an den Rändern oder sonstwo im Bereich.

Man muß sich mit einer gewissen Unschärfe abfinden
Parent - - By Guenter Stertenbrink Date 2018-08-27 22:28
nee, der mittlere Wert ist wahrscheinlicher
Parent - - By Michael Scheidl Date 2018-08-28 11:13
Ah doch? Danke, dann habe ich das bisher nicht ganz verstanden gehabt. Leuchtet mir nach erneutem nachdenken aber irgendwie ein.
Parent - - By Benno Hartwig Date 2018-08-29 19:47
95% ist ja auch nur ein Ansatz.
mit 99% bekommst du deutlich breitere Intervalle.
Auch dadurch wird klar, dass die dazugenommenen Randbereiche Elo-Werte mit kleineren Wahrscheinlichkeiten haben.
Parent - By guest171218 Date 2018-08-29 19:49
Hallo,

das war zeitgleich! meine Hoffnung kommt ein wenig zurück.

Gruß MiKa.
Parent - - By guest171218 Date 2018-08-29 19:48
Hallo,

an alle:
nun bin ich eher verwirrt als schlauer! ich werde mich gegenüber meinem
kollegen erst einmal zurück halten mit behauptungen, alles scheint (un)klar.

Gruß MiKa.
Parent - By Thomas Müller Date 2018-08-29 21:03
Auszug aus der readme von ELOStat von Dr. Frank Schubert...

Die einzelnen Spalten bedeuten dabei die erspielte (mittlere) Elozahl, die 95%-Fehlergrenzen dieses Elowertes, ausgedrückt in + und - Abweichung

oder...
ELOStat Version 1.3
by Dr. Frank Schubert, 01/2005
--------------------------

Choose program mode:

(1) Rating list
(2) Tournament
(3) Single competition

Wins = 12
Draws = 6
Losses = 2
Av.Op. Elo = 2400

Nach Eingabe der vier Daten durch den Benutzer wird das Gesamtergebnis des Wettkampfes erzeugt:

Result     : 15.0/20 (+12,=6,-2)
Perf.      : 75.0 %
Margins    :
68 %      : (+  6.7,-  8.4 %) -> [ 66.6, 81.7 %]
95 %      : (+ 12.6,- 17.5 %) -> [ 57.5, 87.6 %]
99.7 %    : (+ 17.9,- 28.5 %) -> [ 46.5, 92.9 %]

Elo        : 2591
Margins    :
68 %      : (+ 69,- 71) -> [2520,2660]
95 %      : (+148,-138) -> [2453,2739]
99.7 %    : (+256,-215) -> [2375,2846]

New calculation (y/n) ?

Es wurden demnach 15 von 20 möglichen Punkten erspielt. Aufgeführt sind weiterhin die Fehlergrenzen für 68 %, 95 % und 99.7 % Konfidenz. In der Regel wird das 95 %-Vertrauensintervall angegeben, so wie es auch in der oben besprochenen Rangliste der Fall war. Dafür ergeben sich hier beispielhaft folgende Aussagen: Die (mittlere) Performance beträgt 75.0 % mit einem 95%-Fehler von +12.6 % und -17.5 %, d.h. der wahre Performance-Wert liegt mit einer Wahrscheinlichkeit von 95 % im Intervall zwischen 57.5 und 87.6 %. Der erspielte Elo(mittel)wert beträgt 2591 mit einem 95%-Fehler von +148 und -138, d.h. der wahre Elowert liegt mit einer Wahrscheinlichkeit von 95 % im Intervall zwischen 2453 und 2739 Punkten.
Nach Ausgabe der Ergebnisse kann der Benutzer wählen, ob er eine weitere Einzelberechnung durchführen möchte, oder das Programm beenden will.
Up Topic Hauptforen / CSS-Forum / frage zur darstellung von elo zahlen in listen

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill