Zusammenhang: Erfolgsquote - ELO-Differenz (IPON)

By Ingo Bauer Date 2011-07-05 15:32

Hallo Benno

[quote="Benno Hartwig"]
Wenn eine Engine um eine ELO-Differenz stärker ist als eine andere Engine, dann berechnet sich der Erwartungswert der Erfolgsquote ja nach der Formel

ErwQuote = 1 / (1 + 10^(-EloDifferenz/400))

(gemäß z.B. http://de.wikipedia.org/wiki/Elo-Zahl)

Mich hatte nun interessiert, ob Schachcomputer so tatsächlich spielen. Das könnte im Mittel schon so sein. Und vielleicht die meisten erwarten dies.
Es wäre aber auch denkbar, dass sie z.B. häufiger gegen deutlich schwächere Gegner stärker punkten, gegen die annähernd gleichstarken aber weniger als es zu erwarten wäre. (das hatte ich für sehr gut möglich gehalten, war die These, die mich eigentlich interessierte)
Oder eben auch umgekehrt: gemessen an der Erwartung nur mühsames Punkten gegen die Schwachen, erstaunlich erfolgreiches Spiel gegen die Engines, denen sie nur wenig überlegen sind.
Wollte ich mir mal ansehen.

Die Ranglistenbetreiber bieten ja schönes Material (thanx an alle) und ich fing mal mit der IPON-Statistik an.
Herausgekommen ist aber überraschenderweise:

Die x-Achse weist die ELO-Differenzen aus, die y-Achse den Erfolgsquotienten
(200 ; 0.8) bedeutet dann: "bei 200 Elo Vorteil wurde 80% der Punkte geholt."
Die dunkelblauen Punkte sind die Paarungen aus der IPON-Liste.
Die hellblaue Kurve ist eine Trendlinie darüber (Polynom 3. Grades)
Die rote Kurve ist der Zusammenhang, der sich im Mittel gemäß der o.a. ELO-Formel einstellen sollte.

Und überraschenderweise stellte sich dieser dieser Zusammenhang überhaupt nicht ein!
Es gab auch kein 'mal drüber und mal drunter'.
Die realen Werte sind konsequent mehr oder weniger höher als sie 'sein sollten'!
Bei gegebenem ELO-Abstand sind die erspielten IPON-Quotienten (die Erfolge) ein gutes Stück zu groß!
Be gegebenem Quotienten sind die IPON-ELO-Differenzen ein gutes Stück zu klein!
Beispiel: Der Erfolg (ca. 0,785) der gemäß IPON zu 200 ELO-Differenz führt, sollte eigentlich annähernd zu der ELO-Differenz 230 führen.

Irgendwie pass das nicht zu sammen?
* Die Formel, die ich anwandte (s.o.) wird korrekt sein.
* die ELO-Werte, die Ingo in der IPON-Liste errechnet, werden doch mit etablierten Tools gewonnen.

Spontan muss man doch denken, dass irgendwo ein Fehler drin steckt:
* In der ELO-Formel? (na, die stellt doch eher die Definition von ELO dar, oder)
* in der ELO-Generierung in der IPON-Liste? (dank der Standard-Tools glaube ich daran eigentlich auch nicht. Zugegeben, das war trotzdem mein erster Gedanke gewesen.)
* Mein kleines Datensammelprogramm? (wäre peinlich. Es ist aber so simpel, dass ich daran auch nicht glaube!)
* Oder irgendein grundsätzlicher Denkfehler von mir?

Es ist da was falsch!
Aber was genau ist es, was da eigentlich falsch ist?

Benno
[/quote]

Ich würde darauf tippen, dass es daran liegt das Bayeselo eben nicht die reine Eloberechnung anwendet!

200 Elo sind 0.7597 die 0.785 wären 224 Elo. Das gibt die Eloformel her.

Bayes und Elostat liefern ja andere Kurven. Hast du das mit meinen Bayeselo verglichen? Deine Formelgrundlage läßt Wahrscheinlichkeiten ausser acht, Bayes nicht (aber das geht weit über meinen Horizont). Ich würde erwarten, das sie eher zur den Elostatergebnissen paßt. Diese Elos sind auch bei mir im Download. Hast du das auch verglichen und sieht das da genauso aus? Ich würde ein deutliches angleichen der Kurven erwarten. Allerdings liegt Elostat bei den Top Engines eher noch höher ... seltsam, muß ich noch drüber nachdenken (oder warten bis einer mit Ahnung hier etwas schreibt

)

Die andere interessante Erkenntniss ist, das man bei einem gegebenen Abstand (100, 150, 200 ...) Elo immer ungefähr ein Rauschen von 0.15 bis 0.18 hat (optisch schwer zu entscheiden). Das zeigt sehr schön welche Abweichungen Tests gegen Einzelengines haben können und was die Vergleiche von 'Ich habe 20/50/100 spiele gegen EINE Engine gespielt und das Ergebniss ist eindeutig' Wert sind!

Gruß
Ingo

By Ingo Bauer Date 2011-07-05 15:50

Hallo

Nur noch zur Info: 0.15 sind immerhin rund 300 Elo. Also +/- 150 Elo gegenüber der realen Eloleistung sind im Test gegen EINE Engine immer möglich - sollte der Wert größer als 0.15 sein, wird es natürlich noch mehr!

Gruß
Ingo

By Benno Hartwig Date 2011-07-05 20:21

[quote="Ingo Bauer"]Bayes und Elostat liefern ja andere Kurven. Hast du das mit meinen Bayeselo verglichen? Deine Formelgrundlage läßt Wahrscheinlichkeiten ausser acht, Bayes nicht (aber das geht weit über meinen Horizont).[/quote]Ich weiß nicht, was du damit meinst (Vielleicht kenntst du eine informative Seite?)

Die ELO-Formel gibt für die ELO-Differenzen an, welche Erfolgsquote erwartet werden kann (wohl im Sinne von 'Erwartungswert' aus der Wahrscheinlichkeitsrechnung)
Und augehend von den ELO-Werten, die deine Liste bietet (bzw. den ELO-Differenzen, die sich daraus ergeben) präsentierst du Ergebnisse, die einigermßen deutlich und systematisch neben den erwarteten Werten liegen. Ich habe dafür bislang keine Erklärung.

[quote="Ingo Bauer"]Diese Elos sind auch bei mir im Download. Hast du das auch verglichen und sieht das da genauso aus?[/quote]Basis meiner Grafik sind die ELO-Werte und die Ergebnisse aus deiner Datei individual.dat.

Code:

   1 Houdini 1.5a             3013 3900.0 (3119.5 : 780.5)
                                   100.0 ( 58.0 :  42.0) Deep Rybka 4             2955
                                   100.0 ( 60.0 :  40.0) Komodo 2.03 DC SSE42     2955
                                   100.0 ( 62.5 :  37.5) Critter 1.2 SSE42        2952
                                   100.0 ( 57.5 :  42.5) Deep Rybka 4.1 SSE42     2952
                                   100.0 ( 64.5 :  35.5) Stockfish 2.1.1 JA       2942
                                   100.0 ( 64.5 :  35.5) Critter 1.01 SSE42       2924
                                   100.0 ( 60.5 :  39.5) Stockfish 2.01 JA        2922
                                   100.0 ( 61.5 :  38.5) Stockfish 1.9.1 JA       2902
                                   ...

Da entstand dann beispielsweise ein dunkelblauer Punkt für
ELO-Differenz = 3013-2955=58
mit
Erfolgsquote = 0,600

Benno

By Ingo Bauer Date 2011-07-05 20:46

Hallo,

ich kann nur nochmal auf das was auch schon Werner geschrieben hat verweisen: http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=40123

Bayeselo ist deutlich komplexer als die "platte" Elo Formel.

Ich bin auf die Grafik für Elostat (programs.dat) gespannt!

Gruß
Ingo

By Michael Scheidl Date 2011-07-05 22:58

Bayes-Elo wurde schon erwähnt. - Aber ist die von Dir verwendete Formel nicht nur eine Näherung? Ich glaube, Fritz benutzt dieselbe Formel in den Turniertabellen. Aber wenn ich mit den offiziellen Elodifferenztabellen der FIDE vergleiche, bin ich da oft auf ein paar Punkte Unterschied gekommen.

http://www.fide.com/fide/handbook.html?id=73&view=article
(Die FIDE ändert leider oft die URL dieser zwei Tabellen.)

Ansonsten finde ich die Abweichung in der Grafik nicht dramatisch. Man erkennt eine gewisse Streuung nach oben und unten... Für jeden praktischen Zweck darf es bei sowas ohnehin nicht auf einzelne Prozentpunkte ankommen.

By Werner Mueller Date 2011-07-05 23:42

[quote="Michael Scheidl"]
Bayes-Elo wurde schon erwähnt. - Aber ist die von Dir verwendete Formel nicht nur eine Näherung? Ich glaube, Fritz benutzt dieselbe Formel in den Turniertabellen. Aber wenn ich mit den offiziellen Elodifferenztabellen der FIDE vergleiche, bin ich da oft auf ein paar Punkte Unterschied gekommen.

http://www.fide.com/fide/handbook.html?id=73&view=article
(Die FIDE ändert leider oft die URL dieser zwei Tabellen.)

Ansonsten finde ich die Abweichung in der Grafik nicht dramatisch. Man erkennt eine gewisse Streuung nach oben und unten... Für jeden praktischen Zweck darf es bei sowas ohnehin nicht auf einzelne Prozentpunkte ankommen.
[/quote]
Doch, die Abweichung ist schon gravierend.

Nimm mal den Punkt in dem sich die rote Linie mit 0,9 Erwartung schneidet (so etwa bei 380 ELO Differenz).

D.h. nach roter Linie (ELO-Erwartung) kann sich eine Engine bei 100 Spielen (und bei 380 ELO Differenz) 10 Minuspunkte leisten.
Ingos Engines (wenn sie ein Plus von 380 ELO haben wollen) dürfen nur 7 Punkte verschenken, d.h. 3 Punkte weniger.
3 von 7 sind schon fast 50%.

By Benno Hartwig Date 2011-07-06 07:18

[quote="Michael Scheidl"]Ansonsten finde ich die Abweichung in der Grafik nicht dramatisch. Man erkennt eine gewisse Streuung nach oben und unten... Für jeden praktischen Zweck darf es bei sowas ohnehin nicht auf einzelne Prozentpunkte ankommen.[/quote]'Dramatisch' ist sie sicher nicht.
Aber die blauen Punkte verteilen sich sicher nicht so um die Kurve ihrer Erwartung herum, dass dies noch dem Zufall geschuldet sein könnte.
Sie liegen systematisch zu hoch, und dafür muss es eine Erklärung geben. Und die wüsste ich halt gern.
('Bayes' und 'Durchschnitt des Mittelwerts ist ungleich Mittelwert des Durchschnitts' wurden genannt, könnte was dran sein. Weiß noch nicht...)

Benno

By Werner Mueller Date 2011-07-05 15:32

Ingo verwendet BayesElo http://remi.coulom.free.fr/Bayesian-Elo/ - ich vermute, das ist der Grund.

Jedenfalls - interessante Feststellung.

By Thomas P. Date 2011-07-05 16:00

Das ist ein Mittelwertproblem, dass bei der Eloberechnung häufig vorkommt. Durchschnitt des Mittelwerts ist ungleich Mittelwert des Durchschnitts.

Vor einigen Jahren wurde deshalb eine Änderung in der Eloberechnung durchgeführt. Vorher konnte die Eloberechnung auf Turnierbasis zu grossen Ungerechtigkeiten führen, wenn man gegen sehr schwache Spieler spielte.
Beispiel, man spielt 2 Partien. Eine Partie gegen jemanden mit 400 Elo weniger und eine gegen einen Gleichstarken. Gegen den schwächeren gewinnt man gegen den gleichstarken spielt man remis. Dies resultiert eigentlich in einem Elogewinn, wenn man auf Partienbasis auswertet. Wertet man allerdings auf Turnierbasis aus, so holt man 1.5 Punkte aus zwei Partien =75% gegen eine Elodifferenz von 200. Gegen diese Differenz hat man allerdings einen Erwartungswert von 76%. Das heisst berechnet auf Turnierbasis verliert man Elo anstatt zu gewinnen. Die Diskrepanz wird umso schlimmer, je grösser die Streuung in der Gegnerelo ist.

By Werner Mueller Date 2011-07-05 20:30

[quote="Thomas P."]
Das ist ein Mittelwertproblem, dass bei der Eloberechnung häufig vorkommt. Durchschnitt des Mittelwerts ist ungleich Mittelwert des Durchschnitts.

Vor einigen Jahren wurde deshalb eine Änderung in der Eloberechnung durchgeführt. Vorher konnte die Eloberechnung auf Turnierbasis zu grossen Ungerechtigkeiten führen, wenn man gegen sehr schwache Spieler spielte.
Beispiel, man spielt 2 Partien. Eine Partie gegen jemanden mit 400 Elo weniger und eine gegen einen Gleichstarken. Gegen den schwächeren gewinnt man gegen den gleichstarken spielt man remis. Dies resultiert eigentlich in einem Elogewinn, wenn man auf Partienbasis auswertet. Wertet man allerdings auf Turnierbasis aus, so holt man 1.5 Punkte aus zwei Partien =75% gegen eine Elodifferenz von 200. Gegen diese Differenz hat man allerdings einen Erwartungswert von 76%. Das heisst berechnet auf Turnierbasis verliert man Elo anstatt zu gewinnen. Die Diskrepanz wird umso schlimmer, je grösser die Streuung in der Gegnerelo ist.
[/quote]
Das ist im Prinzip richtig.

FIDE-ELO wird auf Partienbasis ausgewertet und falls die ELO-Differenz größer als 400 ist, wird sie mit 400 angenommen.
Bei der DWZ weiß ich das gar nicht.

'Im Prinzip' deshalb, weil dies nicht der Grund für die von Benno dargestellte Abweichung sein dürfte (jedenfalls nicht in dieser Größenordnung) und das Problem wohl BayesElo-hausgemacht ist.

By Peter Martan Date 2011-07-06 08:13

[quote="Benno Hartwig"]
Es ist da was falsch!
Aber was genau ist es, was da eigentlich falsch ist?
[/quote]

Hallo Benno!
Sehr schön hast du das gemacht!
Nicht, dass ich wirklich Ahnung habe, weil Ingo schreibt, auf so einen würde er noch warten, mit Vermutungen kann ich aber schon auch dienen.

Das mit der fehlenden Transitivität (steht schon in Wiki zur Eloformel und Ratingberechnungen allgemein) ist wahrscheinlich ziemlich wurscht, aber
wer sagt, dass das Ganze überhaupt eine Normalverteilung hat? Ich glaub's eigentlich nicht.
Und dann sind die Variablen, die untersucht werden, für mich absolut nicht unabhängig.
Ich meine, du zählst Ergebnisse von Spielen, die alle von Schachstellungen ausgehen, so ähnlich oder verschieden die schachlich sein mögen, die Ergebnisse werden wieder von Stellungen bestimmt, und dazwischen verläuft das immer nach denselben mehr oder weniger komplizierten Regeln, wie sollen die Ergebnisse selbst unabhängige Variablen sein?

Wäre es eine Normalverteilung, wäre der ChiSquare- Test ab Partiezahlen über 40 die gegebene statistische Berechnungsweise, für abhängige Variablen wäre es McNemar. (Ich hab vor Kurzem fälschlich gesagt Wilcoxon Signed Rank, das wäre ja aber nur für metrische Variablen passend.)
Das sind meine noch verbliebenen Reste aus der Statistik- Vorlesung, die ich beitragen kann, wenn du's wirklich wissen willst, wirst du einen echten Statistiker fragen müssen.

By Benno Hartwig Date 2011-07-06 09:22

[quote="Peter Martan"]Das mit der fehlenden Transitivität (steht schon in Wiki zur Eloformel und Ratingberechnungen allgemein) ist wahrscheinlich ziemlich wurscht, aber
wer sagt, dass das Ganze überhaupt eine Normalverteilung hat? Ich glaub's eigentlich nicht.[/quote]Den Hinweis zur Intransitivität habe ich gelesen ("Diese Folgerung ist aber keineswegs zwingend, ...")
Liege ich mit meiner Vermutung eigentlich daneben, dass aber bei ELO praktisch doch sowas ähnliches wie Transitivität gilt:

Wenn A um DiffAB mehr ELO hat als B,
und B um DiffBC mehr ELO hat als C,
dann wäre bei vielen Spielen zwischen A und C ein Ergebnis zu erwarten (im Sinne von 'Erwartungswert'),
welches einer ELO-Differenz von DiffAB+DiffBC entspricht.

Oder liege ich damit voll daneben?

[quote="Peter Martan"]Und dann sind die Variablen, die untersucht werden, für mich absolut nicht unabhängig.
Ich meine, du zählst Ergebnisse von Spielen, die alle von Schachstellungen ausgehen, so ähnlich oder verschieden die schachlich sein mögen, die Ergebnisse werden wieder von Stellungen bestimmt, und dazwischen verläuft das immer nach denselben mehr oder weniger komplizierten Regeln, wie sollen die Ergebnisse selbst unabhängige Variablen sein?[/quote]Ohne dass ich dies jetzt wirklich belegen kann, glaube ich schon, dass die hier betrachteten Ereignisse in hinreichend guter Näherung unabhängige Zufallsvariablen sind. Das Ergebnis einer Partie hat ja keinerlei Einfluss auf das Ergebnis der nächsten Partie

OK, wenn man sinnvollerweise mit 'Wiederholung bei vertauschten Farben' spielt, mag dies nicht 100%ig zutreffen. Daraus sollte dann aber ggf. höchstens eine leicht größere Neigung zu mehr Ausgleich folgen, denn wenn eine Ausgangsstellung eine Seite im Vorteil bringt, dann hat die schwächere Engine mglw. durchaus eine gute Chance aus diesen beiden Partien ein 1:1 herauszuspielen.
Einen weitern Einwand gegen die 'Unabhängigkeit der einzelnen Partieergebnisse' sehe ich aber nicht.

Benno

By Benno Hartwig Date 2011-07-06 09:47

Sorry, zum letzten Punkt korrigiere ich mich.
Wenn bei verschiedenen Enginebegegnungen immer von denselben Ausgangsstellungen ausgegangen wird (mache ich ja auch), dann besteht schon grundsätzlich eine Abhängigkeit der Ereignisse. ("Wenn die 3. Stellung weiß bevorteilt, dann wird in jeder Begegnung in der 3. Partie die Engine etwas besser punkten, dei weiß haben darf.")
Klar, da hast du recht. Eine gewisse Korrellation der Ergebisse wird da sein. Keine Unabhängigkeit.

Wie wird es sich auswirken:
1.) Bei Stellungswiederholung: Neigung zu etwas mehr Ausgleich, aber keine Bevorteilung einer Engine
2.) Ohne Stellungswiederholung und starre Reihenfolge: Bei unglücklicher Stellungswahl könnte prinzipiell eine Engine Vorteil haben, da sie die 'glückliche Startstellungsserie' bekommt. "Wer die Serie kriegt, macht wahrscheinlich ein gutes Ergebnis!"
3.) Ohne Stellungswiederholung und zufällige Reihenfolge (oder nutzung ganz normaler Bücher): doch in sehr guter Näherung unabhängige Zufallsvariablen. Aber stärkeres Rauschen.

Ich bevorzuge trotzdem 1.), das verstärkte Rauschen bei 3.) will ich gern vermeiden, zumal ich nicht weiß, wie groß sein Einfluss ist.

Benno

By Peter Martan Date 2011-07-06 10:12

[quote="Benno Hartwig"]
Einen weitern Einwand gegen die 'Unabhängigkeit der einzelnen Partieergebnisse' sehe ich aber nicht.
[/quote]

Einen weiteren Einwand brauchst du auch nicht, Benno.

So wie ich das sehe, gibt es bei dieser Definitionsfrage kein "bisschen abhängig" und "fast gar nicht abhängig".

Mir persönlich reicht es, dass die Spiele alle nach denselben Regeln ablaufen, also keine reinen Zufallsprodukte sind und woher nimmst du eigentlich die Sicherheit, dass es eine Gauss'sche Glocke ist?
Das mit der Transitivität halte ich auch für vernachlässigbar, verstehe aber erst recht zu wenig davon.

Eines würde ich bei den Celo aber jedenfalls bedenken: Arpad hat sich das ausgedacht, um einen irgendwie relevanten Vergleich zwischen Spielern zu berechnen, die eben nicht dauernd 1000 Spiele- Serien gegeneinander austragen.
Man sollte ihn wirklich selber noch fragen können, ob er für diesen Fall seine Formel überhaupt für gut hielte, wahrscheinlich wär's ihm aber ähnlich wurscht wie mir, als Schachspieler soll er ja selber schon unter dem gelitten haben, was man für einen Fluch aus seiner Wertung gemacht hat, bereits zu seinen Lebzeiten.

By Benno Hartwig Date 2011-07-06 10:31

Zitat:

...woher nimmst du eigentlich die Sicherheit, dass es eine Gauss'sche Glocke ist?

Welche Glockenkurve meinst du? (Welche Zufallsvariable sollte unbedingt solch eine Verteilung haben?)

Wenn zwei Engines sich unter bestimmten Bedingungen begegnen, dann lässt sich in wohl genügend guter Näherung sagen:
Mit Wahrscheinlichkeit pA gewinnt Engine A
Mit Wahrscheinlichkeit pB gewinnt Engine B
Mit Wahrscheinlichkeit pR spielen A und B ein remis.
Wie die Verteilung dann aussieht, hängt von diesen Wahrscheinlichkeiten ab, ganz unabhängig, ab da Schach, Würfeln oder sonstwas im Hintergrund steht.

Benno

By Werner Mueller Date 2011-07-06 10:59

[quote="Benno Hartwig"]
...
Wenn zwei Engines sich unter bestimmten Bedingungen begegnen, dann lässt sich in wohl genügend guter Näherung sagen:
Mit Wahrscheinlichkeit pA gewinnt Engine A
Mit Wahrscheinlichkeit pB gewinnt Engine B
Mit Wahrscheinlichkeit pR spielen A und B ein remis.
...
[/quote]
Auch noch z.B. den Fall zu berücksichtigen, dass ein entnervter Beobachter auftaucht und beiden den Stecker zieht, dürfte des Guten wirklich zuviel sein!

[quote="Ingo Bauer"]
Ich bin auf die Grafik für Elostat (programs.dat) gespannt!
[/quote]
Ich auch!

By Peter Martan Date 2011-07-06 11:15 Edited 2011-07-06 11:18

[quote="Benno Hartwig"]
(Welche Zufallsvariable sollte unbedingt solch eine Verteilung haben?)
[/quote]

Wenn du keine Normalverteilung der Daten hast, brauchst du wieder andere statistische Verfahren, Benno, abgesehen davon, dass ich auch weder McNemar noch ChiSquare anders als durch die entspechenden Computerprogramme berechnen lassen kann und auch nicht wirklich weiß, was die machen.

Ich sag ja, frag einen Statistiker, ich will den Leute, die ich immer dann brauche, wenn ich glaube, ich hab endlich das richtige Studiendesign und den richtigen Test, unentgeltlich mit sowas befassen, sie sagen mir sowieso immer, dass ich wieder falsch liege, die frag ich lieber nix, was ich nicht muss.

By Werner Mueller Date 2011-07-06 13:00

[quote="Peter Martan"]
[quote="Benno Hartwig"]
(Welche Zufallsvariable sollte unbedingt solch eine Verteilung haben?)
[/quote]

Wenn du keine Normalverteilung der Daten hast, brauchst du wieder andere statistische Verfahren, Benno, abgesehen davon, dass ich auch weder McNemar noch ChiSquare anders als durch die entspechenden Computerprogramme berechnen lassen kann und auch nicht wirklich weiß, was die machen.

Ich sag ja, frag einen Statistiker, ich will den Leute, die ich immer dann brauche, wenn ich glaube, ich hab endlich das richtige Studiendesign und den richtigen Test, unentgeltlich mit sowas befassen, sie sagen mir sowieso immer, dass ich wieder falsch liege, die frag ich lieber nix, was ich nicht muss.

[/quote]
Dass die Spielstärke aller Schachspieler normalverteilt ist, ist zunächst nur eine Annahme der Eloschen Theorie.

Normalverteilt ist so ziemlich alles was in der freien Wildbahn herumläuft, z.B. etwa die Nasenlänge

des Mannes. Wobei man an diesem Beispiel schon sehen kann, dass ein mathematisches Modell nicht überstrapaziert werden darf - wer mehr als 60 cm hat, möge sich melden.

Zugepackt ebenfalls als Annahme ist in der Eloschen Theorie die Transitivität.

Rechtfertigen lassen sich solche Annahmen letztlich nur dadurch, dass in der Praxis nicht allzuviel Unsinn dabei herauskommt. Das kann man vom Eloschen System guten Gewissens behaupten, trotz gewisser Schwierigkeiten hat es sich bewährt.

ABER:
das alles (und auch nicht eine eventuelle Überstrapazierung der Theorie) hat mit der diskutierten Problematik, dass der Zusammenhang zwischen Elo-Differenz und Erwartungswert nicht mehr der Eloschen Theorie entspricht, nichts zu tun.

Übrignes... die ChiQuadrat-Funktion ist ein probates Mittel der Finanzbeamten, getürkten Angaben (z.B. Umsatz/Tag) auf die Spur zu kommen. Jedenfalls gut zu wissen, dass es sie gibt.

By Peter Martan Date 2011-07-06 15:17

[quote="Werner Mueller"]
Übrignes... die ChiQuadrat-Funktion ist ein probates Mittel der Finanzbeamten, getürkten Angaben (z.B. Umsatz/Tag) auf die Spur zu kommen. Jedenfalls gut zu wissen, dass es sie gibt.

[/quote]

Danke!
Gut find ich auch zu wissen, dass sie die richtige Berechnungsart darstellt für unabhängige Variablen und Fallzahlen über 40.
Wenn das bei Finanzbeamten, die natürlich von Berufs wegen völlig unabhängig sein müssen (

), vielleicht auch zu Buche schlägt, kein Wunder, und keine Ahnung, wozu die das wirklich brauchen können, außer wenn Sie Ihre Urteile nach Statistiken fällen, was man ohnehin befürchten wird müssen.

In allen Fällen, wo sie allerdings mit abhängigen Variablen Satistiken machen, müssten sie, wie gesagt, den McNemar- Test nehmen, der bei heutigen engine- engine- Statistiken daher meiner unmaßgeblichen Meinung nach der eigentlich gegebene wäre, wenn man nicht nur Plätze ausspielen lassen will, wozu ja Addition der Punkte genügen sollte, sondern Vorhersagen treffen, wie diejenigen abschnitten, die nicht mitspielen haben dürfen und andererseits so große Partienzahlen braucht, um überhaupt noch halbwegs signifikante Aussagen über ein rating treffen zu können, das nicht nur schiere Vermutung ist.

Nur für den Fall, dass dich die Finanzler aufgrund einer Statistik nachzahlen lassen, sag ihnen, das ist mit ChiSquare unwissenschaftlich, weil von ihrem Urteil zu viel für dich abhängt.

By Werner Mueller Date 2011-07-06 16:39

[quote="Peter Martan"]
[quote="Werner Mueller"]
Übrignes... die ChiQuadrat-Funktion ist ein probates Mittel der Finanzbeamten, getürkten Angaben (z.B. Umsatz/Tag) auf die Spur zu kommen. Jedenfalls gut zu wissen, dass es sie gibt.

[/quote]
Nö, statistisch unabhängig sind Engine-Ergebnisse allemal (wenn keine Lernfunktion o.ä. aktiv ist). Da kannst Du die Anfangsstellungen oder die Bücher einschränken wie Du willst (oder gar die Grundstellung nehmen

). Das hat damit gar nichts zu tun. Entscheidend ist, dass der Ausgang einer Partie nicht vom Ausgang irgendeiner anderen Partie beeinflusst wird.

Für den Menschen trifft das natürlich nicht uneingeschränkt zu. Zuversicht oder Verzagtheit aufgrund vorangegangener Partien (sowohl rein zeitlich als auch nur auf den Gegner bezogen) können das Ergebnis u.U. schon beeinflussen. Oder auch turniertaktisches Verhalten in den letzten Runden oder in Mannschaftskämpfen. Ist aber kein praktisches Problem.

Nein, mit der ChiQuadrat-Funktion habe ich keine Probleme weil ich sie ja kenne.

By Peter Martan Date 2011-07-07 06:52

[quote="Werner Mueller"]
Nö, statistisch unabhängig sind Engine-Ergebnisse allemal (wenn keine Lernfunktion o.ä. aktiv ist). Da kannst Du die Anfangsstellungen oder die Bücher einschränken wie Du willst (oder gar die Grundstellung nehmen

). Das hat damit gar nichts zu tun. Entscheidend ist, dass der Ausgang einer Partie nicht vom Ausgang irgendeiner anderen Partie beeinflusst wird.

Für den Menschen trifft das natürlich nicht uneingeschränkt zu. Zuversicht oder Verzagtheit aufgrund vorangegangener Partien (sowohl rein zeitlich als auch nur auf den Gegner bezogen) können das Ergebnis u.U. schon beeinflussen. Oder auch turniertaktisches Verhalten in den letzten Runden oder in Mannschaftskämpfen. Ist aber kein praktisches Problem.
[/quote]

Du hast eine eigenartige Definition von abhängig, ich weiß nicht, warum da immer soviel Psychologie reinkommt, das ist doch keine Gefühlsfrage, ob die engines so wie die Menschen unter verschiedenen Widrigkeiten, wie z.B. auch nur den Spielregeln mehr oder weniger leiden während eines Turniers.

Warum muss abhängig heißen, dass das eine Ergebnis das andere beeinflusst?
Für mich bewirken beschreibbare Kausalzusammenhänge, die die Ergebnisse alle auf dieselbe Art beinflussen, abhängige Variablen. Du sagst ganz richtig, ich kann die Anfangsstellungen wählen, wie ich will, ich sage dir noch dazu ich kann das nicht nur, ich muss es, ich kann es weder den engines noch dem GUI überlassen, irgendwelche Vorgaben muss ich geben und die Grundstellung allein wäre noch die gerechteste. Dass die dann die Dubletten sichtbarer macht, (die für mich statistisch gesehen aus rein kosmetischen Gründen so ungern gesehen werden, das hat in Wirklichkeit auch nur psychologische Gründe

) heißt einfach nicht, dass selbige "Dubletten" mit etwas weniger restriktiver Definition nicht auch vorkommen, halt erst ein paar Züge später und dass sie nicht über den ganzen weiteren Spielverlauf exakt gleich sein müssen, die Partien, ist doch jedem Schachspieler klar.

Ingo Bauer ist im anderen thread
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=40191#pid40191
mit Clemens Keck gerade den Zugumstellungen auf der Spur, die aus Kurzbüchern einfach daraus entstehen, dass die engines nach einer kurzen Eröffnungsstellung dazu neigen, (insbesonders die mit ähnlichen diesbezüglichen Programmeigenschaften, eigentlich müssen da nur die relativen positionellen evals ähnlich sein) ähnliche Fortsetzungen zu spielen, wie nach "anderen" ebenso kurzen, wenn sie die Gelegenheit dazu finden.
Das ist die ewig alte Illusion, der man sich mit Büchern oder aus der Theorie ausgewählten Vorgabestellungen hingibt: man meint, es wäre eh breit gefächert, was gespielt wird, in Wirklichkeit muss man sehr genau überlegen, wie man auswählt, damit die engines von sich aus nicht mehr oder weniger die Möglichkeit vorfinden, in ihre gemeinsamen 0815 Fahrwasser abzudriften.
Dass das dann umsomehr Willkür desjenigen erfordert, der am Schluss die Ergebnisse zählt und sich selbst die Hucke volllügt, sei ja eh alles nur Zufall, ist ein typisches Beispiel für selection bias.
Ich muss willkürlich in den weiteren Spielverlauf eingreifen und mein Eingriff bewirkt für alle Ergebnisse die kausal und funktionell gleiche, den Spielregeln entsprechenden Abhängigkeit der Ergebnisse davon, was ich aussuche, Lernen aus oder ein, das ändert was an den Ergebnissen numerisch aber nicht an den Kautelen der Abhängigkeit.

Ich nenne das abhängige Variablen und jetzt frag ich dann wirklich mal einen Profistatistiker, wie der das sieht, müsste halt leider auch ein Schachspieler sein. Übrigens wirst du wahrscheinlich recht haben, dass, ob man jetzt deshalb McNemar statt Eloformel nimmt, vielleicht nicht den großen Unterschied macht, wir wollen das ja gar nicht wirklich als Studie mit Neuigkeitswert publizieren, das Prinzip der fehlenden Randomisierung würde sie sowieso entwerten, weder einzel- noch doppelblind geht sowieso schon gar nicht, weil die engines auf diesem Auge eben auch nicht blind sind. (Wollen's mal in ihrem Sinne hoffen...)

By Benno Hartwig Date 2011-07-09 11:06

Ich habe jetzt diese Auswertung auch noch mal gemacht für programs.dat (EloStat) aus dem IPON-Download:

Grundsätzlich anders als bei individual.dat (Bayes) sieht das Bild also nicht aus.

Gemessen an den von diesen Tools angegebenen ELO-Differenzen sind die erspielten Erfolgsquoten ein signifikantes Stück zu groß.
Bei geringen Spielstärkeunterschieden nur wenig, bei größeren Unterschieden erheblicher.

Oder, vielleicht für uns die interessantere Konsequenz:
Die tatsächlichen erspielten Erfolge müssten (so meine Sicht) eine größere ELO-Differenz hervorrufen, als es die Tools errechnen ("behaupten").
OK, die Reihenfolge würde dies vermutlich nicht ändern.

Die ELO-Formel will immerhin den mittleren Erfolgsquotienten angeben für gegebene ELO-Differenzen.
Und die Erfolge sind tatsächlich einigermaßen größer, als die für die berechneten ELO-Differenzen sein sollte.

Benno

PS:
Die Tabellen findet ihr unter:
http://quapsel.bplaced.net/Daten/ipon_individual.txt
http://quapsel.bplaced.net/Daten/ipon_programs.txt

By Ingo Bauer Date 2011-07-09 11:24

Hallo Benno,

Immerhin ist es bei ELostat schonmal kleiner als bei Bayes, was auch meinem Bauchgefühl entprechen würde da Bayes die Spitzenengines etwas "drückt". Du schreibst, das der Abstand größer sein sollte ... nach der reinen Eloberechnungsformel. Da Bayes ein wenig anders vorgeht zerbreche ich mir da nicht den Kopft, aber was macht Elostat anders, wo es doch die rein reine Eloformel benutzen sollte?

Interessanter Beitrag, danke dafür!

Gruß
Ingo

By Ingo Bauer Date 2011-07-09 11:37 Edited 2011-07-09 11:41

Hallo Benno,

Wie viel größer sollte der Abstand den sein bei 50, 100, 150, 200, 250, 300, 350 und 400 Elo (wobei mir klar ist das die Datenbasis nach oben dünner wird). Wir sollten schon im Auge behalten das Bayes, das den größeren Abstand produziert, bei 400 Elo ca 0.03 zu hoch liegt ... was wiederum rund 1 Elo ist, wohlgemerkt nur bei den großen Differenzen. Weiter unten ist es weniger, der Durchschnitt über alle Matche ist also weit geringer als das 1 ELo Maximum.
(Das ablesen aus deiner Kurve ist schwierig. Bei Bayes liegt die ELo-Kurve knap über 0.9 und die Bayeskurve unter 0.95. Ich bin also von 0.91 und 0.94 ausgegangen bei meiner Schätzung - und das wäre 1 Elo oder ich habe mich verrechnet)

Wenn ich das alles richtig aus den Kurven gelesen habe ist es ein interessantes Phänomen, das für alle praktischen Belange ruhig vernachlässigt werden kann. Eher das Gegenteil trifft zu, es ist erstaunlich wie wenig die Kurve fluktuiert und wie korrekt sie sich an die Eloformel hält.

Gruß
Ingo

PS: Wenn der Unterschied so klein ist, könnte es vielleicht sein, das wir nichts anderes sehen als den Rundungsfehler durch die Berechnung der Tools?

By Benno Hartwig Date 2011-07-09 12:44

[quote="Ingo Bauer"]PS: Wenn der Unterschied so klein ist, könnte es vielleicht sein, das wir nichts anderes sehen als den Rundungsfehler durch die Berechnung der Tools?[/quote](Asche auf mein Haupt, einen Rundungsfehler, der immerhin die 100tel der Erfolgsquote betraf, habe ich tatsächlich korrigiert (Wechselte halt mal von 100tel auf 1000tel). Die korrigierte Grafik erscheint nun oben in meinem Eingangsposting. Ein kleiner Unterschied, das Phänomen blieb)
Die Berechnungen für beide Tabellen/Grafiken erfolgten nun mit demselben Tool, und ich hoffe jetzt auch Rundungs- und sonstwie-fehlerfrei. Die Berechnung des Erfolgsquotienten erfolgt auch auf immerhin 3 Nachkommastellen.
Die Abweichungen sind aber, finde ich, trotzdem sehr auffällig.
Die Häufung der Ergebnisse oberhalb jener Linie, die eigentlich den jeweiligen Mittelwert angeben sollte, ist ganz sicher weder durch den Zufall noch durch Rundungsfehler erklärbar.

Sorry, ich fand aber noch keine Zeit, mich eingehender mit den Hinweisen zu möglichen Erklärungen (von dir, von Michael, Werner, Thomas...) dieses Phänomens zu beschäftigen. Mache ich noch...

Benno

By Werner Mueller Date 2011-07-09 13:53

[quote="Benno Hartwig"]
[quote="Ingo Bauer"]PS: Wenn der Unterschied so klein ist, könnte es vielleicht sein, das wir nichts anderes sehen als den Rundungsfehler durch die Berechnung der Tools?[/quote](Asche auf mein Haupt, einen Rundungsfehler, der immerhin die 100tel der Erfolgsquote betraf, habe ich tatsächlich korrigiert (Wechselte halt mal von 100tel auf 1000tel). Die korrigierte Grafik erscheint nun oben in meinem Eingangsposting. Ein kleiner Unterschied, das Phänomen blieb)
Die Berechnungen für beide Tabellen/Grafiken erfolgten nun mit demselben Tool, und ich hoffe jetzt auch Rundungs- und sonstwie-fehlerfrei. Die Berechnung des Erfolgsquotienten erfolgt auch auf immerhin 3 Nachkommastellen.
Die Abweichungen sind aber, finde ich, trotzdem sehr auffällig.
Die Häufung der Ergebnisse oberhalb jener Linie, die eigentlich den jeweiligen Mittelwert angeben sollte, ist ganz sicher weder durch den Zufall noch durch Rundungsfehler erklärbar.

Sorry, ich fand aber noch keine Zeit, mich eingehender mit den Hinweisen zu möglichen Erklärungen (von dir, von Michael, Werner, Thomas...) dieses Phänomens zu beschäftigen. Mache ich noch...

Benno
[/quote]
Danke!

Ich hab mir jetzt Deine Grafiken nochmal angeschaut und wie sie eigentlich zu interpretieren sind.
Eigentlich recht simpel (meine Antwort weiter oben an Michael Scheidl war völliger Schnaps).

1. die Engines haben ihre jeweiligen Elos (nach der Gesamtauswertung)
2. die Erfolgsquote in Abhängigkeit von der Elo-Differenz (nach Punkt 1) sind die aufgetragenen Punkte
3. die rote Kurve beschreibt den Fall, dass sich die Engines ihre Elos sozusagen unabhängig von der Spielstärke-Differenz 'verdient' hätten
4. die blaue Kurve zeigt, dass dies nicht der Fall ist, und die Engines sich 'elomäßig' tendenziell mehr an den Schwächeren (je schwächer desto mehr) bereichert haben

Also kein Fehler in BayesElo oder EloStat - Engines sind, wie es aussieht, eben alles kleine Morozewichs (obwohl ich bauchmäßig eher auf das Gegenteil getippt hätte).

By Ingo Bauer Date 2011-07-09 14:50

Hallo Benno

[quote="Benno Hartwig"]
[quote="Ingo Bauer"]PS: Wenn der Unterschied so klein ist, könnte es vielleicht sein, das wir nichts anderes sehen als den Rundungsfehler durch die Berechnung der Tools?[/quote](Asche auf mein Haupt, einen Rundungsfehler, der immerhin die 100tel der Erfolgsquote betraf, habe ich tatsächlich korrigiert (Wechselte halt mal von 100tel auf 1000tel). Die korrigierte Grafik erscheint nun oben in meinem Eingangsposting. Ein kleiner Unterschied, das Phänomen blieb)
Die Berechnungen für beide Tabellen/Grafiken erfolgten nun mit demselben Tool, und ich hoffe jetzt auch Rundungs- und sonstwie-fehlerfrei. Die Berechnung des Erfolgsquotienten erfolgt auch auf immerhin 3 Nachkommastellen.
Die Abweichungen sind aber, finde ich, trotzdem sehr auffällig.
Die Häufung der Ergebnisse oberhalb jener Linie, die eigentlich den jeweiligen Mittelwert angeben sollte, ist ganz sicher weder durch den Zufall noch durch Rundungsfehler erklärbar.

Sorry, ich fand aber noch keine Zeit, mich eingehender mit den Hinweisen zu möglichen Erklärungen (von dir, von Michael, Werner, Thomas...) dieses Phänomens zu beschäftigen. Mache ich noch...

Benno
[/quote]

Wenn meine "Schätzung" stimmt, reden wir von 1 Elo bei 400 Elo Differenz, das sind nur 0.25%. Wenn die intern nur mit zwei, oder gar einer Nachkommastelle rechnen oder die ELO/Bayes Programmierer sich gesagt haben das sie nicht runden, sondern nur abschneiden oder immer die x-te Stelle nach dem Komma aufrunden weil es sowieso maximal ein Elo ausmacht (wobei es so simpel nicht ist, weil im niedrigen BEreich ist es ja klainer als 1 Elo) ... dann kannst du auf deiner Seite Rundungsfehler korrigieren so viel du willst es wird nicht viel ändern ...

Nochmal, ja, es ist auffällig, aber wir streiten hier um 1 Elo bei 400 Elo Differenz. Ich glaube beim Erstellen einer Rangliste haben wir ganz andere Probleme die deutlich gravierender sind!

Gruß
Ingo

By Ingo Bauer Date 2011-07-09 17:20

Hallo nochmal

Ok, diesmal ein kleiner Fehler meinerseits. Die Differenz von 0.91 zu 0.94 sind 3%!
Eine Gewinnquote von 91% gegen einen 2600 Elo Gegner ist rund 3001 Elo, eine Gewinnquote von 94% sind schon 3077 Elo. Dein Grafik würde also bedeuten das die Topengine gegen deutlich schwächere noch besser performen als solten. OK, aber das Rating wird aus der Ergebniss gegen alle Engines geformt ...
Ich glaube irgendwie nicht das die Topengines nochmal 76 Elo besser sein sollten in den Ranglisten, im Gegenteil!

Nichtsdestotrotz, interessantes Thema ... ich werde noch mal weitergrübeln und hoffe das hier noch ein paar gute Komentare kommen.

Gruß
Ingo

By Benno Hartwig Date 2011-07-09 22:23

[quote="Ingo Bauer"]Wenn meine "Schätzung" stimmt, reden wir von 1 Elo bei 400 Elo Differenz,...[/quote]Ingo, ich verstehe hier nicht, was du meinst mit 1%.

Die Engines, die nach den Berechnungen der Tools 200 ELO Differenz haben, erspielen Ergebnisse, die im Mittel nach der ELO-Formel ungefähr 175 bzw 180 ELO Differenz bedeuten.
Die Abweichug wäre dann also 25 ELO bzw 20 ELO. Oder meinst du was ganz anderes?

Benno

By Ingo Althöfer Date 2011-07-09 19:07 Edited 2011-07-09 19:10

Lieber Herr Hartwig,

danke für den sehr interessanten Beitrag und die Diagramme.
Auf etwas anderer Ebene treibt mich dieses Phänomen auch schon seit über
einem Jahr um.

[quote="Benno Hartwig"]
... überraschenderweise stellte sich dieser dieser Zusammenhang überhaupt nicht ein!
Es gab auch kein 'mal drüber und mal drunter'.
Die realen Werte sind konsequent mehr oder weniger höher als sie 'sein sollten'!
Bei gegebenem ELO-Abstand sind die erspielten IPON-Quotienten (die Erfolge) ein gutes Stück zu groß!

So etwas habe ich bei meinen Experimenten auch beobachtet:
Für verschiedene artifizielle einfache Spiele habe ich den Monte-Carlo-
Algorithmus angewandt, mit verschiedenen Simulations-Anzahlen
als Parameter. Sei mit MC(k) der Monte-Carlo-Algorithmus bezeichnet,
der für jeden Zugkandidaten k Simulationen rechnet und sich dann
für den Zug mit dem besten Score entscheidet.

Je grösser das k ist, umso besser ist der Algorithmus.
Für meine Experimente habe ich
2 Million mal MC(1) gegen MC(2) spielen lassen,
und zwei weitere Million Male MC(2) gegen MC(4).
(2 Millionen statt eine 1 Million, weil in der einen Hälfte der
Partien der eine den Anzug hatte und in der anderen Hälfte der andere.)
Aus diesem Ergebnissen habe ich Elo-Ratings für MC(1), MC(2), MC(4)
ermittelt, wobei ich willkürlich MC(2) auf 1.000 gesetzt habe.
Natürlich hatte MC(1) dabei das kleinste Rating und MC(4) das grösste.

Aus diesen Ratings habe ich "vorhersagen" lassen, wie MC(1) gegen MC(4)
abschneiden sollte. Nach der Prognose habe ich dann auch 2 Millionen
Partien zwischen MC(1) und MC(4) spielen lassen. Und siehe da:
MC(4) holte "deutlich mehr" Punkte als vorhergesagt, z.B. in einem Fall
71,0% statt 69,8% der Punkte.

Jetzt mag der eine oder andere sagen, 1% Unterschied sei wie Rauschen.
Es ist aber definitiv kein Rauschen, sondern bei 2 Millionen Partien signifikant.

Also auch in meinen Experimenten die Beobachtung:
Wenn "ganz stark" gegen "ganz schwach" spielt, schneidet
"ganz stark" besser ab als es nach Elo-Zahlen dürfte.

Zitat:

Irgendwie pass das nicht zu sammen?
...
Spontan muss man doch denken, dass irgendwo ein Fehler drin steckt:
* In der ELO-Formel? (na, die stellt doch eher die Definition von ELO dar, oder)
...

Es ist da was falsch!
Aber was genau ist es, was da eigentlich falsch ist?

Es ist in der Tat etwas falsch. Wenn ein Spiel nicht ganz trivial ist,
lässt sich Spielstärke nicht korrekt durch eine einzelne Zahl ausdrücken.
Interessant ist allerdings die Beobachtung, dass Elo, was die vernünftigste
Messung von Spielstärke durch einzelne Zahlen darstellt, die Erfolgsraten
von ganz Starken gegen ganz Schwache unterschätzt.

Bei meinen Experimenten sind die Abweichungen schon kleiner geworden,
wenn ich für jeden Algorithmus zwei Spielstärken ermittelt habe:
* eine für den Fall, Anziehender zu sein
und
* eine andere für den Fall, Nachziehender zu sein.
Aber auch da waren immer noch Unterschiede da.

Ingo Althöfer.