Elo Vergleich IPON vs CEGT 40/20

By Ingo Bauer Date 2010-02-07 11:07

Noch was:

Ich sehe gerade das die -19 bis +41 Abweichung in einer Enginefamilie lag. Da EINE von unseren Listen falsch sein muß, wäre das eine Katastrophe für den Programmierer gewesen wenn er nach der falschen entwickelt hätte

Gruß
Ingo

By Thomas Mayer (Quark) Date 2010-02-07 14:42

Hallo Ingo,

nur eine kurze Anmerkung. Du machst einen kleinen Fehler, Du solltest eigentlich nicht die absoluten Elo-Zahlen betrachten sondern die Intervalle. So lange sich die Intervalle der beiden Listen überschneiden ist alles im grünen Bereich, erst wenn sich die Intervalle nicht überschneiden liegt man außerhalb der 95% Regel. Das dürfte im Schnitt bei jeder 20. Engine vorkommen.

Ein zweites Problem Deiner Gegenüberstellung: Du eichst auf eine Engine, deren Elo-Zahl ja eben auch nicht fix ist sondern ein Intervall darstellt. Damit könntest Du quasi die ganzen Elo-Zahlen innerhalb des Intervalls nach oben oder unten schieben. Prinzipiell sollte man meiner Meinung auf mehrere Engines eichen, also einen Mittelwert bilden, dann dürfte das genauer werden, aber meine Stochastik-Fähigkeiten sind seit der Schulzeit leider reichlich eingerostet. Haben wir nicht einen Mathe-Lehrer unter uns ? Der könnte etwas background liefern.

Deine angesprochenen Unterschiede sehe ich schon, aber ich finde eher die Übereinstimmungen - die auch Gerhard schon festgestellt hat - beeindruckend, das zeigt doch, daß das System recht gut funktioniert auch bei unterschiedlichsten Ranglistenansätzen.

Vielleicht auch noch eine Anmerkung zur CEGT. Ich glaube um so ein Projekt aufrecht zu erhalten muß man den Helfern schon ihren Spaß lassen und jeder muß sich zwar an gewisse Regeln halten aber hat doch einige Freiheiten, was genau er macht, z.B. hinsichtlich Eröffnungen / Eröffnungsstellungen. Durch die große Zahl der Partien finde ich, daß dies eben doch eine ausgezeichnete Abbildung der Spielstärkeverhältnisse gibt - trotz, oder vielleicht auch gerade wegen der teilweise unterschiedlichen Testweisen. Wir sollten das ganze auch nicht zu wissenschaftlich betrachten, letzten endes ist es vor allem unser Hobby und wir wollen ein bißchen gute Laune dabei haben um Energie für die vielleicht weniger erbaulichen Teile unseres Daseins zu haben...

Gruß, Thomas

By Horst Wandersleben Date 2010-02-07 14:56

"Haben wir nicht einen Mathe-Lehrer unter uns ?"

Hallo Thomas,
da bringst du mich jetzt aber arg in verlegenheit. Sowas habe ich auch zum letzten mal während meines studiums gemacht. Das ist über 35 jahre her.

Du hast aber auf alle fälle recht, dass die 15,9 Elo durchschnittliche abweichung nicht sein dürfen. Es ist ein klares indiz dafür, dass der anker nicht korrekt justiert ist.
Wenn mal linear denkt, dann müsste Ingo diese ~16 Elo korrigieren, damit die durchschnittsabweichung 0 beträgt.
In wirklichkeit ist es aber komplizierter, denn nach Gauß ist die fehlerkorrektur am besten, wenn die summe der quadrate der abweichungen am kleinsten ist.

Um korrektur von dummheiten meinerseits wird ausdrücklich gebeten.

Ich wünsche dir und allen anderen einen schönen restlichen Sonntag.
Viele grüße
Horst

Um 19 uhr bitte die 6. (evtl. letzte) finalpartie des CSS online masters im maschinenraum des CB-servers nicht verpassen.
Zwischenstand Deep Shredder 12 - Naum 4.1: 3 - 2

By Ingo Bauer Date 2010-02-07 15:16

Hi

[quote="Horst Wandersleben"]
Du hast aber auf alle fälle recht, dass die 15,9 Elo durchschnittliche abweichung nicht sein dürfen.
[/quote]

Soweit folge ich.

[quote="Horst Wandersleben"]
Es ist ein klares indiz dafür, dass der anker nicht korrekt justiert ist.
Wenn mal linear denkt, dann müsste Ingo diese ~16 Elo korrigieren, damit die durchschnittsabweichung 0 beträgt.
[/quote]

Wieso? Beide Listen sind mit dem selben 'Statistik'-Programm erstellt und wollen das selbe erreichen. Beide Listen verwenden einen Anker. Ich habe die CEGT nur auf meinen Anker umgerechnet (und ich hoffe korrekt) Ich könnte meine Liste auch auf CEGT Anker rechnen (S9.1?) das Ergebniss muß das gleiche bleiben. Ich könnte auch auf Kommodo 1.0 eichen, dann wäre die durchschnitliche Abweichung ~0, das Delta ist das grundlegende Dillema. Manche Engines sind zu hoch und andere zu tief mit bis zu 60 Elo Abweichung.

[quote="Horst Wandersleben"]
In wirklichkeit ist es aber komplizierter, denn nach Gauß ist die fehlerkorrektur am besten, wenn die summe der quadrate der abweichungen am kleinsten ist.
Um korrektur von dummheiten meinerseits wird ausdrücklich gebeten.
[/quote]

1. Ich bin bestimmt nicht der der hier etwas erklären kann!

2. Ich gehe auch davon aus das die 16 Elo nicht einfach rausgenommen werden müssen. Wenn das mathematisch korrekt ist und mir das einer erklären kann (was ich bezweifle

) höre ich mit Ranglistenerstellen sofort auf und spiele Lotto!

Gruß
Ingo

By Horst Wandersleben Date 2010-02-07 15:28

"Beide Listen sind mit dem selben 'Statistik'-Programm erstellt ..."

Der datensatz ist aber jeweils ein anderer. Also rechnet das gleiche statistikprogramm in beiden fällen für Deep Shredder 12 etwas anderes aus.

"Ich gehe auch davon aus das die 16 Elo nicht einfach rausgenommen werden müssen."

Die spalte "Differenz" in deiner tabelle beweist nur eines hundertprozentig, nämlich dass Deep Shredder 12 in den beiden ranglisten nicht einheitlich bewertet wird.
Es könnte sein, dass CEGT DShr um 16 Elo zu schlecht bewertet, es könnte sein, dass IPON DShr um 16 Elo zu gut bewertet. Oder irgendein wert in der mitte, also hier 8 Elo zu schlecht und dort 8 Elo zu gut, oder wie immer sonst man die zahl 16 zerlegen kann.

By Ingo Bauer Date 2010-02-07 16:13

[quote="Horst Wandersleben"]
Die spalte "Differenz" in deiner tabelle beweist nur eines hundertprozentig, nämlich dass Deep Shredder 12 in den beiden ranglisten nicht einheitlich bewertet wird.
Es könnte sein, dass CEGT DShr um 16 Elo zu schlecht bewertet, es könnte sein, dass IPON DShr um 16 Elo zu gut bewertet. Oder irgendein wert in der mitte, also hier 8 Elo zu schlecht und dort 8 Elo zu gut, oder wie immer sonst man die zahl 16 zerlegen kann.
[/quote]

Hmm, (wenn ich auf Kommodo eiche habe ich eine Abweichung von 0.9. Vernachlässigen wir das mal, aber das war die nächstgelegenste Engine.) Naum 4.1 ist bei +26, S12 bei -15. Der Unterscheid zw. Shredder oder Kommodo geeicht ist keiner ... der ist immer noch 41 Elo groß. Warum sollen hier 16 Elo abgezogen werden?

Shredder 12 hat bei mir ein +/- von 13 Elo
Naum 4.1 hat bei der CEGt ein +/- von +/- 22 Elo.
(diese Abweichungen haben nichts mit den 16 Elo zu tun)

Beide Abweichungen addiert sind 35 Elo. Die Wahrscheinlichkeit das ein Intervall rauf und das andere runter geht verringert aber die 5% Möglichkeit das es ausserhalb liegt.

Wo ich die Nulllinie lege ist egal, es bleiben 6/25 engines die ausserhalb eines oder gar beider Intervalle liegen.

Ich muß jet mal weg, werde aber vielleicht heute Abend mal eine komplette Liste mit Intervallen erstellen (meinetwegen auf Kommodo geeicht - ist egal). Irgendwie muß ich das doch kapieren!

Gruß
Ingo

By Ingo Bauer Date 2010-02-07 15:02 Edited 2010-02-07 15:05

Moin Thomas,

[quote="Thomas Mayer (Quark)"]
...
nur eine kurze Anmerkung. Du machst einen kleinen Fehler, Du solltest eigentlich nicht die absoluten Elo-Zahlen betrachten sondern die Intervalle. So lange sich die Intervalle der beiden Listen überschneiden ist alles im grünen Bereich, erst wenn sich die Intervalle nicht überschneiden liegt man außerhalb der 95% Regel. Das dürfte im Schnitt bei jeder 20. Engine vorkommen.
[/quote]

Uff, ich kann nicht alles in eine Liste packen, aber genau das ist doch das was ich meinte. Die Intervalle (fast alle positiv gerichtet hier) sind 25 mal ausserhalb bei mir, und wer meint (da bin ich mir selber nicht sicher) das man den doppelten Intevall nehmeen muß sind es imer noch 6 von 40 die bei mir ausserhalb liegen. Wenn du jetzt CEGT UND IPON beide doppelte Intervalle nehmen willst, wird aber auch die Wahrscheinlichkeit VIEL geringer (als die 5%) das das so ist.

Also: JA die Wahrscheinlichkeit besteht, das das aber bei allen 6/25 Engines der Fall ist isrr wohl SEHR gering!
(Naum 4.1 ist ein schönes Bsp. Mein Intervall voll hoch, CEGT voll runter und wir überschneiden uns immer noch nicht. OK 5% Wahrscheinlichkeit ... aber in diesem Stil haben wir mehrere Engines (aus gerade mal 40), wie Wahrscheinlich ist denn das? Wenn es pro Engine so ist, das JEDE engine mit 5% wahrscheinlichkeit ausserhalb eines Intervalls liegen kann frage ich mich warum 25 von 40 das auch tun? Ich finde das alles seltsam.

[quote="Thomas Mayer (Quark)"]
Ein zweites Problem Deiner Gegenüberstellung: Du eichst auf eine Engine, deren Elo-Zahl ja eben auch nicht fix ist sondern ein Intervall darstellt. Damit könntest Du quasi die ganzen Elo-Zahlen innerhalb des Intervalls nach oben oder unten schieben.
[/quote]

Auch richtig, sollte aber doch mit dem Intervall und meiner obigen Erklärung, abgedeckt sein - oder!?

[quote="Thomas Mayer (Quark)"]
Prinzipiell sollte man meiner Meinung auf mehrere Engines eichen, also einen Mittelwert bilden, dann dürfte das genauer werden, aber meine Stochastik-Fähigkeiten sind seit der Schulzeit leider reichlich eingerostet. Haben wir nicht einen Mathe-Lehrer unter uns ? Der könnte etwas background liefern.
[/quote]

Mit der Logik würde man über ALLE Engines eichen und hat womöglich ein perektes Ergbniss. Das erklärt aber NICHT warum eine mehrere einzelne Engine so weit abweichen.

[quote="Thomas Mayer (Quark)"]
Deine angesprochenen Unterschiede sehe ich schon, aber ich finde eher die Übereinstimmungen - die auch Gerhard schon festgestellt hat - beeindruckend, das zeigt doch, daß das System recht gut funktioniert auch bei unterschiedlichsten Ranglistenansätzen.
[/quote]

Hmm, das muß dann unterschiedliche Wahrnemung sein, ICH frage mich warum es zu so großen Unterschiedne kommt.

[quote="Thomas Mayer (Quark)"]
Vielleicht auch noch eine Anmerkung zur CEGT. Ich glaube um so ein Projekt aufrecht zu erhalten muß man den Helfern schon ihren Spaß lassen und jeder muß sich zwar an gewisse Regeln halten aber hat doch einige Freiheiten, was genau er macht, z.B. hinsichtlich Eröffnungen / Eröffnungsstellungen. Durch die große Zahl der Partien finde ich, daß dies eben doch eine ausgezeichnete Abbildung der Spielstärkeverhältnisse gibt - trotz, oder vielleicht auch gerade wegen der teilweise unterschiedlichen Testweisen. Wir sollten das ganze auch nicht zu wissenschaftlich betrachten, letzten endes ist es vor allem unser Hobby und wir wollen ein bißchen gute Laune dabei haben um Energie für die vielleicht weniger erbaulichen Teile unseres Daseins zu haben...

[/quote]

Das mit dem Hobby stimmt ohne Zweifel, Kritik muß aber erlaubt sein (Wobei das obige eigentlich neutral ist, das ist so(!), warum weiß keine Mensch mit Sicherheit). Nachdem ich das heute auch noch mit der CCRL verglichen habe glaube ich allerdings das die CEGT trotz meiner Kritik(en) noch fast seriös ist

Gruß
Ingo

By Horst Wandersleben Date 2010-02-07 15:12

"Die Intervalle (fast alle positiv gerichtet hier) sind 25 mal ausserhalb bei mir, ..."

Hallo Ingo,
zieh mal bitte die ~16 Elo durchschnittliche differenz ab, dann sind es bei weitem nicht mehr so viele.
Der wert für den anker Deep Shredder 12 kann theoretisch bei deiner liste am oberen endes des intervalls liegen und bei CEGT entgegengesetzt am unteren ende.
Der anker ist also gar kein fixpunkt, sondern es sind zwei intervalle, die gegeneinander verschiebbar sind.
Viele grüße
Horst

By Ingo Bauer Date 2010-02-07 15:30 Edited 2010-02-07 15:36

Moin

[quote="Horst Wandersleben"]
"Die Intervalle (fast alle positiv gerichtet hier) sind 25 mal ausserhalb bei mir, ..."

Hallo Ingo,
zieh mal bitte die ~16 Elo durchschnittliche differenz ab, dann sind es bei weitem nicht mehr so viele.
Der wert für den anker Deep Shredder 12 kann theoretisch bei deiner liste am oberen endes des intervalls liegen und bei CEGT entgegengesetzt am unteren ende.
Der anker ist also gar kein fixpunkt, sondern es sind zwei intervalle, die gegeneinander verschiebbar sind.
Viele grüße
Horst
[/quote]
Ich will nicht ausschließen das ich völlig daneben liege, dafür bin ich mathematisch schlicht zu unbeleckt! Aber wenn ich statt auf Shredder meinetwegen auf Komodo eichen würde sieht das so aus:

Warum soll ich jetzt 16 Elo abziehen und es sind immer noch 6/25 zweifelhafte Engines. (Bsp N4.1/S12) Wenn ich diese Liste zuerst veröffentlicht hätte würden wir nicht über 16 Elo sprechen!

Mache ich was falsch - wenn ja wird es mir zu kompliziert und du hast beim nächsten Schachtreffen eine SEHR SCHWERE LEHRSTUNDE vor dir

Gruß
Ingo

PS: Ich mache mal ne Liste mit Intervallen - später!

By Ingo Bauer Date 2010-02-07 15:41

Hmm, wenn ich mir das jetzt in Ruhe ansehe, merke ich das ich doch nochmal darüber nachdenken muß.

Bis später
Ingo

By Horst Wandersleben Date 2010-02-07 17:13

"es sind immer noch 6/25 zweifelhafte Engines"

Ich weiß nicht, an welcher stelle du dich da verbissen hast:
Es stimmt einfach nicht, dass es nach der korrektur um 15 Elopunkte noch 25 zweifelhafte differenzen gibt!

Bei den starken abweichungen könnte es sich um systematische fehler bei der datenerhebung (also bei den engineturnieren oder -zweikämpfen) handeln, die bei der vielzahl der möglichen störfaktoren nicht verwunderlich wären. Ich zähle acht abweichungen jenseits von +-15 Elopunkten.

By Horst Wandersleben Date 2010-02-07 17:30

Ich denke, ins besondere "Die Geschichte des Naums" müsste neu geschrieben werden.
Da müssten sich indizien für fehlerhafte testbedingungen am ehesten finden lassen.

By Ingo Bauer Date 2010-02-07 13:26

Hallo

Ich habe auch noch die CCRL eingefügt.

Im Gegensatz zur CEGT ist deren Datenbases wesentlich dünner, nichtsdestotrotz das selbe grundsätzliche Bild...

Ohne ins Detail zu gehen, sehen die Singledaten der CCRL zum Teil SEHR seltsam aus - zumindest für ich!

Gruß
Ingo

By Werner Schüle Date 2010-02-07 16:07

Hallo Ingo,
ich bin auch nicht der Statistiker, aber ich meine schon mal gelesen zu haben, dass es wichtig ist, eine Vergleichs-Enigne mehr in der Mitte der Liste zu nehmen.
Du hast ja selbst gesehen, wenn du Onno nimmst ist alles nicht mehr so extrem verschieden. Ich hab mal Deep Shredder 11 x64 1CPU genommen, da waren dann die Unterschiede bei Naum nur noch um die 20.

Wie man so was macht, wenn mehrere Engines als Grundlage genommen werden, weiß ich gar nicht. Kirill von der CCRL hat mir so was schon mal vorgeschlagen - er müsste dann wissen wie?

Gruß
Werner

By Ingo Bauer Date 2010-02-07 16:15

[quote="Werner Schüle"]
Hallo Ingo,
ich bin auch nicht der Statistiker, aber ich meine schon mal gelesen zu haben, dass es wichtig ist, eine Vergleichs-Enigne mehr in der Mitte der Liste zu nehmen.
Du hast ja selbst gesehen, wenn du Onno nimmst ist alles nicht mehr so extrem verschieden. Ich hab mal Deep Shredder 11 x64 1CPU genommen, da waren dann die Unterschiede bei Naum nur noch um die 20.

Wie man so was macht, wenn mehrere Engines als Grundlage genommen werden, weiß ich gar nicht. Kirill von der CCRL hat mir so was schon mal vorgeschlagen - er müsste dann wissen wie?

Gruß
Werner
[/quote]

Die Unterschiede zur 0-Linie werden kleiner, die Abstände der Engines bleiben gleich.

Siehe: http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=20460

Muß weg (leider)
Ingo

By Ingo Bauer Date 2010-02-07 23:35

OK,

ich habe heute viel gelernt!

1. Keine Bilder mehr auf den Server legen die ich hier einbinden will. Da geht zu leicht etwas schief!
2. Ich kann, wenn ich zwei Listen vergleichen will, nicht IRGENDEINE Enigne nehmen und auf den gleichen Elowert setzen, sondern muß auf die Durchschnitssabweichung aller Engines eichen. (Evtl sogar die Quadratische ...) Wenn man sich das in einer Tabelle oder als Grafik ansieht macht das sogar Sinn!

Danke, 2 Abweichung sind vorhanden, und ich bin mal gespannt was mit Naum 4.1 passiert, der müßte bei der CEGT sinken und bei mir steigen, wenn er bei mir ein bishcen sinkt und/oder bei der CEGT weiter steigt laufen wir da auch auseinander. Das interessante daran ist, das alle Abweichungen dann eine Naum Engine betreffen würden ... und das ist wirklich interessant!

Noch eine Frage an die Mathematiker:

Ein Intervall beschreibt, das die Engine mit 95% Wahrscheinlichkeit innehalb desseleben liegt. Wenn ich nun zwei Engines vergleiche, deren Intervall sich nur geringfügig überschneidet, wenn also eine Enigne besser, die andere schlechter werden muß, wie wahrscheinlich ist das denn? eine Engine kann rauf und runter, also 50% das sie besser wird, die andere das selbe, beide also 0.5*0.5=0.25 oder 25% Wahrscheinlichkeit ds sie sich aufeinander zubewegen? Wenn das so ist, dann wäre die Wahrscheinlichkeit das sich zwei Engines, noch überlappen bei 25% von 5% oder besser 1.25%. Wahrscheinlich liege ich da aber auch völlig daneben

Gruß
Ingo

By Ernest Bonnem Date 2010-02-08 00:40

[quote="Ingo Bauer"]Wenn ich nun zwei Engines vergleiche, deren Intervall sich nur geringfügig überschneidet, wenn also eine Enigne besser, die andere schlechter werden muß, wie wahrscheinlich ist das denn?[/quote]
So eine Frage, wenn es sich nur um zwei Engines handelt, kann ich antworten...

Engine1 hat Elo1, mit StandardDeviation SD1 (mit 95% Wahrscheinlichkeit liegt die Elo in dem Abstand Elo1 ± 2SD1)
Engine2 hat Elo2, mit StandardDeviation SD2
Sagen wir Elo1 > Elo2
Vieviel mehr Elo Engine1 hat, als Engine2, ist also eine Gauss Kurve, zentriert auf (Elo1-Elo2),
mit StandardDeviation SD = Sqrt(SD1²+SD2²)
Dann kann man gut rechnen, was die Wahrscheinlichkeit ist, daß Engine1 doch schlechter als Engine2 ist: es ist die Wahrscheinlichkeit, auf der Minusseite (negativ) dieser Gauss Kurve zu sein.
Beispiel:
Engine1 2920 Elo 95%= ±24 also SD1=12
Engine2 2900 Elo 95%= ±18 also SD2=9
Die "Elo difference" Gauss Kurve ist also zentriert auf 20, mit SD= Sqrt(12²+9²)= 15
Der Nullpunkt der Kurve steht mit Abstand -20 vom Zentrum, also -1.33 SD
Mit Gauss Wahrscheinlichkeit Tabelle, findet man, daß die Wahrscheinlichkeit von noch einen weiteren Abstand (negativ), als -1.33 SD, ist: 0,09 oder 9%.
Fazit: die Wahrscheinlichkeit, daß Engine 1 doch schlechter ist, als Engine2, ist 9%

By Ingo Bauer Date 2010-02-08 08:31

Hallo Ernest,

Danke, ich werde das nochmal in obige Exceltabelle mit einbauen. Daraus könnte man so etwas die die "Güte zweier Ranglisten" ... je kleiner der Akkumulierte Gesamtprozentwert der verglichenen Engines desto eher ist etwas im argen (wobei das natürlich keinerlei Aussage macht WO und BEI WEM etwas nicht stimmt.

Ansonsten hat mich das Wochenende demoralisiert. Bis Freitag habe ich in dem Glauben gelebt das ich zwei Ranglisten vergleichen kann indem ich auf irgendeine Engine "abgleiche" und dann die anderen Engines und Abweichungen betrachte. Natürlich habe ich riesige Unterschiede gesehen ... und ich war glücklich!
Jetzt weiß ich das es so eben nicht geht. Mit dem Ergebniss bin ich auch glücklich, aber ich kann doch für einen Vergleich nicht immer so etwas wie die obige Exceltabelle erstellen ...
Was mich wieder zu einer meiner ehemaligen Signaturen bringt: "Ignorance is bliss".

In Zukunft versuche ich weniger Neugierig zu sein!

Gruß
Ingo

By Thomas Mayer (Quark) Date 2010-02-08 16:11

Hallo Ingo,

[quote="Ingo Bauer"]In Zukunft versuche ich weniger Neugierig zu sein![/quote]

ganz falsche Reaktion ! Ich meine der Thread war für das ganze Forum ziemlich hilfreich, weil er deutlich aufgezeigt hat, warum Ranglisten eben NICHT so einfach verglichen werden können. Wo wären wir ohne Neugier, Ingo. Sowieso: Nur Frauen sind neugierig, Männer sind interessiert...

Jedenfalls, ohne Neugierde gäbs das ganze Hobby nicht. Und nicht nur dieses.

Gruß, Thomas

P.S.: Und auch dank an Horst - ich war mir nicht mehr sicher, ob er Mathelehrer ist oder nicht, deshalb hab ich ihn nicht direkt angesprochen. Hätte eigentlich nur an die Kleinschreibung denken müssen, auf sowas kommt doch nur ein Mathelehrer...

By Ingo Bauer Date 2010-02-08 16:20

Moin Thomas

[quote="Thomas Mayer (Quark)"]
Hallo Ingo,

[quote="Ingo Bauer"]In Zukunft versuche ich weniger Neugierig zu sein![/quote]

ganz falsche Reaktion !...
[/quote]

Hmm ich bin nicht sicher ob das falsch ist, fürchte aber es gelingt mir sowieso nicht. Bastel jetzt schon Ernests Nachilfestunde in die Exceltabelle und überlege auf welche Listen ich das erweitere.
Leider macht CCRL Bayes und CEGT Elostat - sonst könnte ich mal CEGT und CCRL gegenüberstellen ...

Gruß
Ingo