Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / SWCR 02-2010 ... solche Unterschiede passieren !!!
- - By Frank Quisinsky Date 2010-01-27 11:13
Hi,

was passiert wenn in einer ELO-Ratingliste mehrere Versionen der gleichen Programme auftauchen?
In der SWCR passiert das nicht, weil hier nur eine offizielle Auswertung der aktuellen Versionen erfolgt.

Wie schauen aber die ELOs aus wenn das nicht passieren würde?

SWCR 02-2010 (nur die aktuellen Versionen)

Code:
   1 Rybka 3               2842   22   22   720   74%  2668   29%
   2 Shredder 12           2800   21   21   720   69%  2670   36%
   3 Stockfish 1.6         2791   21   20   720   68%  2671   39%
   4 Naum 4                2766   20   20   720   64%  2672   40%
   5 Fritz 12              2736   20   20   720   60%  2674   44%
   6 Thinker 5.4d Inert    2692   20   20   720   52%  2676   41%
   7 Doch 1.3.4            2679   20   20   720   50%  2677   44%
   8 Cyclone xTreme Wrath  2667   20   20   720   48%  2678   41%
   9 Protector 1.3.2       2661   20   20   720   48%  2678   44%
  10 Hiarcs 12.1           2657   20   20   720   47%  2678   39%
  11 Junior 2010           2640   20   20   720   44%  2679   39%
  12 Zappa Mexico II       2637   20   20   720   44%  2679   44%
  13 Sjeng WC-2008         2637   20   20   720   44%  2679   35%
  14 Spark 0.3             2633   20   20   720   43%  2679   43%
  15 Onno 1.1.1            2628   20   20   720   42%  2680   45%
  16 Loop 13.6             2613   20   20   720   40%  2681   43%
  17 Fruit 05/11/03        2606   20   20   720   39%  2681   42%
  18 Glaurung 2.2          2603   20   20   720   39%  2681   36%
  19 SmarThink 1.20        2575   21   21   720   34%  2683   38%


Und hier die Auswertung wenn ich alle Ergebnisse einpicke:
Und je mehr gleiche Versionen von einem Programm teilnehmen desto undurchsichtiger wird es (obwohl die gar nicht gegeneinander antreten).

SWCR 02-2010 (alle Versionen)

Code:
   1 Rybka 3               2850   20   20   880   75%  2671   30%
   2 Shredder 12           2800   19   19   880   69%  2673   36%
   3 Stockfish 1.6         2793   20   20   800   68%  2673   40%
   4 Naum 4                2773   19   18   880   65%  2675   39%
   5 Fritz 12              2737   18   18   880   59%  2676   44%
   6 Stockfish 1.5.1       2722   21   20   680   57%  2676   44%
   7 Thinker 5.4d Inert    2702   18   18   880   54%  2678   43%
   8 Doch 1.3.4            2681   19   19   760   50%  2679   44%
   9 Cyclone xTreme Wrath  2669   18   18   880   49%  2679   41%
  10 Protector 1.3.2       2664   20   20   720   48%  2681   44%
  11 Doch 1.2              2660   20   20   720   47%  2680   41%
  12 Protector 1.3.1b      2659   19   18   840   47%  2681   43%
  13 Hiarcs 12.1           2658   18   18   880   47%  2680   41%
  14 Doch 09.980           2648   21   21   680   45%  2680   44%
  15 Sjeng WC-2008         2642   19   19   880   44%  2681   36%
  16 Junior 2010           2642   18   18   880   44%  2681   41%
  17 Zappa Mexico II       2641   18   18   880   44%  2681   45%
  18 Spark 0.3             2636   18   18   880   43%  2681   43%
  19 Onno 1.1.1            2627   18   18   880   42%  2681   44%
  20 Loop 13.6             2616   18   18   880   40%  2682   42%
  21 Fruit 05/11/03        2608   19   19   800   39%  2682   42%
  22 Glaurung 2.2          2602   19   19   880   38%  2683   37%
  23 SmarThink 1.20        2587   19   19   880   35%  2683   38%


Rybka 3 hat 8 ELO mehr, Naum hat 7 ELO mehr, Thinker hat 10 ELO mehr etc.

Was ist nun genauer?
Viele Partien zu haben, oder systematisch zu testen?
Auch einer der Beeinflussungsfaktoren ... einer von vielen!

Arbeite gerade an den Seiten.
Wer experimentieren möchte kann in ein paar Minuten die Daten auf den SCHACHWELT Seiten herunterladen.
Finden sich im Download-Bereich.

SCHACHWELT
http://www.schach-welt.de (unter Spezial / Computerschach)

Gruß
Frank
Parent - - By Benno Hartwig Date 2010-01-27 12:48
[quote="Frank Quisinsky"]Rybka 3 hat 8 ELO mehr, Naum hat 7 ELO mehr, Thinker hat 10 ELO mehr etc.
Was ist nun genauer?
Viele Partien zu haben, oder systematisch zu testen?[/quote]Um das zu sagen, muss man wohl erst mal festlegen, was für ein Ergebnis man den haben möchte, was man ermitteln, oder abschätzen will.
"Die Stärke des Programmes!" oder "Die relative Stärke des Programmes!" ist eben viel zu ungenau, man muss wohl sehr konkret sagen, was man darunter versteht, und dies gerade mit Blick auf unterschiedliche Gegnerschaften.
Der eine sagt "nur die stärksten Gegnerversionen", der andere alle.
Der eine sagt "nur starke Gegner", der andere sagt, nein auch viel schwächere, die dann 'gefälligst' sehr sicher zu schlagen sind.
Der eine sagt: Anzahl der Spiele gegen jeweilige Gegner jeweils gleich viele, der andere sagt womöglich "Nein, lieber entsprechend dem Marktanteil"
Der eine testet sowohl 32bit-als auch 64-bit-Gegner, der andere nur 32-bit, der dritte nur 64-bit
usw...

Erst wenn man gesagt hat, was sehr konkret man ermitteln möchte, wird man versuchen können zu sagen, wie gut geeignet eine bestimmte Vorgehensweise ist, wie 'genau' die ist.
(Aber im Ergebnis so sehr unterschiedlich sind die womöglich auch gar nicht.)

Benno
Parent - By Frank Quisinsky Date 2010-01-27 13:09
Hallo Benno,

natürlich!

Gibt ja nun mehrere Möglichkeiten eine Ratingliste aufzubauen.
Es gibt auch viele unterschiedliche Sichtweisen hierzu (unabhängig von Beeinflussungsfaktoren).

Was will ich erreichen?
Welche Interessen liegen vor.

Fraglich ist dann nur, in wie weit die einzelnen Listen miteinander verglichen werden können?

Schon das von mir gepostete Beispiel innerhalb einer Liste zeigt auf wie es zu Abweichungen kommen kann.
Klein aber fein, kommen noch die vielen anderen Faktoren dazu kann es auch schon heftiger differenzieren.

Ist ja schon alles 1000x diskutiert wurden.

Gruß
Frank
Parent - - By Werner Mueller Date 2010-01-28 16:15
[quote="Frank Quisinsky"]
Rybka 3 hat 8 ELO mehr, Naum hat 7 ELO mehr, Thinker hat 10 ELO mehr etc.

Was ist nun genauer?
Viele Partien zu haben, oder systematisch zu testen?
Auch einer der Beeinflussungsfaktoren ... einer von vielen!
[/quote]
Hallo Frank,

auch wenn man weiterhin systematisch testet - sind mehrere Partien 'genauer'?!?

Kleines Paradoxon zum Begriff 'genauer'

Wenn ich mich nicht verrechnet habe, spielt in Deiner Liste mit 19 Engines jeder gegen jeden 40 Partien, d.h. 720 Partien pro Engine, 6840 Partien insgesamt.
Nun könntest Du ja auf die Idee kommen, noch eine Runde anzuhängen, als jeder gegen jeden 41 Partien (oder wenn Dich die ungleiche Farbverteilung stört auch zwei Runden). Pro Engine also 18 Partien, insgesamt 171 Partien zusätzlich.

Ich denke, jeder wird zustimmen, dass diese (neue) Partiensammlung sozusagen 'genauere' Werte liefern sollte - weil mehr Partien - als Deine ursprüngliche.

Andererseits...

... betrachtet man diese zusätzlichen 18 Partien pro Engine bzw. diese insgesamt 171 Partien einmal für sich, so wissen wir ja alle, dass 18 Partien pro Engine bzw. insgesamt 171 Partien bzgl. der statistischen Belastbarkeit eine lächerlich kleine Anzahl ist, was heißen soll: nur mit sehr geringer Wahrscheinlichkeit liefert eine Auswertung dieser geringen Anzahl von Partien irgendwie 'genaue' Elo-Werte und mit noch weit geringerer Wahrscheinlichkeit 'genauere' als eine Auswertung Deiner 6840 Partien.
Mit anderen Worten: högschtwahrscheinlich liefert eine Auswertung dieser 171 Partien 'ungenauere' Elo-Werte als eine Auswertung Deiner 6840 Partien.
Soweit wird sicher auch jeder zustimmen können.

Und nun kommts: Wenn Du also Deine Original-Partiensammlung um diese 'ungenauere' Werte liefernden 171 Partien ergänzt, um nicht zu sagen: versaust!?!, warum sollte dann diese erweiterte Partiensammlung nicht ebenfalls 'ungenauer' als Deine Original-Partiensammlung sein, oder warum gar sollte sie (nach obiger Annahme: mehr Partien -> 'genauere' Werte) 'genauer' werden???
 
Parent - - By Frank Quisinsky Date 2010-01-28 17:49
Hallo Werner,

WM
auch wenn man weiterhin systematisch testet - sind mehrere Partien 'genauer'?!?

FQ
Natürlich, aber es wird nicht viel bringen. Wahrscheinlich finde ich mal wieder maximal eine Engine deren ELO etwas ungenauer ist. Dafür ist der Zeitaufwand zu hoch zumal ich ein ganz anderes Problem mit der Liste habe. Ich komme mti dem Testen nicht nach. Selbst wenn "nur" die TOP 20 getestet werden, kann diese Liste nur schwer aktuell gehalten werden. Ich könnte zwar weitere Rechner einsetzen aber dann nimmt die Liste zu viel Zeit in Anspruch. Auch bei mir Partien muss ich mehr überprüfen (versuche weitestgehend Partien mit unklarem Ausgang oder Endspielfehlern zu wiederholen).

Waren bislang 9 Partien, 6x hat sich ein Ergebnis verändert.
In Anbetracht der über 9.000 Partien nicht viel.

WM:
Kleines Paradoxon zum Begriff 'genauer'
Wenn ich mich nicht verrechnet habe, spielt in Deiner Liste mit 19 Engines jeder gegen jeden 40 Partien, d.h. 720 Partien pro Engine, 6840 Partien insgesamt.

FQ:
Genau, es sollen eigentlich 20 sein aber Ktulu macht Probleme und Rahman ist unterwegs. Er schaut sich das Problem aber an. Eine Alternative wäre Critter auf 20 zu setzen.

WM:
Nun könntest Du ja auf die Idee kommen, noch eine Runde anzuhängen, als jeder gegen jeden 41 Partien (oder wenn Dich die ungleiche Farbverteilung stört auch zwei Runden). Pro Engine also 18 Partien, insgesamt 171 Partien zusätzlich.

FQ:
Habe ich auch schon daran gedacht. Vielleicht mache ich das auch wenn ich mal Luft habe. Zur Zeit stehen Update Versionen an die aufgenommen werden müssen. Wenn jetzt ein Monat keine neue Engine der TOP 20 kommt wäre ich bei

WM:
Ich denke, jeder wird zustimmen, dass diese (neue) Partiensammlung sozusagen 'genauere' Werte liefern sollte - weil mehr Partien - als Deine ursprüngliche.

FQ:
Siehe oben.
Viel bringen wird es nicht, schaden kann es auch nicht.
Nur derzeit nicht möglich ... zu viele nicht getestete Upates.

WM:
Andererseits...
... betrachtet man diese zusätzlichen 18 Partien pro Engine bzw. diese insgesamt 171 Partien einmal für sich, so wissen wir ja alle, dass 18 Partien pro Engine bzw. insgesamt 171 Partien bzgl. der statistischen Belastbarkeit eine lächerlich kleine Anzahl ist, was heißen soll: nur mit sehr geringer Wahrscheinlichkeit liefert eine Auswertung dieser geringen Anzahl von Partien irgendwie 'genaue' Elo-Werte und mit noch weit geringerer Wahrscheinlichkeit 'genauere' als eine Auswertung Deiner 6840 Partien.

FQ:
Genau.
Sind 20 Engines in der Liste habe ich 760 Partien pro Engine.
Da ich vier Rechner einsetze (siehe Donwload file mit den vier einzelnen Shredder Tabellen, interessant) und auf jeden 2 Partien mehr spielen lassen ...
Wären das 48 Partien pro Match.

Bei 20 Engines hätte ich dann 912 anstatt 760 Partien pro Engine!
Würde runde 3 Wochen Zeit in Anspruch nehmen.

WM:
Mit anderen Worten: högschtwahrscheinlich  liefert eine Auswertung dieser 171 Partien 'ungenauere' Elo-Werte als eine Auswertung Deiner 6840 Partien.
Soweit wird sicher auch jeder zustimmen können.

FQ:
Nun ja ...

WM:
Und nun kommts: Wenn Du also Deine Original-Partiensammlung um diese 'ungenauere' Werte liefernden 171 Partien ergänzt, um nicht zu sagen: versaust!?!, warum sollte dann diese erweiterte Partiensammlung nicht ebenfalls 'ungenauer' als Deine Original-Partiensammlung sein, oder warum gar sollte sie (nach obiger Annahme: mehr Partien -> 'genauere' Werte) 'genauer' werden???

FQ:
Verstehe ich jetzt nicht.

Wenn ich jetzt einfach 48 anstatt 40 Partien pro Match spielen lasse wird die Liste natürlich minimal genauer. Allerdings so minimal das es im Grunde nichts bringen wird.

Ob jetzt bei 720 Partien in 1/52 Fällen eine Abweichung von 30 ELO (+-15) erreiche.
Und bei 912 Partien in 1/67 Fällen eine Abweichung von 30 ELO (+-15) erreiche.
Und bei 1.440 Partien in 1/128 Fällen eine Abweichung von 30 ELO (+-15) erreiche.

Es sind 20 Engines in der Liste und keine 52. Insofern ist die Anzahl der Partien mit 720 oder später 760 ausreichend.
Ich hege nur den Anspruch auf +-15 genau zu sein.
Ist wie gesagt mal eine Engine dabei die stark abweicht sehe ich das auch (muss nur mit anderen Listen vergleichen).
Derzeit nicht der Fall!

Sind eh ziemlich viele Veränderungen durch die vielen Updates und die Liste spiegelt wirklich nur eine Momentaufnahme wieder.
Wird an einer solchen Liste mal 4 Monate nichts gemacht ... kannste fast wieder vorn vorne anfangen.

Zumindest wenn Dir nur die Statistiken wichtig sind.
Mir geht es mehr um die Partien selbst.

Viele Grüße
Frank
Parent - By Werner Mueller Date 2010-01-28 19:00
Du bist wahrscheinlich so sehr Praktiker, dass Du mein eigentliches Anliegen überlesen hast: rein theoretisch - ein Paradoxon (in dem natürlich irgendwo Unsinn versteckt ist). Ich kam darauf wg. Deinem Begriff 'genau'.

Man hat zahlenmäßig ausreichend (statistisch belastbares) Partienmaterial. Soll heißen, eine elomäßige Auswertung ergibt eine hinreichende (hängt natürlich von den Ansprüchen ab) Genauigkeit.
Klar ist einerseits, dass man durch Hinzufügen von weiterem Partienmaterial (ohne irgendeine Systematik zu verletzen) eine noch 'genauere' elomäßige Auswertung erwarten kann.

Wie argumentiert man aber andererseits, wenn jemand behauptet: stimmt ja gar nicht - im Gegenteil, dieses zusätzliche Partienmaterial sei ja für sich betrachtet nicht statistisch belastbar, eine elomäßige Auswertung nur dieses zusätzlichen Materials ergäbe nicht verlässliche und mit höchster Wahrscheinlichkeit 'ungenaue' Werte, und man könne ja schließlich nicht erwarten, dass gelten solle:
'hinreichend genau' + 'ungenau' => 'noch genauer'.
Up Topic Hauptforen / CSS-Forum / SWCR 02-2010 ... solche Unterschiede passieren !!!

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill