Vergleich CEGT Blitz / SWCR Blitz ...

By Frank Quisinsky Date 2010-04-19 23:13 Edited 2010-04-19 23:18

Hi,

habe mir mal die Mühe gemacht und die beiden Listen gegenübergestellt.
Dabei dann die SWCR auf ELOstat berechnet (berechne normal mit Bayesian).

Sehr viele gravierende Unterschiede, die aufgrund der Partieanzahl nicht unbedingt sein dürfen.
Kann aber mit verschiedenen Faktoren zusammen hängen.

Spiele mit Ponder = On
Spiele mit Partie in 5 Minuten
Spiele ohne Aufgabefaktor

Dennoch ganz interessant ...
Da einige der aktuellen Versionen trotz wahnsinniger Versionsvielfalt in der CEGT nicht enthalten sind, denke ich macht es Sinn die Liste weiter zu führen.
CEGT konzentriert sich überwiegend auf x64, mir ist 32-Bit wichtig.

Hier der Vergleich:

CEGT Blitz
Rybka 3 32-Bit 1 Core = 3041 = -166 ELO

Code:

Rank Name                      Elo    +    - games score oppo. draws 
   1 Stockfish 1.7.1 JA       2899   27   26   620   80%  2657   26%  2866   800 Partien  + 33
   2 Rybka 3                  2875   21   21   880   77%  2671   28%  2875  2930 Partien     0
   3 Naum 4.2                 2839   21   21   840   73%  2672   32%  2841  2200 Partien  -  2
   - Stockfish 1.6.3 JA       2834   26   25   580   74%  2660   31%  ----
   - Stockfish 1.6.0 JA       2821   26   25   560   71%  2669   32%  2810  1800 Partien  + 11
   4 Shredder 12              2800   19   19   960   68%  2671   33%  2799  2860 Partien  +  1  
   - Naum 4.1                 2781   23   23   640   68%  2659   33%  2816  1598 Partien  - 35
   - Naum 4.0                 2773   23   23   620   63%  2684   38%  2799  3690 Partien  - 26
   - Rybka 2.3.2a             2765   23   23   600   62%  2684   36%  2786  3772 Partien  - 21
   - Stockfish 1.5.1 JA       2741   24   24   560   60%  2672   33%  2744  2000 Partien  -  3
   5 Thinker 5.4d Inert       2712   18   18   960   56%  2673   34%  2742  3010 Partien  - 30
   6 Komodo 1.0 JA            2703   22   22   660   55%  2675   31%  2713  2000 Partien  - 10
   - Rybka 1.2n               2699   23   23   600   54%  2678   35%  ----
   7 Hiarcs 12.1              2695   19   19   960   54%  2673   31%  2721  4220 Partien  - 26
   8 Critter 0.60             2689   22   22   700   53%  2671   31%  ----
   - TogaII 1.4.2 JD          2686   24   24   560   52%  2677   35%  2685  3604 Partien  +  1
   9 Spark 0.4                2683   21   21   760   51%  2678   35%  2699   800 Partien  - 16
   - Cyclone xTreme-Wrath     2678   23   23   580   51%  2674   36%  ----
   - Cyclone xTreme-Fury      2676   24   24   560   49%  2689   36%  ----
   - Grapefruit 1.0 Beta      2670   23   23   620   49%  2678   36%  ----
  10 Protector 1.3.4 JA       2668   20   20   780   49%  2675   34%  ----
   - Doch 1.3.4 JA            2666   24   24   580   49%  2673   34%  2675  1300 Partien  -  9
   - Shredder Classic 4       2660   23   23   620   48%  2676   33%  ----
   - Protector 1.3.2          2658   24   24   560   49%  2672   35%  ----
  11 Sjeng WC-2008            2651   18   19   960   47%  2674   33%  2655  1590 Partien  -  4
   - Protector 1.3.1b         2650   24   24   560   50%  2656   38%  ----
  12 Junior 2010              2649   24   24   580   47%  2673   31%  2664  2160 Partien  - 15
   - Doch 09.980 JA           2646   24   24   560   47%  2674   35%  2633  1998 Partien  + 13
  13 Onno 1.2.2 Beta          2644   23   23   600   46%  2675   34%  ----
   - Onno 1.1.1               2643   21   21   720   45%  2682   36%  2680    40 Partien  - 37 !
  14 Fruit 05/11/03           2642   23   23   600   42%  2702   33%  2662  1696 Partien  - 20
   - Critter 0.52b            2642   23   23   620   46%  2674   32%  2657   900 Partien  - 15
   - TogaII 2.0 SE            2638   24   24   580   47%  2664   31%  ----
   - Fruit 2.3.1              2637   23   23   580   43%  2693   40%  ---- 
   - Doch 1.2 JA              2634   24   24   560   44%  2681   34%  2666  1400 Partien  - 32
  15 Loop 13.6                2633   18   18   960   45%  2675   36%  2666  3954 Partien  - 33
  16 Zappa Mexico II          2626   19   19   960   44%  2675   33%  2595  4704 Partien  + 31
   - Spark 0.3a               2622   23   24   600   44%  2667   32%  2652   400 Partien  - 30 
   - Spark 0.3                2617   23   24   580   41%  2688   34%  2669  1258 Partien  - 47 !!
   - Junior 11.1a             2615   21   21   780   42%  2676   31%  ----
   - Glaurung 2.2 JA          2609   23   23   640   40%  2686   31%  2639  2680 Partien  - 30 
   - Bright 0.5c              2596   24   24   600   36%  2698   31%  2655  2100 Partien  - 59 !!!
  17 SmarThink 1.20           2584   22   22   720   38%  2673   27%  ----
  18 Twisted Logic 20100131x  2578   23   24   620   37%  2674   30%  ----
  19 Spike 1.2 Turin          2571   23   23   660   34%  2688   31%  2612 13497 Partien  - 41 
  20 Chess Tiger 2007-12      2559   23   23   700   32%  2694   28%  2576  5228 Partien  - 17
  21 Crafty 23.2 JA           2520   25   25   600   28%  2691   27%  ----
  22 TheKing 3.50 Nazgûl      2503   26   27   580   25%  2696   24%  ---- 
  23 Scorpio 2.5 JA           2502   25   26   600   26%  2691   27%  ----

Vergleiche ich jetzt aber wieder SWCR Blitz mit SWCR Normal, berücksichtige das Shredder 12 im Blitz um 15 ELO abfällt sind die Unterschiede wieder deutlich geringer, als im CEGT Vergleich. Witzig, vielleicht hängt es wirklich mit dem Pondern zusammen, kann ich überhaupt nicht deuten.

Wie gesagt, beim Vergleich der beiden eigenen Listen sind alle Unterschiede sehr einfach erklärbar. So grobe Unterschiede wie hier bei Onno gibt es gar nicht.

---- bedeutet ... nicht in CEGT enthalten.

Gruß
Frank

Nun gut, Blitz ist schon extrem und die Unterschiede der verschiedenen Listen sind größer als bei mittleren Bedenkzeiten. Das ist bekannt. Dennoch stimmen die Einteilungen nach Plätzen grob. Das am Ende die Unterschiede immer größer werden, hängt teilweise auch mit dem Berechnungsprogramm zusammen (finde ELOstat zeigt hier seine Schwäche). Ferner ist die CEGT genauer bei der Bewertung der Engines die bei mir unten stehen, weil die CEGT nicht mit TheKing endet sondern noch x andere Versionen kommen. Die CEGT wird ungenau am Ende der Liste ... wie jede Liste ... meine heit mit TheKing und darüber. Schwierig jetzt zu erklären, Thema hatten wir schon mehrfach. Gleiches für die Engines die oben stehen.

Interessant bei Listenvergleichen ist daher vielmehr die Mitte. Dort gibt es viele Übereinstimmungen zwischen CEGT und SWCR.

By Frank Quisinsky Date 2010-04-19 23:27 Edited 2010-04-19 23:30

Hi,

stellt sich die Frage, ob Blitz-Listen generell nicht ein irrsinniges Unterfangen darstellen.
Kleine Abweichungen zwischen den Testbedingungen führen teils zu gravierenden Unterschieden.

Ferner sind die Listen, die ich kenne, auch total unterschiedlich bei den Bewertungen (so richtig sind sich die Listen untereinander nicht einig).

Blitz ist heit schwierig zu testen, einfacher sind da schon die mittleren Bedenkzeiten. Hier gleichen sich die Listen mehr an bzw. sind auch die Unterschiede einfach zu erklären (nach Testbedingungen).

Nun ja, komme wie schon vor 10 Jahren zu dem Ergebnis ...
Blitz ist nicht sonderlich interessant, zumindest aus meiner Sicht ... zu viele unterschiedliche Ergebnisse!

Oder besser:

Statistische Aussage = Fragwürdig
Partien = Laufen zu schnell, komme nicht mit, zusehen macht kaum Spaß.
Analysen = Machen auch wenig Sinn.

Gruß
Frank

PS
Wird Gerhard nicht gerne hören oder andere die Blitz-Listen ins Leben rufen.
Ganz ehrlich, ich kann mit meiner genau so wenig anfangen wie mit anderen Blitz-Listen

Nun ja, im eigenen Fall ... ist ja nur ein Anhaltspunkt für die Qualifikation zur SWCR (wenn neue Engines kommen).

By Frank Quisinsky Date 2010-04-19 23:50

Hi,

ein Beispiel ist Zappa ... vielleicht das absolut perfekte Beispiel warum Blitz-Listen keinen großen Sinn ergeben.

Zappa ist in SWCR 30 ELO besser als in CEGT. Während alle anderen Engines deutlich schlechter sind die am Ende der SWCR-Blitz Liste stehen.

Zappa läuft schneller auf AMD und genau das hat große Auswirkungen bei der wirklich geringen Bedenkzeit beim Blitz.
Und im Umkehrschluss bedeutet dies auch, dass andere Bedingungen zwischen den Blitz-Listen große Auswirkungen haben.

Interessant ist festzustellen, wo die Schwelle der Bedenkzeit liegt.
Denke die beginnt bei der Bedenkzeit die Ingo verwendet. Partie dauert bei IPON ca. 16 Minuten. Die Ergebnisse sind gut vergleichbar zur SWCR, hier läuft eine Partie ca. 40 Minuten.

Damit will ich sagen das die Schwelle ca. bei 12-20 Minuten pro Partie dauert. Damit meine ich, dass es fast egal ist ob dann eine Partie 12 Minuten oder vielleicht 60 Minuten läuft. Die Ergebnisse dieser Listen sind besser vergleichbar als bei Listen wo die Partiedauer zwischen 5 und 12 Minuten andauert.

Habe dahingend mal ein paar Listen mit Excel untersucht und komme hier zu dem Ergebnis:

Aktuelle Hardware ca. 3 GHz:
Minimal müsste eine Partie genau 18,86 Minuten laufen damit die Ergebnisse in einem Bereich von +-20 liegen zu einer Liste mit der Partiedauer von 40 Minuten.

Um also festzustellen wie stark eine Engine ist, würde eine Liste mit einer durchschnittlichen Partiedauer von knapp 20 Minuten ein weitesgehend gutes Ergebnis abliefern. Und bei Partien unter 8 Minuten haben wir dann teilweise (egal wie viele Partien gespielt werden) ... verstärkt Kaffeesatzlesen.

Vermutung, aber diese liegt schon fast auf der Hand.

Schei ...
Das mag ich selbst überhaupt nicht gerne zur Kenntnis nehmen aber bei meinen schnellen Excel Analysen komme ich genau zu diesem Ergebnis.
Von wegen ... doppelte Bedenkzeit ... gleicher Zuwachs etc.. Das alles scheint im Blitz vereinzelt gar nicht zuzutreffen.

Entnervt von diesem vernichtenden Ergebnis überlege ich die Blitz-Ratingliste einzustellen, sehe kaum noch einen wirklichen Nutzen.
Qualle für SWCR ist auch nur noch schön reden.

Gruß
Frank