Alle Matches gewonnen und doch nicht ...

By GS Date 2014-10-04 13:17

... Führender ?

Ich habe mal die CEGT 5'+3" pb=on Datendank (noch ohne Komodo 8)
auf die TOP-10 begrenzt und die neue Engine Dezember v0.1 x64 integriert.

Dieser Engine ist es gelungen alle Matches zu gewinnen (!!),
dies jedoch "nur" mit jeweils 25.5-24.5.
Egal, gewonnen ist gewonnen.

Mal sehen, was die Auswertungsprogramme dazu sagen.


Auswertung via ELO-Stat 1.3
 
 #  Program                  Elo    +    -   Games  Score    Av.Op.  Draws
01 Houdini 4.0 x64       : 3009   23   23   500    64.7 %   2903   43.4 %
02 Stockfish 5.0 x64     : 3000   22   21   500    63.4 %   2904   49.6 %
03 Komodo 7.0a x64       : 2978   22   22   500    60.1 %   2906   49.8 %
04 Gull 3.0 x64          : 2954   21   21   500    56.5 %   2909   51.0 %

05 Dezember v0.1 x64     : 2919   19   19   500    51.0 %   2912   62.0 %

06 Equinox 3.00 x64      : 2917   21   21   500    50.6 %   2913   52.8 %
07 Critter 1.6 x64       : 2901   21   21   500    48.1 %   2914   53.0 %
08 Rybka 4.1 x64         : 2860   20   21   500    41.7 %   2918   54.2 %
09 BlackMamba 1.4 x64    : 2842   22   22   500    38.9 %   2920   47.8 %
10 Chiron 2.0 x64        : 2836   22   23   500    38.1 %   2921   46.2 %
11 Deep Fritz 14 x64     : 2828   22   22   500    36.9 %   2921   48.6 %


Auswertung via Ordo
 
 #  Program                  Elo    +    -   Games  Score    Av.Op.  Draws
01 Houdini 4.0 x64       : 3009   22   22   500    64.7 %   2897   43.4 %
02 Stockfish 5.0 x64     : 3000   21   21   500    63.4 %   2898   49.6 %
03 Komodo 7.0a x64       : 2977   20   20   500    60.1 %   2900   49.8 %
04 Gull 3.0 x64          : 2951   21   21   500    56.5 %   2903   51.0 %
 
05 Dezember v0.1 x64     : 2914   21   21   500    51.0 %   2906   62.0 %

06 Equinox 3.00 x64      : 2911   21   21   500    50.6 %   2907   52.8 %
07 Critter 1.6 x64       : 2894   21   21   500    48.1 %   2908   53.0 %
08 Rybka 4.1 x64         : 2850   20   20   500    41.7 %   2913   54.2 %
09 BlackMamba 1.4 x64    : 2830   21   21   500    38.9 %   2915   47.8 %
10 Chiron 2.0 x64        : 2825   22   22   500    38.1 %   2915   46.2 %
11 Deep Fritz 14 x64     : 2816   21   21   500    36.9 %   2916   48.6 %

Schlecht gelaufen für Dezember v0.1 x64 !

By Ralf Mueller Date 2014-10-04 13:47

Was ist das denn für eine Engine? Ich konnte beim ersten schnellen Schauen auf Talkchess und im CPW nichts finden?!

By Wolfgang Battig Date 2014-10-04 14:19

Ich glaube mein Testerkollege Gerhard ist heute im "1.April-Modus"...

. Zumindest was diese "neue Engine" angeht.

Der durchaus seriöse Hintergrund - zumindest der den ich dahinter vermute - dürfte sein, dass hier immer mal wieder der (Irr)Glaube gepflegt wird, dass eine Engine, die in einem Test (z.B. bei IPON) alle Einzelmatches gewinnt auch automatisch Nr. 1 sein muss. Sobald ein Turnier aber mehr als einrundig ist, und das ist beim Computerschach ja in aller Regel der Fall, zieht dieser Automatismus nicht mehr...

By GS Date 2014-10-04 15:42

Du hast mich erwischt !

Viele Grüsse,
G.S.

By Ralf Mueller Date 2014-10-04 15:45

Da bin ich dir ja schön auf den Leim gegangen...

By GS Date 2014-10-04 13:58

Weshalb nur hat die Engine den Führenden mit 25.5-24.5 geschlagen, gegen den Letzten
der Listung jedoch nicht deutlich höher gewonnen ?

Dies ist keine Schwäche der Engine an sich, sondern gewollt durch den Autoren dieser.
Der Autor hat eine Art "Fairplay Modus" in die Engine integriert, welcher dafür sorgt,
dass ein Zweikampf immer mit diesem Ergebnis endet (bei "100er-Matches" mit 50.5-49.5).

Erläuterung:
bei einem "50er-Match" gewinnt Dezember v0.1 immer die ersten 25 Spiele und macht danach
noch ein Remis. Dann verfällt die Engine in den "Fairplay Modus" und lässt den Spielpartner
alle restlichen Spiele gewinnen, schliesslich ist der Wettkampf bereits entschieden.

Man kann das Aushebeln, in dem man ein 50er-Match nach Spiel Nummer 25 abbricht und das
bisherige Gamesfile von der HDD nimmt. Umbennen reicht übrigens nicht aus, Dezember "merkt"
so etwas. Danach startet man den PC neu (wichtig !!) und setzt wiederum ein "50er-Match" auf,
welches man ebenfalls nach Spiel 25 abbricht.
Auf diese Art und Weise erhält man i.d.R. ein 50.0 - 0.0.

So lange so etwas möglich ist, wird der Autor die Engine nicht frei geben ...

Die Engine lässt sich übrigens auch nur einmal starten auf einem PC, deshalb kann man z.B.
die Möglichkeiten des Shredder-GUIs, nämlich mehrere Instanzen an einem Turnier arbeiten
zu lassen, leider nicht nutzen.

Die dringlichste Frage des Autoren an mich:
"weshalb belegt mein Programm nicht den TOP-Platz obwohl es doch alle Begegnungen
für sich entschieden hat" ?

Ich kann ihm keine Antwort darauf geben ...

By Ralf Mueller Date 2014-10-04 14:09

GS schrieb:

Die dringlichste Frage des Autoren an mich:
"weshalb belegt mein Programm nicht den TOP-Platz obwohl es doch alle Begegnungen
für sich entschieden hat" ?

Ich kann ihm keine Antwort darauf geben ...

Na weil es sich um ein Rundenturnier handelt und nicht um ein Matchturnier. In der Auswertung wird ja nicht berücksichtigt, in welcher Verteilung du deine Punkte gemacht hast, sondern nur, wie viele insgesamt. Wenn du gegen die obersten 5 alle Partien verlierst (und fünf gewinnst) und gegen die untersten 5 alle gewinnst, kommst du auch auf die gleiche Punktzahl insgesamt - und nur diese ist bei einem Rundenturnier entscheidend.

Wozu soll denn dieser Fair-Play-Modus gut sein?!

By GS Date 2014-10-04 14:17

Ralf Mueller schrieb:

GS schrieb:

Die dringlichste Frage des Autoren an mich:
"weshalb belegt mein Programm nicht den TOP-Platz obwohl es doch alle Begegnungen
für sich entschieden hat" ?

Ich kann ihm keine Antwort darauf geben ...

Hiess es nicht immer dies sei die "grundsätzliche" Schwäche von ELO-Stat,
bei Ordo jedoch würde das anders funktionieren ?

By Peter Martan Date 2014-10-04 15:10

Deinen Humor, auch wenn du meistens kurze Sätze machst, versteht aber auch nicht gleich ein jeder auf Anhieb, und mit Poesie hat's, kann ich auch nur so dazu vermuten, wahrscheinlich auch irgendwas zu tun.

By GS Date 2014-10-04 17:56

Mit dem Release von heute, Dezember v0.1b, ist es
nun möglich vor dem Wettkampf das Wunschergebnis vorzugeben.

Mein Ziel war es, die bisher Führenden der reduzierten DB,
also Houdini 4.0 x64, Stockfish 5.0 x64 und Komodo 7.0a, nahezu
punktgleich mit Dezember v0.1b zu bekommen.

Die direkten Matches gegen Houdini und Stockfish jedoch sollten
möglichst klar zugunsten der neue Engine ausgehen.

Mein Wunsch war:


Dezember v0.1b
vs Houdini 4.0    49.0 - 1.0
vs Stockfish 5.0  45.0 - 5.0

Beide Wünsche wurden mir erfüllt.

Die restlichen 8 Matches blieben bei jeweils 25.5-24.5, ausser
einem, welches 27.5-22.5 ausgehen sollte.

Daraus ergibt sich von den reinen Punkten her gesehen folgendes:

Houdini 4.0 x64    300.0 out of 500
Dezember v0.1b x64 300.0 out of 500
Stockfish 5.0 x64  300.0 out of 500
Komodo 7.0a x64    300.0 out of 500

Wie es der Zufall so will sind nun 4 Engines absolut Punktgleich.

Es gilt weiterhin, dass Dezember die einzige Engine ist, welche jedes
Match gewonnen hat. Dazu kommt, dass die Engine gegen einen der nun
geteilten Ersten 98% (!!) und gegen einen weiteren 90% (!!) geholt hat !

Und nun, wie gehabt, die Auswertungen dazu:


Auswertung by ELO-Stat 1.3
 
 #  Program                 Elo    +    -   Games   Score   Av.Op.  Draws
01 Houdini 4.0 x64       : 3000   24   24   500    60.0 %   2930   37.6 %
02 Komodo 7.0a x64       : 3000   22   22   500    60.0 %   2930   49.6 %
03 Stockfish 5.0 x64     : 3000   23   23   500    60.0 %   2930   44.4 %
04 Dezember v0.1 x64     : 3000   21   21   500    60.0 %   2930   51.2 %
05 Gull 3.0 x64          : 2977   21   21   500    56.5 %   2932   51.0 %
06 Equinox 3.00 x64      : 2940   21   21   500    50.6 %   2936   52.8 %
07 Critter 1.6 x64       : 2924   21   21   500    48.1 %   2937   53.0 %
08 Rybka 4.1 x64         : 2883   20   21   500    41.7 %   2941   54.2 %
09 BlackMamba 1.4 x64    : 2865   22   22   500    38.9 %   2943   47.8 %
10 Chiron 2.0 x64        : 2857   23   23   500    37.7 %   2944   45.4 %
11 Deep Fritz 14 x64     : 2849   22   22   500    36.5 %   2945   47.8 %


Auswertung by Ordo
 
 #  Program                 Elo    +    -   Games   Score   Av.Op.  Draws
01 Dezember v0.1 x64     : 3000   21   21   500    60.0 %   2925   51.2 %
02 Komodo 7.0a x64       : 3000   20   20   500    60.0 %   2925   49.6 %
03 Houdini 4.0 x64       : 3000   21   21   500    60.0 %   2925   37.6 %
04 Stockfish 5.0 x64     : 3000   20   20   500    60.0 %   2925   44.4 %
05 Gull 3.0 x64          : 2976   21   21   500    56.5 %   2927   51.0 %
06 Equinox 3.00 x64      : 2936   21   21   500    50.6 %   2931   52.8 %
07 Critter 1.6 x64       : 2919   20   20   500    48.1 %   2933   53.0 %
08 Rybka 4.1 x64         : 2875   20   20   500    41.7 %   2937   54.2 %
09 BlackMamba 1.4 x64    : 2856   21   21   500    38.9 %   2939   47.8 %
10 Chiron 2.0 x64        : 2847   22   22   500    37.7 %   2940   45.4 %
11 Deep Fritz 14 x64     : 2839   21   21   500    36.5 %   2941   47.8 %

Welche der 2 Auswertungen "gefällt" ihnen besser ?

By Ralf Mueller Date 2014-10-04 19:15

Zitat:

Wie es der Zufall so will sind nun 4 Engines absolut Punktgleich.

Zufälle gibt's!

Eine sehr interessante Konstellation hast du da. Die Frage ist, ob es gleich viel Wert ist, die stärksten Engines in einem 50-Partien-Match vernichtend zu schlagen und die schwächsten Engines nur knapp zu bezwingen oder gegen die stärksten Engines ausgeglichen zu spielen und die schwächsten Engines vernichtend zu schlagen.

Das Auswertungsprogramm geht ja davon aus, dass die Leistung von Dezember konstant ist, das heißt gegen jede Engine gleich. Den ersteren Fall (erstplatzierte vernichtend zu schlagen und letztplatzierte nur knapp) hält das Auswertungsprogramm vereinfacht gesagt für einen Streuungsfehler, da dies nach der Wertungszahllogik nicht sein kann. Dem versucht das Programm entgegenzuwirken, indem es alle Resultate zusammen nimmt und die durchschnittliche Leistung ermittelt.

By Hauke Lutz Date 2014-10-04 19:23

Grundsätzlich finde ich, dass der Score gegen ein besseren Gegner (Buchholz), welcher dann sogar noch der direkte Vergleich ist mit dem 1. Platz zu belohnen ist. Ist bei Wettkämpfen genauso gängige Praxis, also warum nicht auch hier.

By Ralf Mueller Date 2014-10-05 13:34

In Wettkämpfen handelt es sich aber stets um die Zweitwertung, die bei Punktgleichheit in der Erstwertung angewandt wird. Die Erstwertung wäre bei Computerschach analog dazu die Wertungszahl - man könnte überlegen, ob man als Zweitwertung den direkten Vergleich oder derartiges nimmt. Auf die Elozahl als Erstwertung hat das dann aber keinen Einfluss.