Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Komodo CCT: I am not amused.
- - By Michael Scheidl Date 2013-05-14 19:54 Edited 2013-05-14 19:57
0:30m+0,5s, ponder on
i5-3210M, 256 MB Hash
je 1 Thread
S.Canbaz' Top-10 Openings
Arena 2.0.1, Windows 8 x64

   Engine           Score                   
1: Komodo CCT       25,0/60 ····················
2: Houdini 1.5a2d   14,5/20 =11111=110111100=101
3: Critter 1.6a     10,5/20 =10010=1011=1=0===10
4: Stockfish 130513 10,0/20 =1110=010===1100==0=

Parent - - By Michael Scheidl Date 2013-05-15 01:25
Folgendes war praktisch nur ein Vergleich der Bewertungsqualität, da etwaige Fortschritte bei der Suche durch fixe Rechentiefe neutralisiert wurden:

i5-3210M, 512 MB Hash
11 Halbzüge fixe RT.
S.Canbaz' Top-50 Openings
Arena 2.0.1, Windows 8 x64

                     
1   Komodo CCT   +10  +28/=47/-25 51.50%   51.5/100
2   Komodo 3     -10  +25/=47/-28 48.50%   48.5/100

Das sind heiße +10 Elo um welche die Eval im Direktvergleich mit Komodo 3 besser ist. Ist natürlich eine etwas unsystematische Vereinfachung, da Bewertung und Suche Hand in Hand gehen...

Laut IPON beträgt der Gesamtabstand 66 Elo. - Ich weiß nicht welche Wunder ich nach dem sehr guten nTCEC-Auftritt erwartet habe. Gehe somit ohne weiteren Kommentar wieder zur Tagesordnung über.
Parent - - By Ingo Bauer Date 2013-05-15 06:01
Michael,

nach all den Jahren versuchst du immer noch mit so wenig Spielen (aka 'würfeln') und dann auch noch mit Buch (bei dem die Wahrscheinlichkeit hoch ist das bei eben so wenig Spielen niemals die selbe Eröffnung und womöglich nicht mal getauschte Farben aufs Brett kam) etwas zu ermitteln? Also nicht nur das di ePartienzahl schlicht indiskutabel ist, sondern auch noch das alle drei Matche aller Wahrscheinlichkeit nach etwas anderes gemessen haben. Deine obige Liste ist völlig normal für nur 20 Spiele. Wenn ich mir meine 150er Reihen ansehe habe ich Serien die schlechter sind - aber im Durchschnitt über viele Engine, und nicht nur drei, eben auch besser.
Ich bin verwundert, weil du es besser wissen müßtest!

Es ist vernünftiger für die Umwelt und besser für deine Nerven du sparst den Strom, als dass man* auf diese Art eine Liste erstellst. Entweder richtig oder gar nicht.

Gruß
Ingo

*man = nicht nur du
Parent - - By Wolfgang Battig Date 2013-05-15 07:21 Edited 2013-05-15 07:24
[quote="Ingo Bauer"]
Michael,

nach all den Jahren versuchst du immer noch mit so wenig Spielen (aka 'würfeln') und dann auch noch mit Buch (bei dem die Wahrscheinlichkeit hoch ist das bei eben so wenig Spielen niemals die selbe Eröffnung und womöglich nicht mal getauschte Farben aufs Brett kam) etwas zu ermitteln? Also nicht nur das di ePartienzahl schlicht indiskutabel ist, sondern auch noch das alle drei Matche aller Wahrscheinlichkeit nach etwas anderes gemessen haben. Deine obige Liste ist völlig normal für nur 20 Spiele. Wenn ich mir meine 150er Reihen ansehe habe ich Serien die schlechter sind - aber im Durchschnitt über viele Engine, und nicht nur drei, eben auch besser.
Ich bin verwundert, weil du es besser wissen müßtest!

Es ist vernünftiger für die Umwelt und besser für deine Nerven du sparst den Strom, als dass man* auf diese Art eine Liste erstellst. Entweder richtig oder gar nicht.

Gruß
Ingo

*man = nicht nur du
[/quote]

generelle Zustimmung, hatte mich auch gewundert, dass ein "alter Hase" wie Michael solche Schlüsse aus den paar Partien zeiht ("not amused" usw.).
Was die Eröffnungen angeht muss ich ihn aber in Schutz nehmen, Top10 und Top50 sind Testsuites mit 10 bzw. 50 Stellungen von Sedaz Canbaz.
Bei 20 bzw. 100 Partien also alles ok mit Farbtausch usw.
Leider sind die Suites von Sedat sehr sizilianischlastig und somit unausgewogen. Mag der menschlichen Praxis entsprechen, für Computerschachtests
m.E. ungeeignet. Sedat macht tolle Bücher (für Arena, CB, Classic, Aquarium) aber die Suites sind suboptimal. Das aber nur am Rande, denn es betrifft ja immer alle Engines und taugt nicht als Erklärung für ein schlechtes Abschneiden...
Gruß
Wolfgang
Parent - - By Ingo Bauer Date 2013-05-15 08:13 Edited 2013-05-15 08:21
[quote="Wolfgang Battig"]
Was die Eröffnungen angeht muss ich ihn aber in Schutz nehmen, Top10 und Top50 sind Testsuites mit 10 bzw. 50 Stellungen von Sedaz Canbaz.
Bei 20 bzw. 100 Partien also alles ok mit Farbtausch usw.
[/quote]

OK das wußte ich nicht - Top 10 heißt also 10 Eröffnungen, dann müßen 20 Partien ja mit Farbtausch oder doppel sein, ich gehe dann mal von Farbtausch aus!

[quote="Wolfgang Battig"]
Leider sind die Suites von Sedat sehr sizilianischlastig und somit unausgewogen. Mag der menschlichen Praxis entsprechen, für Computerschachtests
m.E. ungeeignet.
[/quote]

Also doch wieder nicht

Das Hauptproblem ist definitiv die wenigen Spiele mit der geringen Gegnerschaft!

Gruß
Ingo
Parent - - By Michael Scheidl Date 2013-05-15 09:09
Zitat:
Top 10 heißt also 10 Eröffnungen, dann müßen 20 Partien ja mit Farbtausch oder doppel sein, ich gehe dann mal von Farbtausch aus!

Genauso ist es. Die "Opening Database 2011" ist ein Paket mit Eröffnungs-PGNs verschiedener Länge (10,25,50,100,200) was ich sehr praktisch finde.

Ansonsten kann ich nur sagen, natürlich habe ich "an sich" längst verstanden daß geringe Partienzahlen weniger verläßliche Gesamtresultate ergeben. Vielleicht fehlt mir das Gefühl dafür, um wieviel selbst 60 Partien gegen drei verschiedene Gegner sich sozusagen irren können. Zum persönlichen Ersteindruck hat eben beigetragen, daß Komodo CCT gegen alle drei (etwas) schwächer bewertete Engines nicht gewann.

Es heißt dann immer, spiele mehr Partien. Es widerstrebt mir aber, einen Test so lange zu wiederholen bzw. zu verlängern, bis endlich das erwartete Ergebnis herauskommt. Ich bin kein Ranglistentester; als User hofft man halt daß sich die dank der Ratingtest bereits bekannten Spielstärkeverhältnisse auch in einer viel kleineren "Normalpraxis" wie ich gerne sage, zeigen. Das war jetzt noch nicht der Fall - vielleicht beim nächsten Mal.
Parent - - By Ingo Bauer Date 2013-05-15 09:19
[quote="Michael Scheidl"]
...
Ansonsten kann ich nur sagen, natürlich habe ich "an sich" längst verstanden daß geringe Partienzahlen weniger verläßliche Gesamtresultate ergeben. Vielleicht fehlt mir das Gefühl dafür, um wieviel selbst 60 Partien gegen drei verschiedene Gegner sich sozusagen irren können...

[/quote]

Schieb die 60 Partien doch einfach mal durch Bayeselo, dann siehst du die Errorbar. (Kann ich auch heute Abend machen wenn ich die Partien bekomme)

Gruß
Ingo
Parent - - By Michael Scheidl Date 2013-05-15 09:44 Edited 2013-05-15 09:46
Gute Idee, geht einfacher als befürchtet:

ResultSet-EloRating>ratings
Rank Name               Elo    +    - games score oppo. draws
   1 Houdini 1.5a2d     104  138  138    20   70%   -44   10%
   2 Critter 1.6a       -15  123  123    20   55%   -44   30%
   3 Komodo CCT         -44   73   73    60   42%    15   27%
   4 Stockfish 130513   -46  118  118    20   50%   -44   40%
ResultSet-EloRating>exactdist
00:00:00,01
ResultSet-EloRating>ratings
Rank Name               Elo    +    - games score oppo. draws
   1 Houdini 1.5a2d     104  113   99    20   70%   -44   10%
   2 Critter 1.6a       -15   95   93    20   55%   -44   30%
   3 Komodo CCT         -44   54   55    60   42%    15   27%
   4 Stockfish 130513   -46   90   90    20   50%   -44   40%


Oops

(Ich verstehe aber "exactdist" nicht, das verändert die Margins...)
Parent - By Ingo Bauer Date 2013-05-15 11:47
[quote="Michael Scheidl"]
Gute Idee, geht einfacher als befürchtet:
[/quote]

Elostat ist noch simpler und Elostat und Bayes mit exactdist liefern dann fast gleiche Errorbars.

[quote="Michael Scheidl"]
(Ich verstehe aber "exactdist" nicht, das verändert die Margins...)
[/quote]

Hier: http://adamsccpages.blogspot.de/p/computer-chess-utility-programs.html#k

findest du diese Erklärung:

Type: exactdist (This is where you select the algorithmn (there are four) for
                 computing the confidence intervals. I recommend 'exactdist' or
                 'covariance'. I use 'covariance', IPON and CCRL
                 use 'exactdist'. Given enough games, it does not really
                 matter.)

aber selbst mit der kleinsten Errorbar sieht man jetzt was dein Ergebniss wert ist ...

Gruß
Ingo
Parent - By Kurt Utzinger Date 2013-05-15 09:45
Hi Michael
Das alte Lied von zu wenig Partien und den zufälligen Ausgang von Serien
habe ich hier schon mal gesungen: http://www.utzingerk.com/rk_2003_english.htm
Gruss
Kurt
Parent - - By Ralf Mueller Date 2013-05-15 09:22
Hallo Michael,

abgesehen von der kleinen Partienzahl kann man leider nicht bei statischen Suchtiefevergleichen auf die Bewertung schließen.
Erstens wird die Tiefe überall anders gemessen, sodass Rybka bspw. bei diesen Tests besser abschließt als nur durch die Bewertungsfunktion. Es ist nicht auszuschließen, dass die Zählweise auch zwischen zwei Engine-Versionen wechselt.
Zweitens ist Tiefe 11 nicht gleich Tiefe 11, denn wenn eine Engine ausgelegt ist, besonders selektiv zu rechnen, hat sie natürlich enorme Nachteile gegenüber Engines die Brute Force bis Tiefe 11 rechnen, was nichts mit der Eval zu tun hat.
Drittens hat man als Programmierer immer die Wahl: Baue ich beispielsweise das Wissen ein, dass eine Figur hängt oder lass ich die Engine einfach einen Ply tiefer rechnen? Bei festen Suchtiefen hat immer die Engine einen großen Vorteil, die möglichst viel taktisches Wissen einprogrammiert hat, was bei anderen durch die Suche erzielt wird.
Strategisches Wissen lässt sich mit der Methode leider nicht messen.

Dazu kommt, dass bestimmte Bewertungsfaktoren wie Königssicherheit erst ab einer bestimmten Suchtiefe effizient sind. Für jedes Setting ist ein anderer Bewertungsmix am besten. Man kann daher seine Engine auf Fixed-11-Ply optimieren, aber im Turnierschach nicht besonders gut sein. Leider gibt es keinen einfachen Weg, die Stärke der Bewertungsfunktionen zu messen.
Parent - - By Michael Scheidl Date 2013-05-15 14:07
Zum Fixed Depth-Match hatte ich ja selber, aus genau diesen Gründen, einschränkende Bemerkungen gemacht. Aber es ist wohl wahr; selbst bei verschiedenen Versionen aus ein- und derselben Engineserie ist das fragwürdig. Allerdings basiert Komodo CCT noch auf der alten Codebasis so wie Version 3.

Bei einem Vergleich von verschiedenen Settings - nicht notwendigerweise head-to-head - einer einzigen Engine sollte fixe Tiefe aber schon funktionieren. Denn dann ist alles andere identisch. Siehe z.B. http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=59753

Ich wiederhole das CCT vs. 3-Match mit einer kurzen Zeitkontrolle...
Parent - - By Michael Scheidl Date 2013-05-15 18:50
Ok, bin jetzt amused. Obwohl, wenn ich dieses Match mit "nur" 100 Partien siebzehnmal wiederhole, gewinnt vermutlich irgendwann Komodo 3. Also alles nur Glück & Pech. Computerschach ist eben offenbar zu großen Teilen ein Glücksspiel geworden...

i5-3210M, 512 MB Hash
0:20M+0,2s ponder=on
S.Canbaz' Top-50 Openings
Arena 2.0.1, Windows 8 x64


1   Komodo CCT  +100  +45/=38/-17 64.00%   64.0/100
2   Komodo 3    -100  +17/=38/-45 36.00%   36.0/100

Es sind +102 Elo laut FIDE-Tabelle. IPON: +66; Head-to-head und geringere Partienzahl kann natürlich abweichen. Aber man freut sich doch wenn endlich einmal ein statistischer Ausreißer nach oben stattfindet statt umgekehrt. Würden sich nämlich Ranglistenwertungen in einer kleinen Userpraxis niemals bestätigen, verlören diese an Vertrauen. Und das wollen wir ja nicht.
Parent - By Thorsten Czub Date 2013-05-15 21:05
du musst das environment deines Tests so festlegen, das du auch mit wenigen Partien Ergebnisse bekommst die reproduzierbar und nachvollziehbar sind.

man kann auch mit dem spielen vieler vieler Partien ne menge murx machen. Die Frage ist ja ob es ueberhaupt jemand merkt wo der wurm sitzt.

mehr bedeutet nicht besser.

(auch wenn einige spezis das hier immer so suggerieren wollen). wenn sie selber gerne freiwillig auf die Ansicht der Partien verzichten,
bitteschön. ich denke man braucht jedenfalls nicht FREIWILLIG vor dem Leben die Augen schliessen und wegschauen, nur weil man einen Computer hat.
Parent - By Ralf Mueller Date 2013-05-15 23:25
Hallo Michael,

selbst das leider nicht, da bei kleineren Tiefen die Bewertungsfaktoren unterschiedliche optimale Wichtungen als bei größeren Tiefen haben. Ein Setting auf Tiefe 11 zu testen macht daher nur Sinn, wenn du es dann auch auf Tiefe 11 spielen lässt.
Beispielsweise schwächt bis ca. zu Tiefe 6 eine gute Königssicherheitsfunktion die Engine, bei anderen Kriterien ist das durchaus auch denkbar, auch auf Tiefe 11.
Es kann sehr frustrierend sein, Parameter auf Fixed-Depth-11 zu optimieren, um dann nachher zu merken, dass bei normalen Testläufen die Engine mit den Ursprungswerten besser läuft --> Solche Vereinfachungen sind nur sinnvoll, wenn man sich wirklich sicher sein kann, dass man vom einen auf das andere schließen kann, ansonsten vergrößerst du nur das Glücksspiel des Enginetestens.
Up Topic Hauptforen / CSS-Forum / Komodo CCT: I am not amused.

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill