Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / SWISSTEST: RobboLito vor Rybka und Stockfish
- - By Walter Eigenmann Date 2009-12-04 15:11
.

Der sog. SwissTest ist eine Computer-Test-Suite von 64 Aufgaben, die eines gemeinsam haben:
sie enthalten je eine oder mehrere starke "Verführung/en", die von den Programmen zu
vermeiden sind ("Avoid Moves").
Bereits vor mehr als einem Jahr hat der Computerschach-Experte (und Ex-CSS-Moderator)
Manfred Meiler die SwissTest-Ergebnisse von über 50 alten und neuen Engines präsentiert.

Nun hat er seine entspr. Rangliste mit rund zwei Dutzend weiteren Programmen aktualisiert;
das Ranking umfasst jetzt 84 der gebräuchlichsten Schach-Engines bzw. -Derivate.

Die Meilersche Rangliste (siehe unten) wird klar vom momentanen Enfant terrible der
Computerschach-Szene angeführt: RobboLito steht vor Rybka, der dritte Engine-Name gehört
erstaunlicherweise bereits einem reinen Freeware-Programm, nämlich Stockfish; ob die
MP-Version des neuen Fritz 12 hier aufholen kann, bleibt abzuwarten.

Das "SwissTest"-Ranking korreliert damit überraschend gut mit anderen einschlägigen Ranglisten,
obwohl es mit seinen nur 64 Stellungen natürlich nur grobe Vergleiche zulässt.

Auf der entspr. Internet-Seite des SwissTestes kann man alle seine Stellungen, Analysen und
aktuellen Engine-Einzelergebnisse downloaden:

http://glareanverlag.wordpress.com/2008/08/08/64-schach-verfuehrungen/

Gruss: Walter

.

Code:
Programm                      CPU      Lösungen

001. RobboLito 0.085e4         1       55
002. Rybka 3                   2       52
     Rybka 3 Dynamic           2       52
     Rybka 3 Human             2       52
005. Rybka 3                   1       51
006. Rybka 3 Dynamic           1       50
007. Rybka 3 Human             1       49
     Ryba 2.3.2a               1       49
009. Stockfish 1.5.1           2       48
010. Fritz 12                  1       46
     Protector 1.3.2           2       46
     Zappa Mexico II           2       46
     Cyclone xTreme            2       46
014. Glaurung 2.2              2       44
     Rybka 2.2n2               2       44
     Toga II 1.4.2JD           2       44
017. Fritz 11                  1       43
     Shredder 12 UCI           1       43
     Spark 0.3                 1       43
     LoopMP 12.32              2       43
     Zappa Mexico II           1       43
022. Bright 0.4a               2       42
     Frenzee feb08             1       42
     Hiarcs 11.2               1       42
025. Shredder 11 UCI           1       41
     Rybka WinFinder 2.2       2       41
     Fruit 05/11/03            1       41
     Movei00_8_438             1       41
029. Bright 0.3a               2       40
     Toga II 1.3.1             1       40
     Protector 1.3.1           2       40
032. Glaurung 2.1              2       39
     Fruit 2.3.1               1       39
034. Fritz 10                  1       38
     Critter 0.42              1       38
     Strelka 2.0 B             1       38
037. LoopMP 12.32              1       37
     Doch 09.980               1       37
039. Twisted Logic 20080620    1       36
     Spike 1.2 Turin           1       36
     ProDeo 1.6                1       36
042. Twisted Logic 20090922    1       35
     Naum 2.0                  1       35
     Alfil 8.1.1               1       35
045. Scorpio 2.0               1       34
     The King 3.50             2       34
     Delfi 5.4                 1       34
048. Chess Tiger 15.0 aggr.    1       33
     SOS 5.1                   1       33
050. The Baron 2.23            1       32
     Ktulu 4.2                 1       32
     Crafty 23.1 (WB)          2       32
053. Ruffian 2.1.0             1       31
     Crafty 22.01 (CB)         2       31
     Cyrano 0.6b17             1       31
     Scorpio 2.3               1       31
     Gandalf 6.0               1       31
     Alaric 707                1       31
059. Little Goliath Evolution  1       30
     Comet B68 (CB)            1       30
061. Tornado 3.42a             2       29
     Colossus 2007d            1       29
     Pharaon 3.5.1             2       29
064. Yace 0.99.87              1       28
     Arasan 10.4 SP            1       28
     Quark 2.35                1       28
     SlowChess Blitz WV2.1     1       28
     Ufim 8.02                 1       28
069. Homer 2.01                1       27
     Anaconda 2.0.1            1       27
     Aristarch 4.50            1       27
     Jonny 2.83                1       27
073. Hamsters 0.7.1            1       26
     Nimzo 8                   1       26
     WildCat 8                 1       26
     AnMon 5.75                1       26
077. Chess Tiger 15.0 normal   1       25
078. Queen 4.03                1       24
079. BamBam                    1       23
     AnMon 5.66                1       23
081. Amyan 1.72                1       22
082. Doctor? 3.0               1       21
     AnMon 5.60                1       21
084. Monarch 1.7               1       20

Parent - By Michael Scheidl Date 2009-12-04 17:41
Gratulation! Das heißt, es "gibt" in Wirklichkeit derzeit nur zwei Engines: Robbolito, und Stockfish. Der Rest ist, pointiert ausgedrückt Dreck. So schauts aus, da können die Rumpelstilzchen herumtoben wie sie wollen. Wer derzeit Shredder oder Fritz (als Engine) kauft, ist schlecht beraten. Diese guten(!) Produkte können derzeit nur via ihrer sehr guten Interfaces ehrenvoll vermarketet werden.

Natürlich ist nicht zu erwarten, daß beispielsweise ChessBase dem Publikum erklärt wie stark Stockfish ist!  Diese "menschliche Größe" haben sie noch selten aufgebracht (eventuell bei Rybka kurz bevor sie Rybka selber vermarktet haben...).
Parent - - By Wolfgang Draeger Date 2009-12-04 17:43
Hallo Walter,

weil es zum Thema passt, hier mal ein paar Ergebnisse mit 4 CPU:

Gruß
Wolfgang

Zitat:
- Hardware:   Intel i7-920 mit 2.66 GHZ und 6 GB RAM
- OS:             Windows 7 Ultimate 64bit
- GUI:            Fritz 12 mit Funktion "Testsuite lösen"
                     60 Sekunden je Aufgabe (ExtraPly=99)
- Engines:      512 MB Hash / 5-Steiner TBs / Shredder mit Shredderbases

Ergebnisse mit 4 CPU:   

001  Rybka 3 (4CPU)                                 58
        Rybka 3 Dynamic (4CPU)                   58
003  Rybka 3 960 (4CPU)                          57
004  Naum 4 (4CPU)                                 55
005  Rybka 3 Human (4cpu)                      54
006  Deep Shredder 12 x64 (4CPU)           47
Parent - - By Peter Martan Date 2009-12-04 22:22
Hallo Wolfgang!
Hast du vielleicht auch noch einen Naum 3? Irgendetwas lässt mich glauben, der könnte noch besser abschneiden als Naum 4, ich hab ihn aber leider nicht mehr, ist mir mit einer Festplatte verloren gegangen.
Parent - By Peter Martan Date 2009-12-05 12:42
Hat sich erledigt, hab ihn wieder!

Doch nur 52 gelöst.
Parent - By Jean Pierre Urkens Date 2009-12-05 12:24
Using the same hardware (except for clockrate which is overclocked to 3.5MHz (can be done easily for I7 920)) I got 59 for RobboLito e4x64 single CPU.
Parent - By Kurt Utzinger Date 2009-12-04 18:20
Hallo Walter
Besten Dank für diesen Beitrag. Es freut mich zu
lesen, dass Manfred Meiler offenbar schachlich
noch immer aktiv ist, allerdings nur noch im
Hintergrund. An dieser Stelle einen herzlichen
Gruss an ihn.
Mfg
Kurt
Parent - - By Gerhard Sonnabend Date 2009-12-04 20:53
[quote="Walter Eigenmann"]
[...snip...]
Das "SwissTest"-Ranking korreliert damit überraschend gut mit anderen einschlägigen Ranglisten,
obwohl es mit seinen nur 64 Stellungen natürlich nur grobe Vergleiche zulässt.
[...snip...]
[/quote]

Hhm Walter, sieht doch z.T. sehr verdächtig aus, siehe:

Code:

005. Rybka 3                   1       51
006. Rybka 3 Dynamic           1       50
007. Rybka 3 Human             1       49
     Rybka 2.3.2a              1       49 (!!!)

oder

010. Fritz 12                  1       46
017. Fritz 11                  1       43 (!!!)
     Shredder 12 UCI           1       43 (!!!)
     Spark 0.3                 1       43 (!!!)
     Zappa Mexico II           1       43 (!!!)


Und das alles nur nach ganz kurzem "Überfliegen" der Resultate.

Viele Grüsse,
G.S.
Parent - - By Walter Eigenmann Date 2009-12-05 00:28
[quote="Gerhard Sonnabend"]
[quote="Walter Eigenmann"]
[...snip...]
Das "SwissTest"-Ranking korreliert damit überraschend gut mit anderen einschlägigen Ranglisten,
obwohl es mit seinen nur 64 Stellungen natürlich nur grobe Vergleiche zulässt.
[...snip...]
[/quote]

Hhm Walter, sieht doch z.T. sehr verdächtig aus...[/quote]

...weshalb ich ja auch nur von einer "groben" Vergleichsmöglichkeit schrieb.
Natürlich wird von 64 Aufgaben kein Vernünftiger eine 1:1-Abbildung von
CEGT- oder CCRL-Turnier-Rankings mit ihren abertausenden von Partien erwarten.

Davon abgesehen: Es dürften sich im Internet bestimmt verschiedene
weitere, ganz "seriöse" Engine-Ranglisten recherchieren lassen, die teils
erhebliche Abweichungen von deinen/euren CEGT-Rankings aufweisen...

Hinzu kommt, dass sich die offenbar momentan unumstritten stärkste Engine
(RobboLIto) auch sofort an die Spitze des SwissTestes setzt...
Sooo voll daneben kann der SwissTest auch wieder nicht liegen

Ich meine also durchaus, dass er ein erster "Indikator" für eine neue Engine
bzw. deren Performance darstellen kann - auch wenn man ihn nicht
"wörtlich übersetzen" soll bzw. auch wenn er (wie jede Rangliste) seine
"Ausreisser" hat.

Gruss: Walter

.
Parent - - By Benno Hartwig Date 2009-12-05 07:37
[quote="Walter Eigenmann"]...weshalb ich ja auch nur von einer "groben" Vergleichsmöglichkeit schrieb.[/quote]Magst du eine Schätzung abgeben, wleche 'Genauigkeit' diese Liste haben mag?
"Sie entspricht in ihrer Verlässlichkeit ungefähr einer normalen Rangliste, bei der jede Engine X Partien gespielt hat!"
Wie mag das X sein?

Benno
Parent - - By Kurt Utzinger Date 2009-12-05 09:01
[quote="Benno Hartwig"]
[quote="Walter Eigenmann"]...weshalb ich ja auch nur von einer "groben" Vergleichsmöglichkeit schrieb.[/quote]Magst du eine Schätzung abgeben, wleche 'Genauigkeit' diese Liste haben mag?
"Sie entspricht in ihrer Verlässlichkeit ungefähr einer normalen Rangliste, bei der jede Engine X Partien gespielt hat!"
Wie mag das X sein?

Benno
[/quote]

Hallo Benno
Nachdem Walter von einer "groben Vergleichsmöglichkeit" geschrieben
hat, wird man diese Frage schlicht nicht beantworten können.
Mfg
Kurt
Parent - By Benno Hartwig Date 2009-12-05 10:36
[quote="Kurt Utzinger"]Nachdem Walter von einer "groben Vergleichsmöglichkeit" geschrieben hat, wird man diese Frage schlicht nicht beantworten können.[/quote]Warum? Als mögliche Antwort hatte ich sowas gesehen wie:
"Vergleichbar mit einer Liste, in der jede Engine gegen 10 Gegner jeweils 20 Spiele machte" oder so.
Dann hätte man vielleicht ein Vorstellung von diesem Maß der (Un)Genauigkeit, wie sie zumindest Walter vermutet.
Warum soll sowas nicht gehen?

Benno
Parent - By Walter Eigenmann Date 2009-12-05 09:29
[quote="Benno Hartwig"]
[quote="Walter Eigenmann"]...weshalb ich ja auch nur von einer "groben" Vergleichsmöglichkeit schrieb.[/quote]Magst du eine Schätzung abgeben, wleche 'Genauigkeit' diese Liste haben mag?
"Sie entspricht in ihrer Verlässlichkeit ungefähr einer normalen Rangliste, bei der jede Engine X Partien gespielt hat!"
Wie mag das X sein?
[/quote]

Das ist grundsätzlich kein Problem: Du nimmst ein halbes Dutzend Ranglisten mit möglichst vielen Engines,
errechnest daraus für jedes Programm eine Art "Durchschnitts-Platz", und vergleichst dann dies neue Ranking
mit jenem des SwissTest.

Ein Beispiel: http://glareanverlag.wordpress.com/2007/08/06/computerschach-ranglisten-vergleich/

Ist zwar ein bisschen "Kraut&Rüben" (so wie die CEGT-Listen auch , aber gute Annäherungswerte müsste
das durchaus geben.

Der tiefere Sinn dahinter: Man muss immer mehrere Rankings vergleichen - CEGT oder CCRL allein reicht nicht...

Gruss: Walter

.
Parent - By peter struwel Date 2009-12-06 10:38
[quote="Benno Hartwig"]
[quote="Walter Eigenmann"]...weshalb ich ja auch nur von einer "groben" Vergleichsmöglichkeit schrieb.[/quote]Magst du eine Schätzung abgeben, wleche 'Genauigkeit' diese Liste haben mag?
...

Benno
[/quote]

hi benno,

um die frage beantworten zu können, müsstest du einmal klar definieren was du unter "genauigkeit" verstehst!

beispiel eine längenangabe "1 meter" . gemessen habe ich ..., diese messung habe ich 1000 mal wiederholt,
nach den gesetzmässigkeiten der statistik und der grossen zahlen ermittelte ich...

gruss

peter
Up Topic Hauptforen / CSS-Forum / SWISSTEST: RobboLito vor Rybka und Stockfish

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill