Spike 1.2 Turin nach den ersten 390 Partien ... Rybka 3!

By Frank Quisinsky Date 2010-04-23 13:53 Edited 2010-04-23 13:56

Hallo zusammen,

spielt auch gegen Rybka 3 (Spießroutenlauf wurde mit Rybka 3 gestartet, Macht der Gewohnheit ... fiel mir erst später auf).

GM Jörg Hickl verweilt derzeit in Bangkok. Er hat mich wegen der Entscheidung von Rybka 3 schon angemailt. Auch viele Schach-Welt Leser, die sich Rybka weiterhin in der SWCR wünschen. Werde das Thema bei der Rückkehr mit Jörg besprechen. Selbst habe ich auch schon einige Mails von Schach-Welt Lesern zu der Entscheidung erhalten. Grundsätzlich finden die Meisten die Entscheidung OK, wünschen sich aber alle dennoch Rybka 3 bzw. später auch 4 für die eigene SWCR Ratingliste.

Tja, dann muss der Quisinsky heit mal auch evtl. mal eine Entscheidung zurücknehmen.
Damit kann ich leben

Wird dann nächste Woche besprochen!

Spike hat fast die Hälfte der Partien absolviert ... sehr interessante Ergebnisse!

Zurück zu Spike 1.2 Turin:

Code:

Spike 1.2 Turin - Ktulu 9.03               18,5 -  21,5  46,25%
Spike 1.2 Turin - Deep Fritz 12             7,5 -  32,5  18,75%

schon beendet!

Spike 1.2 Turin - Critter 0.52b            10.5 -   7.5  58.33%   
Spike 1.2 Turin - Fruit 05_11_03            5.5 -  12.5  30.56%   
Spike 1.2 Turin - Hiarcs 12.1 Sharpen PV    8.0 -  10.0  44.44%   
Spike 1.2 Turin - Junior 11.1a              8.0 -  10.0  44.44%   
Spike 1.2 Turin - Komodo 1.0 JA             6.0 -  11.0  35.29%   
Spike 1.2 Turin - Loop 13.6                 5.5 -  11.5  32.35%   
Spike 1.2 Turin - Naum 4.2                  1.5 -  15.5   8.82%   
Spike 1.2 Turin - Onno 1.1.1                7.0 -  10.0  41.18%   
Spike 1.2 Turin - Protector 1.3.4 JA        6.0 -  11.0  35.29%   
Spike 1.2 Turin - Rybka 3                   7.5 -   9.5  44.12%   
Spike 1.2 Turin - Shredder 12               3.0 -  14.0  17.65%   
Spike 1.2 Turin - Sjeng WC-2008             8.0 -   9.0  47.06%   
Spike 1.2 Turin - SmarThink 1.20            8.0 -   9.0  47.06%   
Spike 1.2 Turin - Spark 0.4                 2.5 -  14.5  14.71%   
Spike 1.2 Turin - Stockfish 1.6.3 JA        1.5 -  15.5   8.82%   
Spike 1.2 Turin - Thinker 5.4d Inert        2.5 -  14.5  14.71%   
Spike 1.2 Turin - Twisted Logic 20100131x   7.5 -   9.5  44.12%   
Spike 1.2 Turin - Zappa Mexico II           6.0 -  11.0  35.29%
   
                                          130.5 - 259.5  33.71%

Gruß
Frank

PS: Spike 1.2 Turin spielt wirklich interessant und wirbelt mit diesen bisherigen Ergebnissen so einiges durcheinander. Komplett anderes Bild als bei anderen Engines. Kommt Rybka 3 nun doch wieder rein (werde mich einer solchen Entscheidung beugen) sind dann heit 21 Engines in der Liste. Dem Leserwunsch nicht nachzukommen, macht nun auch keinen Sinn.

Sorry Clemens, nun kommt dieses Thema schon wieder.

So, wünsche allen ein schönes Wochenende und einen viel Spaß mit dem WM Match!

By Frank Quisinsky Date 2010-04-23 14:19

Hi,

wäre interessant zu wissen wie Rybka 3 - Spike 1.2 Turin bei anderen Listen spielt.
Die Ergebnisse sind unglaublich und sehen jetzt auch noch ziemlich blöd aus, gerade nach der Rybka 3 Meldung.

Vielleicht kann Wolfgang Battig mal berichten wie Spike 1.2 Turin 32-Bit - Rybka 3 32-Bit gespielt hat, oder Ingo Bauer bei seiner Ipon-Liste.

Wäre wirklich interessant zu wissen!

Viele Grüße
Frank ... genug melde mich fürs WE ab ... viel zu tun!

By Wolfgang Battig Date 2010-04-23 14:49

[quote="Frank Quisinsky"]
Hi,

wäre interessant zu wissen wie Rybka 3 - Spike 1.2 Turin bei anderen Listen spielt.
Die Ergebnisse sind unglaublich und sehen jetzt auch noch ziemlich blöd aus, gerade nach der Rybka 3 Meldung.

Vielleicht kann Wolfgang Battig mal berichten wie Spike 1.2 Turin 32-Bit - Rybka 3 32-Bit gespielt hat, oder Ingo Bauer bei seiner Ipon-Liste.

Wäre wirklich interessant zu wissen!

Viele Grüße
Frank ... genug melde mich fürs WE ab ... viel zu tun!
[/quote]

Hallo Frank,

bei uns haben die beiden Engines nicht gegeneinander gespielt, weder bei Blitz noch bei 40/20. Wir vermeiden (möglichst!) Matches zwischen Engines mit zu großem ELO-Abstand (>250 ELO). Das macht es allerdings manchmal schwierig ausreichend Gegner für die absoluten Tops zu finden (Rybka und jetzt auch Stockfish), andererseits stelle ich den Sinn eines Matches in Frage, wo der Stärkere 95% oder mehr machen muss um keine ELO zu verlieren! Langweilig ist es obendrein.

ELO Rybka - Spike (32bit-1CPU):
Blitz: Rybka +263
40/20: Rybka +282

Vereinzelt kommen solche Matches zwar vor. Rybka scort dann meist (deutlich) über 90% wie z.B. bei 40/20 gegen Bright 0.3d 1CPU: 96% aus 24 Partien (23:1), danach hat der Tester offenbar abgebrochen (sinnvollerweise)...

Gruß
Wolfgang

By Ingo Bauer Date 2010-04-23 17:39

Hallo Wolfgang

[quote="Wolfgang Battig"]

bei uns haben die beiden Engines nicht gegeneinander gespielt, weder bei Blitz noch bei 40/20. Wir vermeiden (möglichst!) Matches zwischen Engines mit zu großem ELO-Abstand (>250 ELO). Das macht es allerdings manchmal schwierig ausreichend Gegner für die absoluten Tops zu finden (Rybka und jetzt auch Stockfish), andererseits stelle ich den Sinn eines Matches in Frage, wo der Stärkere 95% oder mehr machen muss um keine ELO zu verlieren! Langweilig ist es obendrein.

ELO Rybka - Spike (32bit-1CPU):
Blitz: Rybka +263
40/20: Rybka +282

[/quote]

Das sehe ich anders:

Bei mir sind R3 und Spike 1.2 331 Elo auseinander. Das Individualergebniss hieß:

Spike 1.2 Turin 32b : Rybka 3 mp : 100 (+ 0,= 15,- 85), 7.5 %
Spike 1.2 Turin 32b : Rybka 3 32b : 100 (+ 2,= 18,- 80), 11.0 %

Damit hat R3 in 64 bit einem Schnitt von 3011 über seinen 2906 gescort und R3-32 bit mit 2938 ebenfalls 80 Elo über seinen 2855 Elo. Sprich in meinem Fall hat das SPiele gegen einen 300 Elo schwächerem Gegner Rybka geholfen sein Rating zu erhöhen.

Es sieht also nicht so aus als ob "der Stärkere 95% oder mehr machen muss" sondern DARF!

Ich sehe keinen Grund diese Spiele nicht aufzunehmen - solange EIN einzelnes Remis dabei ist. Mathematisch ist das alles korrekt und auch sinnvoll.

[quote="Wolfgang Battig"]
Vereinzelt kommen solche Matches zwar vor. Rybka scort dann meist (deutlich) über 90% wie z.B. bei 40/20 gegen Bright 0.3d 1CPU: 96% aus 24 Partien (23:1), danach hat der Tester offenbar abgebrochen (sinnvollerweise)...
[/quote]

Ein Match nach 24 Partien abzubrechen ist nicht sinnvoll. Spike 1.2 hat erst nach 25 Partien bei mir das erste Remis gegen Stockfish 1.7 geholt und am Schluß stand es nicht hochgerechnete 2 Punkte aus hundert Spielen sondern volle 9.5!

Spike 1.2 Turin 32b : Stockfish 1.7.1 JA : 100 (+ 2,= 15,- 83), 9.5 %

Gruß
Ingo

By Frank Quisinsky Date 2010-04-23 18:08

Hallo Ingo und Wolfgang,

zunächst mal vielen Dank.
Tja, dann verstehe ich überhaupt gar nicht was da gerade bei mir abgeht.
Letzter Stand war glaube ich 8.5 : 11.5 aus der Sicht von Spike.

Wahrscheinlich ein statistischer Zufall und das Match endet dann 10.0 : 30.0

Bin mal gespannt wenn ich am Montag die Ergebnisse sehe.

Ist schon was dran was Wolfgang schreibt. In der SWCR spielen ja Jeder gegen Jeden 40 Partien und die Nummer 1 liegt nunmal von der Nummer 20 300 ELO entfernt. Glaube das Problem hatte seinerzeit auch schon Klaus Wlotzka in seinem Turnier oder ich früher in der ATL-4.

Aber die ELO Unterschiede werden durch die Berechnungsprogramme auch arg unterschiedlich. Bayesian ist wie gesagt besser (hatte mal viel hierzu geschrieben und versucht das zu erklären, zu warm um das zu wiederholen). Wenn Spike 1.2 durch ist lade ich die neue Datenbank, Version 5 hoch. Sofern Wolfgang möchte kann er mit dieser und den beiden Berechnungsprogrammen das mal ausprobieren, die Unterschiede sind grob (Engine die unten stehen fallen bei ELOstat deutlicher ab). Dann mal berechnen mit Spike und ohne Spike.

Kann er natürlich besser mit den CEGT Datenbanken

Die Ergebnisse von Ingo sind schon hammerhart, vergleiche ist das mit meinem Zwischenstand nach wenigen Partien. Da hat Spike ja nach 20 Partien fast mehr Punkte geholt als bei Ingo nach 100.

Mal abwarten ...

Viele Grüße ... Wetter genießen!
Frank

By Daniel Mehrmann (CSS-Forum) Date 2010-04-23 20:25

Hallo Wolfgang,

[quote="Wolfgang Battig"]wo der Stärkere 95% oder mehr machen muss um keine ELO zu verlieren! Langweilig ist es obendrein.[/quote]

Ich stimme dir voll und ganz zu!

Genau diese Diskussion hatte ich heute bereits in der Kantine. Das ist eine
Schwäche des ELO-Systems, die so leider nicht zu beheben ist. Je größer
die ELO-Abstände, desto unrealistischer wird der prozentuale Gewinn den man
schaffen muß um nichts zu verlieren. Das mag bei Engines noch möglich sein,
aber im Menschenschach ist das nicht haltbar. Wir haben darüber diskutiert
warum ein SGM > 2700 ELO niemals gegen 2400-2600 ELO Spieler antreten
würde - Er verliert zwangsläufig!

Das ganze ELO-System müsste man eigendlich "in die Tonne treten"...
Aber gibts was besseres ?

Gruß
Daniel

By Peter Martan Date 2010-04-23 22:55

[quote="Daniel Mehrmann (CSS-Forum)"]
Das ganze ELO-System müsste man eigendlich "in die Tonne treten"...
Aber gibts was besseres ?
[/quote]

Naja für die engines würde ich mal vorschlagen, einfach Ranglistenplätze?
Wem das nicht reicht, weil er die eine einzige Rangliste für alle alle Zeiten und Eventualitäten machen will, er hält zusätzlich zu den 1000 Plätzen, die man jetzt schon locker vergeben könnte, noch je zwei, drei zusätzliche Kommastelle zwischen je 2 Plätzen frei, falls es oben rum doch vielleicht noch etwas enger wird, als es jetzt schon ist, und man trotzdem auch in hundert Jahren noch nicht auf Fritz 2 verzichten will.

Zweiter Vorschlag: einer baut endlich aus längst leicht zusammentragbaren 1000 guten taktischen und positionellen Teststellungen einen einzigen Stellungstest taktischer und positioneller Kriterien zusammen und vergibt statt Plätzen einfach einzelne Punkte für jede Lösungszeitsekunde unter 100 Stunden?

Na gut, die Umstellungen von den bereits bekannten Elo würden so und so Arbeit machen aber das machen die Elo ja auch, man muss sie ständig neu eichen für weitere Entwicklungen.
Das scheint mir überhaupt auch das Dilemma mit den Elobewertungen der engines zu sein: Dass Rybka 4 sich immer noch mit Fitz 5.32 messen muss, der gar nicht sooo viel schlechter spielt aber einfach ganz ganz viel weniger Elo haben muss, damit's nach oben nicht explodiert.

By Benno Hartwig Date 2010-04-24 10:04

[quote="Peter Martan"]Dass Rybka 4 sich immer noch mit Fitz 5.32 messen muss, der gar nicht sooo viel schlechter spielt[/quote]Wie meinst du denn dieses "gar nicht sooo viel schlechter"?
Sicher ist der 5.32 für mich saustark. Aber woran machst du fest, dass er nicht sooo viel schlechter ist?
Ich dachte schon, dass die Spielstärkeunterschiede doch sehr erheblich sind.

Benno

By Peter Martan Date 2010-04-24 11:28

Siehst du, Benno, genau das ist die Frage.

Ich hab das auch einfach gefühlsmäßig beurteilt, in Elo gibt's sicher noch einige Listen, die ihn führen, sonst müsste man ihn halt einfach gegen die eine oder andere engine 360 Partien spielen lassen, um es wieder in gängige Zahlen fassen zu können.

Die Elo von menschlichen Spielern sind halt weniger und weniger brauchbar, weil sich das, was engines spielen, mehr und mehr von dem entfernt, was Menschen spielen, es sei denn, man zwingt den engines Stellungen auf, an denen Menschen ihren Spielwitz prüfen.
http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=343730&t=33959&sid=0a86277efd3a13283494d3fe919e68db
Das ist der neuest Ansatz von Dann Corbit, auch nicht ohne, die eine Stellung, die er postet, kann man allerdings so ähnlich wahrscheinlich auch in manchen eng-eng-Ranglisten-matches als Vorgabe finden, 600 find ich aber schon mal einen guten Ansatz.
Es wird wohl mehr und mehr darauf hinauslaufen, dass die Beurteilungen verschiedener engines nur mehr für ganz spezifische Fragestellungen beantwortbar werden.
In diesem thread ging man davon aus, wie weit engines, die in einer Liste verglichen werden, von einander entfernt sein dürfen, ich finde schon, dass Fritz 5.32 noch mitspielen müsste dürfen, wenn man ein wirklich weites ranking, wie es ja für menschliche Spieler auch gilt, haben will.
Dass das dann auch bei Menschen halt nicht in einer Turnierklasse stattfindet, liegt auch an zeitlichen und örtlichen Hindernissen, die müsste es ja für engines nicht geben, da sind die Hindernisse mehr die dafür ausufernden Partie- und nicht mehr ausreichenden Eolzahlen.
Nicht, dass man nicht einfach die Spitzenreiter- Elo durch den direkten Vergleich mit sehr viel älteren und "Amateur"- engines um das herunterholen könnte, man wird dann nur noch weniger Differenzen zwischen den oben immer dichter werdenden haben.
Davon ausgehend, wird man sich für Listen, die auch historischen Wert haben wollen, vielleicht sowieso ein anderes Maßsystem ausdenken müssen.

By Gerhard Sonnabend Date 2010-04-24 11:46

http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_AllVersion/508.html

By Wolfgang Battig Date 2010-04-24 12:10

[quote="Gerhard Sonnabend"]
http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_AllVersion/508.html
[/quote]

genau, oder http://www.husvankempen.de/nunn/40_40%20Rating%20List/40_40%20All%20Versions/602.html für Freunde etwas längerer Bedenkzeiten.

By Peter Martan Date 2010-04-24 13:23

Na bitte, danke!
Da war meine Schätzung, er sei gar nicht sooo schlecht doch ganz gut, danke auch an Wolfgang, schon auch interessant, dass er bei 40/4 um satte 83 Elo besser ist als bei 40/20.

By Gerhard Sonnabend Date 2010-04-24 14:00

[quote="Peter Martan"]
Na bitte, danke!
Da war meine Schätzung, er sei gar nicht sooo schlecht doch ganz gut, danke auch an Wolfgang, schon auch interessant, dass er bei 40/4 um satte 83 Elo besser ist als bei 40/20.
[/quote]

Interessant = Ja,
allerdings auch bekannt seinerzeit.

By Frank Quisinsky Date 2010-04-24 14:23

Hi,

nur mal so ...
Gibt doch über 20 oder gar 30 Fritz 5-32 Versionen!
Ist nicht dokumentiert was sich da immer verbessert hat.

Gruß
Frank

By Gerhard Sonnabend Date 2010-04-24 14:51

[quote="Frank Quisinsky"]
Hi,

nur mal so ...
Gibt doch über 20 oder gar 30 Fritz 5-32 Versionen!
Ist nicht dokumentiert was sich da immer verbessert hat.

Gruß
Frank
[/quote]

Vollkommen korrekt, ändert allerdings nichts daran,
dass die Engine irgendwann nicht mehr so recht
weiter kam, d.h. bei längeren BZs nichts Neues mehr
errechnen konnte/wollte.

By Clemens Keck Date 2010-04-23 15:25

Hallo Frank

ich wünsche dir auch ein schönes Wochenenden

Ich lese Deine Schachwelt Artikel immer sehr gerne.

MfG Clemens

By Frank Quisinsky Date 2010-04-23 18:09

Hi Clemens,

danke!
Habe heute auch wieder versucht ein paar Interviews anzuleiern. Muss noch einige Bücher besprechen etc.., hänge weit zurück bei meinem eigenen Plan. Aber Gemach, Gemach ...

Viele Grüße
Frank