Shredder 12 against Rybka 2.3.2a

Place	Engine	Author	Country	Points	Single results
1	Shredder 12	Stefan Meyer-Kahlen		30.5/50	0½½½1½110½-½11½1½11½0-½011½½0½½0-½½111110½½-0½111½101½
2	Rybka 2.3.2a	Vasik Rajlich		19.5/50	1½½½0½001½-½00½0½00½1-½100½½1½½1-½½000001½½-1½000½010½

By Peter Schneider Date 2009-11-13 01:28

Finde es ziemlich interessant, dass Shredder 12 offensichtlich deutlich stärker ist als Rybka 2.3.2a

By Benno Hartwig Date 2009-11-13 07:17

[quote="Peter Schneider"]Finde es ziemlich interessant, dass Shredder 12 offensichtlich deutlich stärker ist als Rybka 2.3.2a [/quote]Um ein weiteres mal das 'nur 50 Partien'-Thema aufzuwärmen: Woran erkennst du denn diese Offensichtlichkeit?

Benno

By K.-M. Bitter Date 2009-11-13 07:43

Lieber Benno,
der wahre Computerschachexperte erkennt schon nach 1-2 Partien, welche engine stärker spielt.
Das ist so wie bei einer Weinprobe: Der Eine schluckt und sagt: "schmeckt gut" oder auch "schmeckt nicht gut", der Andere spuckt und kann den Wein nach Herkunft, Reifgrad des Lesegutes und auch dem Gesundheitszustand des Lesegutes als auch der verwendeten Kellertechnik analysieren.
Ich bitte folglich höflich, im Weiteren von solch dilletantischen Beiträgen in Zukunft abzusehen, zumal sie seit Jahren das Forum "verstopfen".

MfG

Bitter

By Wolfgang Battig Date 2009-11-13 09:21

[quote="K.-M. Bitter"]
Lieber Benno,
der wahre Computerschachexperte erkennt schon nach 1-2 Partien, welche engine stärker spielt.
Das ist so wie bei einer Weinprobe: Der Eine schluckt und sagt: "schmeckt gut" oder auch "schmeckt nicht gut", der Andere spuckt und kann den Wein nach Herkunft, Reifgrad des Lesegutes und auch dem Gesundheitszustand des Lesegutes als auch der verwendeten Kellertechnik analysieren.
Ich bitte folglich höflich, im Weiteren von solch dilletantischen Beiträgen in Zukunft abzusehen, zumal sie seit Jahren das Forum "verstopfen".

MfG

Bitter
[/quote]

naja, der einzig dilletantische Beitrag in diesem Thread (bisher) dürfte der deinige sein....

By Thorsten Eckhardt Date 2009-11-13 07:54

Hi Benno,
Oh Mann, wenn ich dieses ewige "nur 50 Partien, dass sind zu wenig... bla,bla,bla" schon höre.
Das zeigt doch ganz klar die Tendenz. Und mehr soll es ja auch gar nicht. Fällt dir nix besseres ein als solch ein überflüssiger Kommentar?
Dann mach du dir doch mal die Arbeit und teste 1000 Partien oder mehr per Engine. Damit es endlich aussagefähige Tests gibt und wir alle nicht dumm sterben müssen.

By Wolfgang Battig Date 2009-11-13 09:12 Edited 2009-11-13 09:19

[quote="Thorsten Eckhardt"]
Hi Benno,
Oh Mann, wenn ich dieses ewige "nur 50 Partien, dass sind zu wenig... bla,bla,bla" schon höre.
Das zeigt doch ganz klar die Tendenz. Und mehr soll es ja auch gar nicht. Fällt dir nix besseres ein als solch ein überflüssiger Kommentar?
Dann mach du dir doch mal die Arbeit und teste 1000 Partien oder mehr per Engine. Damit es endlich aussagefähige Tests gibt und wir alle nicht dumm sterben müssen.
[/quote]

braucht Benno nicht...

Aussagekräftige Zahlen gibt es bei CEGT, konkret hier: http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_AllVersion/rangliste.html

32bit - 1CPU (also entsprechend dem was Orlando testet)

Code:

62 Deep Shredder 12 w32 1CPU 2967 13 13 2060 64.1% 2866 32.9% 
72 Rybka 2.3.2a w32 1CPU     2955  9  9 3372 65.4% 2844 37.0%

Nach 2060 (DS12) bzw. 3372 Partien (Rybka) liegt Shredder 12 ELO vor Rybka bei Fehler-Bandbreiten von 13 bzw. 9 ELO. Ich würde da von "etwa gleich stark" sprechen!

Mit 64bit-1CPU sieht es sogar ganz anders aus:

Code:

23 Rybka 2.3.2a x64 1CPU     3026 16 16 1506 77.4% 2812 29.9% 
34 Deep Shredder 12 x64 1CPU 3009 12 12 2300 65.1% 2901 33.3%

Jetzt ist plötzlich Rybka mit 17 vorne, was aufgrund Rybkas Stärke bei 64bit logisch ist.

Orlandos Ergebnis legt nahe, dass Shredder 11 ca. 70 ELO besser ist als Rybka 2.3.2a. Und das ist eben NICHT der Fall!!
Von "klarer Tendenz" wie von Dir bzw. "scheint deutlich stärker zu sein" wie von Peter Schneider behauptet kann also nicht die Rede sein und Bennos Bedenken sind grundsätzlich durchaus gerechtfertigt.
Bei uns war das Einzelergebnis bei 32bit übrigens: 55,5:45,5 für Shredder, also 55,5% = ca. +38 ELO, also nur die Hälfte des Unterschieds bei Orlando. Am Ende war es noch viel weniger (s.o.).

Fazit: Aus einem 50-Partien-Match Spielstärkeunterschiede der Beteiligten herauslesen zu wollen, ist totaler Unsinn. Erst
viele Matches gegen möglichst viele unterschiedliche Gegner ermöglichen eine halbwegs klare Aussage "Engine X ist stärker als Engine Y".

By Wolfgang Battig Date 2009-11-13 11:24

[quote="Wolfgang Battig"]
.....
Orlandos Ergebnis legt nahe, dass Shredder 11 ca. 70 ELO besser ist als Rybka 2.3.2a. .....

[/quote]

sorry, meinte natürlich Shredder 12

By Michael Scheidl Date 2009-11-13 16:00

Ich kann keinen Bedarf an dieser (immer gleichen) Diskussion erkennen, da Orlando stets schlicht und einfach nur unter ganz bestimmten Bedingungen eingetretene Resultate präsentiert. Er hat noch nie irgendwelche allgemeinen Behauptungen daraus abgeleitet, also braucht man nicht so zu diskutieren als ob er das getan hätte. Man sollte in aller Ruhe ein Resultat zur Kenntnis nehmen können, auch wenn es möglicherweise nicht der "Gesamtsituation" entspricht.

Und bitte hörts auf mit dieser kindischen Kritik, daß jemand "nur" 50 Partien pro Match spielt.

Matches mit viel weniger Partien entscheiden über Weltmeistertitel! Es gibt keine absolute statistische Sicherheit, sie wird mit mehr Partien nur größer, aber sie wird nie perfekt. Wenn jemand die Ressourcen, Zeit und Lust hat tausende Partien spielen zu lassen, dann ist das sehr dankenswert, aber deswegen sind 50 Partien nicht wertlos und jemand hat einfach sein Hobby ausgeübt und Ergebnisse geliefert.

By Benno Hartwig Date 2009-11-13 19:25

[quote="Michael Scheidl"]Ich kann keinen Bedarf an dieser (immer gleichen) Diskussion erkennen...[/quote]Man sollte meinen, dass dieses Thema nun jedem vertraut ist.
Sollte man in diesem Forum aber Schussfolgerungen aus solchen 50er-Serien wie "dass Shredder 12 offensichtlich deutlich stärker ist als Rybka 2.3.2a" unkommentiert stehen lassen?
Ich denke nein. Dass würde das Niveau unnötig absinken lassen.

Gegen Orlandos 50-Partien-Veröffentlichungen habe ich auch sicher nichts. Ich bat ihn ja sogar um die Adresse einer Site, wo diese Ergebnisse gesammelt sind.
Das kann schon sehr interessant sein.

Auch gegen 50-Partien-Läufe an sich habe ich nichts. Nachdem z.B. Fritz 12 auf den Markt kam, war ich sehr gespannt auf die ersten derartigen Meldungen.
Dass sie ohne Aussagekraft sind behaupte ich auch nicht. Wenn ich mit etwas Verändertem experimentiere und z.B. sehe, dass es nur ein 20:30 erreichte, obwohl 25:25 der Maßstab war, dann bekomme ich auch oft Lust, nun lieber doch was anderes zu probieren.

Benno

By Gerhard Sonnabend Date 2009-11-13 19:43 Edited 2009-11-13 19:47

[quote="Michael Scheidl"]
Ich kann keinen Bedarf an dieser (immer gleichen) Diskussion erkennen, da Orlando stets schlicht und einfach nur unter ganz bestimmten Bedingungen eingetretene Resultate präsentiert. Er hat noch nie irgendwelche allgemeinen Behauptungen daraus abgeleitet, also braucht man nicht so zu diskutieren als ob er das getan hätte. Man sollte in aller Ruhe ein Resultat zur Kenntnis nehmen können, auch wenn es möglicherweise nicht der "Gesamtsituation" entspricht.
[...snip...]
[/quote]

Nun, dass er nie etwas ableitet aus seinen Testserien stimmt nicht ganz,
siehe http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=15675#pid15675

Und, das Problem mit "zu wenig gespielten Partien", hattest Du letzthin doch selbst erlebt.

Viele Grüsse,
G.S.

By Gerhard Sonnabend Date 2009-11-13 10:38

Hallo Thorsten !

Ich denke, da liegst Du jetzt total falsch.

Schau mal hier meine aktuellen Stockfish 1.5.1 Matches:
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=16148#pid16148

Würde ich lediglich das Match:

Code:


Stockfish 1.5.1 x64 4CPU vs Bright 0.3d 4CPU             [2629] 72.5-27.5 perf=2797

veröffentlichen, so könnte man glauben, dass Stockfish auf Augenhöhe mit Naum 4.0 scored.

Nehme ich jedoch folgendes Match:

Code:


Stockfish 1.5.1 x64 4CPU vs Thinker 5.4A x64 4CPU Inert  [2663] 55.0-45.0 perf=2698

dann wäre Stockfish 1.5.1 plötzlich schwächer als die Vorgängerversion 1.4 !

Ich stimme mit Wolfgang + Benno vollkommen überein, dass ein oder auch 2-5 "50er-Serien"
überhaupt nichts aussagen in Bezug auf "stärker", "schwächer" oder auch "gleichstark"
im Vergleich zum jeweiligen Matchgegner.

Viele Grüsse,
G.S.

By Frank Quisinsky Date 2009-11-13 16:06

VOLLE Zustimmung !!

Frank

By Benno Hartwig Date 2009-11-13 19:19

[quote="Thorsten Eckhardt"]Oh Mann...[/quote]Wolfgang wies ja schon auf die statistisch recht gut abgesicherte CEGT-Liste hin.
Sie weist für Shredder12-1cpu-32bit bei 2060 Partien nur 12 ELO-Punkte mehr als für Rybka-2.3.2a-1cpu-32bit bei 3372 Partien aus.
Auch CCRL 40/40 führt Shredder12-1cpu-32bit 'nur' 20 ELO-Punkte vor Rybka-2.3.2a-1cpu-32bit (532 und 2018 Partien)
Es ist also statistisch recht verlässlich abgesichert, dass dieser Shredder nur etwas stärker als Rybka ist. (+16 ELO würde eine Erwartung bei 50 Partien von 26:24 rechtfertigen, gemäß http://www.schach-computer.info/wiki/index.php/Elo)
Peters bestimmtes Statement ging also deutlich an der Wirklichkeit vorbei. Darauf habe ich sehr kurz hinweisen wollen.
Wenn du mein Posting nun als überflüssig (oder K.-M. Bitter gar als dilletantisch) wertest, dann sagt dies vermutlich mehr über euch aus als über mich.

Benno

By Peter Schneider Date 2009-11-13 19:46

Hi zusammen,
entschuldigt bitte, wenn ich Orlandos 50-Partien-Test überinterpretiert haben sollte.
Natürlich bin ich mir bewußt, dass das ein statistischer Ausreißer sein kann.
Wobei es vermutlich nicht oft vorkommt (Wahrscheinlichkeitstheoretiker können es vermutlich gar ausrechnen), dass eine 20 Elo stärkere Engine in 50 Partien 31-19 gewinnt.
Ich bin engine-technisch nicht uptodate, und war halt etwas überrascht, dass SMK es geschafft haben sollte, Rybka 2.3.2.a abzuhängen.
Immerhin scheint er ja zumindest gleich gezogen zu haben. Ich denke, dass ein Blick auf Shredder12 (für mich) lohnt.
Also noch mal sorry, dass ich meiner (erfreuten) Überraschung Ausdruck verliehen habe, wollte damit keine Diskussion anzetteln...
Lieben Gruss
Peter Schneider

By Gerhard Sonnabend Date 2009-11-13 20:15

[quote="Peter Schneider"]
Hi zusammen,
entschuldigt bitte, wenn ich Orlandos 50-Partien-Test überinterpretiert haben sollte.
Natürlich bin ich mir bewußt, dass das ein statistischer Ausreißer sein kann.
Wobei es vermutlich nicht oft vorkommt (Wahrscheinlichkeitstheoretiker können es vermutlich gar ausrechnen), dass eine 20 Elo stärkere Engine in 50 Partien 31-19 gewinnt.
Ich bin engine-technisch nicht uptodate, und war halt etwas überrascht, dass SMK es geschafft haben sollte, Rybka 2.3.2.a abzuhängen.
Immerhin scheint er ja zumindest gleich gezogen zu haben. Ich denke, dass ein Blick auf Shredder12 (für mich) lohnt.
Also noch mal sorry, dass ich meiner (erfreuten) Überraschung Ausdruck verliehen habe, wollte damit keine Diskussion anzetteln...
Lieben Gruss
Peter Schneider
[/quote]

Hi Peter !

Ich persönlich finde es gut, dass über das Thema (mal wieder) eine Diskussion
gestartet wurde - je mehr desto besser.

Übrigens, (Deep)Shredder 12 "lohnt" in jedem Fall, selbst wenn das Teil Ryb 2.3.2a noch
nicht ganz überflügelt hat. Wir reden hier über 2 völlig unterschiedliche Ansätze der
Engineprogrammierung, welche rein "Scoretechnisch" zu fast den selben (zufällig ?)
Ergebnissen kommen.

Viele Grüsse,
G.S.

By Michael Scheidl Date 2009-11-14 01:17

Laut CCRL 40/4m ist auch Stockfish 1.5.1 auf Haaresbreite an Rybka 232a dran, zumindest auf dieser Blitzdistanz. Das finde ich sehr beachtlich. Andererseits wird dieser Maßstab Rybka 2.x bald um 2 Versionsnummern hinter der aktuellen Lage zurück sein...

http://tinyurl.com/yd6977y

By Benno Hartwig Date 2009-11-14 07:30

[quote="Peter Schneider"]entschuldigt bitte, wenn ich Orlandos 50-Partien-Test überinterpretiert haben sollte.[/quote]Ich bekomme ja ein schlechtes Gewissen, wenn du dich entschuldigst. Deine Bemerkung stimmte nur nicht ganz, oder sie war unglücklich formuliert. Natürlich kein Problem.
Thorsten und K.-M. reizten dann aber zu echtem Widerspruch.
Benno

By Ernest Bonnem Date 2009-11-14 14:01

[quote="Peter Schneider"]Wobei es vermutlich nicht oft vorkommt (Wahrscheinlichkeitstheoretiker können es vermutlich gar ausrechnen), dass eine 20 Elo stärkere Engine in 50 Partien 31-19 gewinnt.[/quote]
Also mit Orlando ist es 30.5-19.5
Standard Deviation ist SD = sqrt((20+9)/4) = 2.7
Die Abweichung von einem 26-24 Ergebnis ist nur 4.5/2.7 = 1.67 mal die SD
Die Gauss Statistik sagt, daß sowas 10% Möglichkeit hat.
Also für Orlando, 1 pro 10 Tests!...
Vieviel tests hat Orlando schon gemacht?...

By Peter Schneider Date 2009-11-18 17:44

Danke für die Statistik.
Hätte geschätzt, dass die Wahrscheinlichkeit eher kleiner als 10% ist...
Lg
Peter Schneider