Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Rybka bei SSDF
- - By Benno Hartwig Date 2011-06-10 22:28
Gemäß http://ssdf.bosjo.net/list.htm ist Rybka 4 nur ca. 9(!!!) ELO stärker als Rybka 3.
Gibt es sonst noch irgendeine Liste, die R3 attestiert, fast gleichstark zu sein wie ihre Nachfolgerin?
Benno
(zweifelnd)
Parent - - By Thomas Mayer (Quark) Date 2011-06-11 11:03
Hallo Benno,

ich hätte zumindest eine Theorie:

Der Unterschied zwischen Rybka 3 und 4 ist ja hauptsächlich der, daß Rybka 4 gegen die Ipp-Schergen deutlich besser abschneidet als Rybka 3. Nimmt man die Ipps aus den Ranglisten kommt möglicherweise nur dieser kleine Unterschied wie bei der SSDF heraus, selbst wenn mir selbst dies auch als absolut unterste Grenze erscheint.
Also wenn es Dich sehr interessiert, kannst Du ja einfach mal z.B. Franks Rangliste nehmen und die Ipps rausrechnen. (Also aus den Partien alle Ipp-Partien entfernen und dann die Liste neu berechnen)

Gruß, Thomas
Parent - - By Ingo Bauer Date 2011-06-11 12:46
Moin Thomas,

R4 wurde ursprünglich in meine Liste ohne einen einzign IPPO eingespielt. Selbst nachdem ich Houdini mit reingenommen habe hat sich am Rating nichts geändert (Rund 50 Elo wie bei allen anderen Listen ausser der SSDF, das ist die einzige die aus dem Muster rausfällt). Ich glaube nicht das es an den IPPOS liegt.

Die SSDF hat halt nur Sechshunderundetwas Spiele, dazu nur 40 Spiele Matche, weiterhin spielt die SSDF mit 'lernen an' und eigenen Büchern und löscht nie evtl Lernwerte ...

Ich würde die 9 Elo nicht so hoch bewerten. Die SSDF ist eine Liste unter vielen mit heutzutage ziemlich einmaligen Bedinungen (Stichwort - Entitätentestung).

Gruß
Ingo
Parent - By Thorsten Czub Date 2011-06-11 13:13
wenn man andere gegnerschaft hat in einem Turnier oder in einer Liste,
bekommt man auch andere Ratings/verhältnisse der engines zueinander. Die listen bilden
eben auch das testambiente mit ab, parameter die das testambiente oder die Zahlen
verändern können sind:

Prozessorhersteller AMD / INTEL
unterschiedliche Prozessoren / cache verhältnisse
Permanent brain AN / AUS
unterschiedliche Bibliothekennutzung
Lerneffekte der engines bei hintereinander gespielten Partien in matches
Core-Zahl die genutzt wird
Tablebases / Robbobases etc.
32 oder 64 Bit betriebssysteme
Grösse des Hashspeichers in Abhängigkeit zur NPS Zahl auf dem Testgerät
...

all das fuehrt zu unterschiedlichen Werten.
Mal ganz abgesehen vom normalen statistischen Rauschen.

D.h. andere Listen, andere Parameter = andere Ergebnisse.
Parent - - By Frank Quisinsky Date 2011-06-11 13:31
Hi,

die SWCR prüft sich ja eigentlich immer von selbst.
So werden die w32 und x64 getestet.

Der Unterschied von Rybka 3 w32 zu Rybka 4 w32 ist gleich dem Unterschied von Rybka 3 x64 zu Rybka 4 x64. Rybka gehört nicht zu den Engines die mit mehr Zeit zulegen, ganz im Gegenteil. Gute Züge werden sehr schnell gefunden und die Engine hält fest, wechselt kaum noch zu besseren Zügen.

9 ELO kann nicht sein!
Aber die SSDF gab immer schon merkwürdige Ergebnisse aus, liegt wahrscheinlich eher an den Testmethoden. Bestes Beispiel war seinerzeit Gandalf 4.32f. Der SSDF Ausgabewert war 125 unter dem eigenen der bei 10x mehr Partien natürlich auch zuverlässiger war. Seit dem schaue ich mir die Liste gar nicht mehr an.

Gruß
Frank
Parent - - By Harald Faber Date 2011-06-14 12:09
Hallo Frank,
[quote="Frank Quisinsky"]
9 ELO kann nicht sein!
Aber die SSDF gab immer schon merkwürdige Ergebnisse aus, liegt wahrscheinlich eher an den Testmethoden.[/quote]
Merkwürdig für diejenigen, die sie nicht verstehen und Ergebnisse nicht glauben wollen.
Es gibt keine gerechtere Methoden als Partien auf zwei identischen Rechnern mit permanent brain und eigenen Eröffnungsbüchern, wenn die Programmpakete getestet werden sollen.
[quote="Frank Quisinsky"]Bestes Beispiel war seinerzeit Gandalf 4.32f. Der SSDF Ausgabewert war 125 unter dem eigenen der bei 10x mehr Partien natürlich auch zuverlässiger war. Seit dem schaue ich mir die Liste gar nicht mehr an.

Gruß
Frank
[/quote]
Welch lächerliche Arroganz in diesen Worten liegt.    Ich nehme an, mit "eigenen" meinst Du Deine eigenen? Und die weichen bzw. wichen von denen der SSDF ab, also taugt die SSDF nichts? Insbesondere aufgrund der um irgendeinen Faktor x geringeren Anzahl Partien? Wie wäre es damit, nicht die Anzahl sondern die eigene Testmethodik zu überprüfen und in Frage zu stellen? Auch 500 Partien haben eine gewisse Aussagekraft und statistische Sicherheit. Und ich behaupte, dass sich nach weiteren 4500 Partien das Rating kaum mehr als um 10-20 Punkte verändern wird.
Die SSDF ist trotz des Diskusskionspunktes Lernen an/aus die beste und seriöseste Liste im Computerschachbereich. Das kann man auch nicht mit 100.000 40/10 Partien (oder welche Bedenkzeit auch immer gerade "in" ist) entwerten.

Gruß,
Harald
Parent - By Michael Scheidl Date 2011-06-14 15:59
Zitat:
Die SSDF ist trotz des Diskusskionspunktes Lernen an/aus die beste und seriöseste Liste im Computerschachbereich.

Ist, oder war? Es fehlen Houdini, Stockfish, Critter, Komodo, Gull, Spark, Sjeng...

Die Methodik ist nicht schlecht, aber sie haben die Chance verpaßt auf kürzere Bedenkzeit umzustellen. Ein guter Zeitpunkt wäre gewesen, als sie auf die Q6600 umgestiegen sind. 40/40m hätte die Kapazität sozusagen verdreifacht, ohne nennenswerten Qualitätsverlust der Ratinginformation. Ich glaube, man kann die Liste was PC-Engines betrifft, als "historisch wertvoll" abhaken. Die Tests von Palms, Pocket-PCs und Resurrection-Computern haben noch Interesse vorgefunden, aber man muß wohl Einwänden Recht geben daß Pocket-PCs Schnee von gestern sind.

Kurzfassung: Die SSDF konnte nicht mit den Umwälzungen bei Software und Hardware Schritt halten.

Sie dürften mehrere Tester verloren haben, was kaum verwundert.

Das Problem ist wirklich, daß man nicht kommentarlos auf die SSDF verweisen darf, wenn einer nach relativen Spielstärkeverhältnissen fragt und beispielsweise eine zweite und dritte Meinung zusätzlich zu Rybka sucht. Der kauft sich dann Naum und Shredder - nichts gegen Naum und Shredder - und stellt später fest, daß es drei oder vier stärkere Freeware-Engines zum Downloaden gibt. Die Mühe bei solchen Anfragen ein paar Zeilen Kommentar einzutippen, machen sich leider nicht viele.
Parent - By Frank Quisinsky Date 2011-06-14 17:16
Hallo Harald,

ich sehe in Deinen Worten überhaupt gar keine Arroganz.
Es ist gut das verschiedene Ansichten und Meinungen verbreitet sind.
Stelle Dir mal alle hätten die gleiche Meinung ... Stillstand!



Eigentlich bin ich der größter Kritiker der eigenen Arbeiten. Daher hinterfrage ich ständig versuche etwas herauszufinden und nicht immer lande ich den oftmals auch verdienten Treffer. Würde ich heute die SWCR neu starten würde ich noch zwei Punkte ändern, es ist hierfür leider zu spät denn die Liste soll doch noch ein Weilchen laufen. Aber so nach und nach überzeugen mich dann die eigenen Ergebnisse selbst, so ganz langsam schleiche ich mich heran.

Viele Grüße
Frank

Warum die Computerschächler blos immer meinen mit Worten wie Arroganz, lächerlich etc. etwas unterstreichen zu müssen.
Verstehen werde ich das sehr wahrscheinlich nie aber das macht nichts, nicht mein Problem!
Parent - - By Michael Scheidl Date 2011-06-11 16:13
      THE SSDF RATING LIST 2011-05-11   %120010 games played by  311 computers
                                           Rating   +     -  Games   Won  Oppo
                                           ------  ---   --- -----   ---  ----
   1 Deep Rybka 4 x64  2GB Q6600 2,4 GHz     3216   32   -29   642   78%  3001
   2 Deep Rybka 3 x64  2GB Q6600 2,4 GHz     3207   24   -23  1125   79%  2976


Siehe die vielzitierten Errormargins. Die Aussage ist somit eigentlich nur: Mit 95% Wahrscheinlichkeit hat R4 3187...3248 und R3 3184...3231. D.h. der "wahre" Abstand könnte nach diesen Ergebnissen genausogut 64 Punkte betragen (3248-3184). Bei CCRL ist der Abstand 30 Punkte.

Die Gegner waren vorwiegend nicht dieselben:

1 Deep Rybka 4 x64  2GB Q6600 2,4 GHz, 3216
DRybka3 Q6600     22-18    Naum4.2 Q6600     24-16    DShre12 Q6600     31-17
Hiarc13 Q6600   26.5-15.5  Hia13.2 Q6600     21-11    DFrit12 Q6600   29.5-12.5
DJuni12 Q6600   22.5-17.5  DHiar12 Q6600     41-6     DShre11 Q6600     31-9
DFritz8 Q6600     46-3     Shr8 MP Q6600   40.5-3.5   Hiar111 A1200     40-4
DJunio8 Q6600   47.5-4.5   Fruit22 A1200   38.5-1.5   CT 2007 A1200   37.5-4.5

2 Deep Rybka 3 x64  2GB Q6600 2,4 GHz, 3207
DRybka4 Q6600     18-22    Naum4.2 Q6600   20.5-19.5  Naum 4  Q6600     26-14
DShre12 Q6600     27-13    Hiarc13 Q6600     24-16    DFrit12 Q6600   26.5-15.5
DFrit11 Q6600     26-14    Zap!Mx2 Q6600     31-9     Naum3.1 Q6600   27.5-12.5
DHiar12 Q6600   30.5-9.5   Glaurung Q660     33-7     Hiar112 Q6600     36-10
Naum 4  A1200   32.5-7.5   Shred12 A1200   32.5-7.5   DJun101 Q6600     34-6
Rybk231 A1200     54-6     Fritz11 A1200   39.5-6.5   DFritz8 Q6600   50.5-8.5
DShre11 A1200     41-4     Shr8 MP Q6600     36-4     Hiar111 A1200     39-4
Juni101 A1200     52-3     Junio10 A1200     36-4     Zap!Zan A1200     37-3
Fritz 9 A1200   44.5-4.5   DpFrit8 A1200   38.5-1.5  
Parent - By Benno Hartwig Date 2011-06-14 13:21
[quote="Michael Scheidl"] D.h. der "wahre" Abstand könnte nach diesen Ergebnissen genausogut 64 Punkte betragen ...[/quote]Stimmt schon. SSDF behauptet gar nicht, besonders genaue Ergebnisse abliefern zu können.
-30...+30 ist keine Seltenheit.
Und ein Wert 3100 würde z.B. nur bedeuten, dass man mit Wahrscheinlichkeit 95% tatsächlich einen der Plätze 5 bis 11 erreicht hat.
Benno
Up Topic Hauptforen / CSS-Forum / Rybka bei SSDF

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill