Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / CEGT - Test mit (angeblichem) Rybka 4 - Wundersetting 61
- - By Wolfgang Battig Date 2011-01-01 18:34
Hallo zusammen,

allen ein frohes neues Jahr!!

Mal gucken was das Teil so bringt...
http://cegt.foren-city.de/topic,535,-testing-rybka-4-0-exp-61-x64-1cpu.html

Konditionen:
* Intel C2Q @ 2,33 GHZ
* 40 Züge / 3 Minuten
* 128 MB Hash
* Ponder=off
* Shredder Classic 4 GUI (4 x gestartet auf dem Quad)
* SilverSuite mit 50 Positionen = 100 Partien je Match = 1.200 Partien total

Zum Vergleich: Rybka 4.0 x64 1CPU DEFAULT hat ein CEGT-Blitzrating von 3180.

Der Verlauf ist bisher enttäuschend. Nach 209 von 1200 Partien liegt das Setting deutlich hinter default, -40 nach Shredder-Berechnung.
Aber natürlich noch viel zu wenig Partien.

Wenn der Blitztest durch ist (vermutlich Montag abend) folgt noch einer mit 40/20-Konditionen (angepasst auf meinem Quad sind das 40/13) und selber Gegnerschaft, allerdings nur 50 Partien je Match.

Gruß
Wolfgang
Parent - By Wolfgang Battig Date 2011-01-01 19:32 Edited 2011-01-01 19:34
[quote="Wolfgang Battig"]
.....

Wenn der Blitztest durch ist (vermutlich Montag abend) folgt noch einer mit 40/20-Konditionen (angepasst auf meinem Quad sind das 40/13) und selber Gegnerschaft, allerdings nur 50 Partien je Match.

....
[/quote]

das mit dem Montag abend wird dann nix, denn Stockfish 2.0 geht vor! http://cegt.foren-city.de/topic,536,-testing-stockfish-2-0.html#2918

Also erstmal ein Break hier...
Parent - By Frank Quisinsky Date 2011-01-01 19:32 Edited 2011-01-01 19:36
Hallo Wolfgang,

prima Initiative!
Nicht die Ratinglistenbetreiber sollen in der Arena tänzeln, sondern die Engines!

Mit diesem guten Vorsatz bist Du jetzt sicherlich ins neue Jahr gestartet!
Das finde ich Klasse und auch sehr begrüßenswert, denn durch solche Aktivitäten werden Illusionen geweckt, Personen diskutieren und genau das braucht dieses Forum auch im kommenden Jahr. Animation = Entwicklung, Entwicklung = Fortschritt.

Und gegen Fortschritt hat sicher niemand etwas!

Dir und allen anderen Testern der CEGT bzw. auch den Lesern vom CSS Forum wünsche ich ein spannendes Computerschach-Jahr 2011!
Auf das wir "Alle" noch viele kontroverse Diskussionen einleiten können, um uns die offenbar notwendigen Spitzen zu bewahren, die wir uns doch offenbar so sehr herbei sehnen!

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-01-02 12:58 Edited 2011-01-02 13:03
Hi Wolfgang,

gerade erst gesehen.
Bei 1.200 Partien von zu wenigen Partien zu sprechen?

Kann nur daran liegen da Blitz oder da zu wenige Gegner.

1. Da Blitz ...
Je höher die Bedenkzeit desto weniger "Zufalls-Ergebnisse" werden produziert. Das hatte ich schon bei der SWCR-Blitz Ratingliste festgestellt. Es waren bei dieser Ratingliste zu viele Partien notwendig und von daher stellte ich die Ratingliste ein. Wurde bei jedem Experiment auch immer klarer, die Zahl der Zufallsergebnisse, z. B. ein 50:50 anstatt ein 40:60 wird größer wenn geblitzt wird. Insofern ist an der These schon etwas dran, dass selbst bei 1.200 Partien es noch zu Veränderungen um bis zu 30-40 ELO kommen kann, so mein Experiment von früher.

2. Zu wenige Gegner ...
Klar, sind es zu wenige Gegner reichen auch 10.000 Partien nicht aus.

Immer das schöne Beispiel:
Engine A - Engine B spielt 10.000 Partien. ELO von Engine A = 2.500 und die berüchtigte ErrorBar sagt uns "4"

Nun spielt Engine A - Engine C 10.000 Partien, logisch gleiche ErrorBar denn die Berechnungsprogramme berücksichtigen diesen Faktor alle nicht. Wir haben eine ELO von 2.400 bei ErrorBar "4"

Tatsächlich liegt die Engine wieder bei 2.500 noch bei 2.400 sondern nach 2 Matches bei 2.450 und die ErrorBar zeigt die Kraft des "ich sage doch nichts aus"

Diese beiden Faktoren sollten bei einem Berechnungsprogramm noch hinzu gefügt werden:

1. Anzahl der Gegner
2. Aufgrund der Anzahl der Gegner auch eine bessere Prognose

Aufgrund bekannter Ergebnisse, z. B. siehe IPON Ergebnisse Stockfish 1.9.1 JA - Rybka 4 Exp. 61 könnten wir nun hingehen ...

Wir lassen Exp. 61 nur gegen alle Gegner spielen wo wir wissen, dass die Leistung schwächer ist.

Also Rybka 4 Exp. 61 direkt gegen 3 Stockfish Versionen, gegen Spark und gegen Hannibal und produzieren eine ELO von 50 schlechter als Rybka 4 Standard.

Also, ein Berechnungsprogramm muss das erkennen bei der Progrnose:
Spielte z. B. ein Rybka exp. 61 3x gegen Stockfish muss da in der Progrnose einfließen.
Faktor 3 der derzeit fehlt.

Beim Beta Test von ELOstat (beruht übrigens auf Ergebnisse meiner damiligen WB Ratinglist, bzw. die Formeln die hier erarbeitet wurden) war das alles nicht klar. Wir hatten seinerzeit nicht die Möglichkeiten die wir heute haben und im Laufe der Jahre sind gerade beim Erstellen von Ratinglisten viele neue Erkenntnisse hinzugekommen.

Gruß
Frank
Parent - - By Wolfgang Battig Date 2011-01-02 13:19
[quote="Frank Quisinsky"]
Hi Wolfgang,

gerade erst gesehen.
Bei 1.200 Partien von zu wenigen Partien zu sprechen?

...[/quote]

Hi Frank,

hab ich nicht, vermute Du hast mich falsch verstanden

Das "zu wenig" bezog sich darauf, dass erst knapp über 200 der geplanten (!) 1200 Partien gespielt waren bzw. sind (Test ist ja unterbrochen wg. SF 2.0).
200 Partien bei 12 Gegnern sind ja noch nicht mal 20 games pro Gegner, also noch wenig bis gar nicht aussagekräftig.

Viele Grüße
Wolfgang
Parent - By Frank Quisinsky Date 2011-01-02 13:26
Hallo Wolfgang,

ups, Sorry!
Habe ich dann falsch verstanden!

Dann, alles klar !!

Gruß
Frank
Parent - - By Werner Mueller Date 2011-01-02 14:02
[quote="Frank Quisinsky"]...
Immer das schöne Beispiel:
Engine A - Engine B spielt 10.000 Partien. ELO von Engine A = 2.500 und die berüchtigte ErrorBar sagt uns "4"

Nun spielt Engine A - Engine C 10.000 Partien, logisch gleiche ErrorBar denn die Berechnungsprogramme berücksichtigen diesen Faktor alle nicht. Wir haben eine ELO von 2.400 bei ErrorBar "4"

Tatsächlich liegt die Engine wieder bei 2.500 noch bei 2.400 sondern nach 2 Matches bei 2.450 und die ErrorBar zeigt die Kraft des "ich sage doch nichts aus"

Diese beiden Faktoren sollten bei einem Berechnungsprogramm noch hinzu gefügt werden:

1. Anzahl der Gegner
2. Aufgrund der Anzahl der Gegner auch eine bessere Prognose
[/quote]
Die ErrorBars sagen etwas über die 'Zuverlässigkeit' des Mittelwerts (btw: die Betonung liegt auf Mittel - und nicht auf Wert) Deines statistischen Modells aus.
Eine Aussage über die Güte Deines statistisches Modells liefern sie nicht. Und können sie auch nicht liefern, da müsstest Du eine neue Mathematik erfinden.
Parent - By Frank Quisinsky Date 2011-01-09 13:22
Hallo Werner,

das mag ja sein!
Aber wie viele schließen Rückschlüsse aufgrund Resultate zweier Engines oder vielleicht auch aufgrund von einem Test mit 6 Engines. Daher ist dieses von mir beschriebene Beispiel so simple und einfach zu verstehen.

Bei 40 Partien pro Match verändert sich kaum etwas wenn 26 verschiedene Engines spielen. Kann auch super einfach simuliert werden. Einfach die SWCR Datenbank nehmen und allen Engines einfach einen anderen Namen geben. Dann wieder die komplette SWCR Datenbank hinzukopieren und erneut Statistiken machen. Oder mit irgend welchen anderen Partien.

Ich habe diese Statitik Fragen zunächst abgeschlossen, weil ich zu keinen neuen Erkenntnissen mehr komme. Jetzt will ich mal schauen wie die Engines so bei 40 Züge in 150 Minuten spielen

Gruß
Frank
Parent - - By Wolfgang Battig Date 2011-01-07 14:34
[quote="Wolfgang Battig"]
....Wenn der Blitztest durch ist folgt noch einer mit 40/20-Konditionen (angepasst auf meinem Quad sind das 40/13) und selber Gegnerschaft, allerdings nur 50 Partien je Match.

Gruß
Wolfgang
[/quote]

Blitztest ist fast durch, kurz vor Schluss lag das Setting noch knapp hinter default, Verbesserung bei kurzer Bedenkzeit also eher nicht zu erwarten.

40/20-Test läuft auch, http://cegt.foren-city.de/topic,540,-testing-rybka-4-0-exp-61-x64-1cpu.html
da sieht es deutlich besser aus, allerdings sind erst 150 Partien gespielt, geplant sind 600.
Parent - - By Ingo Bauer Date 2011-01-07 14:47
Hallo Wolfgang,

[quote="Wolfgang Battig"]
[quote="Wolfgang Battig"]
....Wenn der Blitztest durch ist folgt noch einer mit 40/20-Konditionen (angepasst auf meinem Quad sind das 40/13) und selber Gegnerschaft, allerdings nur 50 Partien je Match.

Gruß
Wolfgang
[/quote]

Blitztest ist fast durch, kurz vor Schluss lag das Setting noch knapp hinter default, Verbesserung bei kurzer Bedenkzeit also eher nicht zu erwarten.

40/20-Test läuft auch, http://cegt.foren-city.de/topic,540,-testing-rybka-4-0-exp-61-x64-1cpu.html
da sieht es deutlich besser aus, allerdings sind erst 150 Partien gespielt, geplant sind 600.
[/quote]

Na ich bin mal gespannt.

Hier http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=32955;hl=61v2 hatte ich ja mal meine Resultate nach 600 Spielen für 61v2 unter IPON Bedinungen gepostet. Da käme ich bei bestem Willen und unter Ausnuzung der vollen 95% Errorbar auf R4 Niveau ... Die verprochenen +80 Elo sind in der Realität aber sicher Wunschdenken!

Gruß
Ingo
Parent - By Wolfgang Battig Date 2011-01-07 15:44
[quote="Ingo Bauer"]
... Die verprochenen +80 Elo sind in der Realität aber sicher Wunschdenken!

Gruß
Ingo
[/quote]

seh ich auch so. Für ein Setting wären m.E. +30 schon wirklich gut, an Houdini 1.5 kommt R4 damit aber auch nicht ran. Aber zumindest etwas näher...

Gruß
Wolfgang
Parent - - By Ernest Bonnem Date 2011-01-08 20:34
[quote="Wolfgang Battig"] allerdings sind erst 150 Partien gespielt, geplant sind 600.[/quote]
...allerdings... 
Parent - - By Frank Quisinsky Date 2011-01-08 21:54
Hi Ernest,

schwierig die "alten" Computerschachhasen mal von etwas zu überzeugen.
Gab es ja auch noch nie das ein Setting wirklich etwas bringt.

Bei der SWCR sind es 2.200 Partien die bei den beiden Settings vorliegen.
Die Bedenkzeit ist etwas höher als bei der CEGT.

Setting 42 ist besser spielt auch ausgewogenener (leicht an den Resultaten abzulesen).

War aber auch klar, schon bei dem Test mit Studien.
Siehe CSS Thread beim SWCR Start vom Setting 42.

Vielleicht produziert noch ein anderes Setting eine höhere Spielstärke. Aber es ist zu aufwendig das auszutesten.
Fest steht aber das die Veränderungen von den Rybka Parametern etwas bringt.

Die Kernaussage zu den Settings!

Viele Grüße und alles Gute für Dich und für das noch sehr junge Jahr 2011.
Frank
Parent - - By Ernest Bonnem Date 2011-01-08 22:41
150 => 600...  mal sehen!
Fröhliches neues Jahr 2011 !

Computerschachhase Ernest
Parent - - By Wolfgang Battig Date 2011-01-09 09:38
[quote="Ernest Bonnem"]
150 => 600...  mal sehen!
Fröhliches neues Jahr 2011 !

Computerschachhase Ernest
[/quote]

nach 350 Partien: +29
http://cegt.foren-city.de/topic,540,-testing-rybka-4-0-exp-61-x64-1cpu.html
Parent - - By Ingo Bauer Date 2011-01-09 10:03
Moin Wolfgang,

eigentlich würde mich nicht das + interessieren, sondern das Ergebniss gegen die gleichen Engines. Ich nehme aber an das bei euch erstens nicht von den gleichen Lauten (und damit auf gleicher HW) gespielt wurde und zweitens nicht die gleichen Eröffungen - oder?

Gruß
Ingo
Parent - - By Wolfgang Battig Date 2011-01-09 13:26
[quote="Ingo Bauer"]
Moin Wolfgang,

eigentlich würde mich nicht das + interessieren, sondern das Ergebniss gegen die gleichen Engines. Ich nehme aber an das bei euch erstens nicht von den gleichen Lauten (und damit auf gleicher HW) gespielt wurde und zweitens nicht die gleichen Eröffungen - oder?

Gruß
Ingo
[/quote]

Hallo Ingo,

in der Liste sind es aktuell +21 (also etwas anders als die Performance in den Einzelmatches, aber das ist ja normal).
Die Gegnerschaft habe ich gerade mal verglichen, da sind nicht viele gleiche Gegner dabei (Stockfish 191, Critter 090, Deep Shredder 12).
Und ja, die Partien der Default-Version wurden von anderen Testern, somit mit anderer Hardware und anderen Eröffnungen gespielt.
Die Partien der Exp.61 sind aber alle von mir, da bisher niemand anders das Setting getestet hat.

Gruß
Wolfgang
Parent - - By Ingo Bauer Date 2011-01-10 23:23
Hallo Wolfgang,

Ich mag es ja gerne wenn gleiche Dinge getestet werden also habe ich, auch wegen andauernder Kritik meine 600 Spiele wären die falschen gewesen, nochmal einen vollen Lauf von 1900 Spielen von oben nach unten in meiner Rangliste angesetzt (Es fehlt Deep Fritz 12, aber den lasse ich jetzt mal raus)

Wenn ich die 1900 Spiele mit Bayes in die volle IPON PGN asuwerte kommt so etwas raus:

2 DR4 Exp61V2              2962   15   15  1900   77%  2754   25%
3 Deep Rybka 4             2952   11   11  3600   77%  2745   30%

Voll 10 Elo Unterschied ... nicht schlecht für ein Setting ...

Mit Elostat sieht das dann so aus:

2 DR4 Exp61V2                    : 2960   15  15  1900    76.7 %   2753   24.9 %
3 Deep Rybka 4                   : 2955   10  10  3600    77.1 %   2744   30.5 %

Nur noch 5 Elo ... klingt fast beeindruckend, aber nicht vergesssen, 1% Unterschied sind schon rund 6 Elo. Eigentlich kann man jetzt schon von statistischem "Rauschen" sprechen.

Und dann mal auf die wirklich vergleichbaren Ergebnisse schauen:

   2 DR4 Exp61V2                   1900.0 (1457.5 : 442.5)
                                   100.0 ( 39.5 :  60.5) Houdini 1.5              3008
                                   100.0 ( 50.5 :  49.5) Stockfish 2.01 JA        2921
                                   100.0 ( 62.0 :  38.0) Critter 0.90 SSE42       2891
                                   100.0 ( 69.0 :  31.0) Komodo64 1.3 JA          2828
                                   100.0 ( 76.5 :  23.5) Naum 4.2                 2820
                                   100.0 ( 74.0 :  26.0) Deep Shredder 12         2800
                                   100.0 ( 74.5 :  25.5) Gull 1.1                 2788
                                   100.0 ( 75.0 :  25.0) Deep Sjeng c't 2010 32b  2777
                                   100.0 ( 74.0 :  26.0) spark-1.0 SSE42          2754
                                   100.0 ( 77.5 :  22.5) HIARCS 13.2 MP 32b       2752
                                   100.0 ( 84.5 :  15.5) Zappa Mexico II          2713
                                   100.0 ( 85.5 :  14.5) Protector 1.3.2 JA       2700
                                   100.0 ( 85.5 :  14.5) Deep Onno 1-2-70         2684
                                   100.0 ( 84.0 :  16.0) Hannibal 1.0a            2683
                                   100.0 ( 86.0 :  14.0) Deep Junior 12           2679
                                   100.0 ( 91.5 :   8.5) Toga II 1.4 beta5c BB    2670
                                   100.0 ( 91.5 :   8.5) Umko 1.1 SSE42           2631
                                   100.0 ( 85.0 :  15.0) Jonny 4.00 32b           2616
                                   100.0 ( 91.5 :   8.5) Loop 13.6/2007           2614

   3 Deep Rybka 4                  1900.0 (1456.0 : 444.0)
                                   100.0 ( 42.0 :  58.0) Houdini 1.5              3008
                                   100.0 ( 53.5 :  46.5) Stockfish 2.01 JA        2921
                                   100.0 ( 59.5 :  40.5) Critter 0.90 SSE42       2891
                                   100.0 ( 69.5 :  30.5) Komodo64 1.3 JA          2828
                                   100.0 ( 71.0 :  29.0) Naum 4.2                 2820
                                   100.0 ( 78.5 :  21.5) Deep Shredder 12         2800
                                   100.0 ( 76.0 :  24.0) Gull 1.1                 2788
                                   100.0 ( 76.5 :  23.5) Deep Sjeng c't 2010 32b  2777
                                   100.0 ( 75.0 :  25.0) spark-1.0 SSE42          2754
                                   100.0 ( 75.5 :  24.5) HIARCS 13.2 MP 32b       2752
                                   100.0 ( 82.0 :  18.0) Zappa Mexico II          2713
                                   100.0 ( 81.5 :  18.5) Protector 1.3.2 JA       2700
                                   100.0 ( 84.5 :  15.5) Deep Onno 1-2-70         2684
                                   100.0 ( 87.0 :  13.0) Hannibal 1.0a            2683
                                   100.0 ( 83.5 :  16.5) Deep Junior 12           2679
                                   100.0 ( 84.0 :  16.0) Toga II 1.4 beta5c BB    2670
                                   100.0 ( 91.0 :   9.0) Umko 1.1 SSE42           2631
                                   100.0 ( 91.0 :   9.0) Jonny 4.00 32b           2616
                                   100.0 ( 94.5 :   5.5) Loop 13.6/2007           2614


Zum Teil ziemlich deutliche Unterschiede in den Einzelergebnissen, aber 100 Spiele sind einfach zu wenig um irgendetwas da rauszulesen.
Was man einfach berechnen kann ist, dass Deep Rybka 4 Default 1.5 Punkte weniger geholt hat als Deep Rybka Exp61 ... und das bei 100% identischen Eröffnungen und Gegnern! Der Vollständigkeit halber: 1.5 Punkte sind 0,07894... oder rund 0.1%. 0.1% sind nach Elo (Formeln hier: http://de.wikipedia.org/wiki/Elo-Zahl) weniger als 1 Elo Differenz. Ich glaube das kann man wirklich als Rauschen bezeichnen!

Nachdem leider doch keine "80 Elo vor R4" zustande kamen bin ich jetzt damit fertig.

Hier noch die Aufschlüsselung mit Elostat:

2 DR4 Exp61V2               : 2960  1900 (+1221,=473,-206), 76.71 %

Zappa Mexico II               : 100 (+ 75,= 19,-  6), 84.5 %
Toga II 1.4 beta5c BB         : 100 (+ 85,= 13,-  2), 91.5 %
Protector 1.3.2 JA            : 100 (+ 75,= 21,-  4), 85.5 %
Naum 4.2                      : 100 (+ 63,= 27,- 10), 76.5 %
Loop 13.6/2007                : 100 (+ 85,= 13,-  2), 91.5 %
Deep Onno 1-2-70              : 100 (+ 75,= 21,-  4), 85.5 %
Deep Shredder 12              : 100 (+ 58,= 32,- 10), 74.0 %
Hannibal 1.0a                 : 100 (+ 70,= 28,-  2), 84.0 %
Jonny 4.00 32b                : 100 (+ 77,= 16,-  7), 85.0 %
Deep Junior 12                : 100 (+ 77,= 18,-  5), 86.0 %
Deep Sjeng c't 2010 32b       : 100 (+ 61,= 28,- 11), 75.0 %
Gull 1.1                      : 100 (+ 61,= 27,- 12), 74.5 %
Critter 0.90 SSE42            : 100 (+ 48,= 28,- 24), 62.0 %
Umko 1.1 SSE42                : 100 (+ 86,= 11,-  3), 91.5 %
spark-1.0 SSE42               : 100 (+ 59,= 30,- 11), 74.0 %
Houdini 1.5                   : 100 (+ 25,= 29,- 46), 39.5 %
HIARCS 13.2 MP 32b            : 100 (+ 65,= 25,- 10), 77.5 %
Komodo64 1.3 JA               : 100 (+ 49,= 40,- 11), 69.0 %
Stockfish 2.01 JA             : 100 (+ 27,= 47,- 26), 50.5 %

4 Deep Rybka 4              : 2955  1900 (+1152,=608,-140), 76.63 %

Zappa Mexico II               : 100 (+ 69,= 26,-  5), 82.0 %
Toga II 1.4 beta5c BB         : 100 (+ 72,= 24,-  4), 84.0 %
Protector 1.3.2 JA            : 100 (+ 68,= 27,-  5), 81.5 %
Naum 4.2                      : 100 (+ 50,= 42,-  8), 71.0 %
Loop 13.6/2007                : 100 (+ 89,= 11,-  0), 94.5 %
Deep Onno 1-2-70              : 100 (+ 74,= 21,-  5), 84.5 %
Deep Shredder 12              : 100 (+ 59,= 39,-  2), 78.5 %
Hannibal 1.0a                 : 100 (+ 77,= 20,-  3), 87.0 %
Jonny 4.00 32b                : 100 (+ 83,= 16,-  1), 91.0 %
Deep Junior 12                : 100 (+ 70,= 27,-  3), 83.5 %
Deep Sjeng c't 2010 32b       : 100 (+ 58,= 37,-  5), 76.5 %
Gull 1.1                      : 100 (+ 57,= 38,-  5), 76.0 %
Critter 0.90 SSE42            : 100 (+ 33,= 53,- 14), 59.5 %
Umko 1.1 SSE42                : 100 (+ 83,= 16,-  1), 91.0 %
spark-1.0 SSE42               : 100 (+ 58,= 34,-  8), 75.0 %
Houdini 1.5                   : 100 (+ 21,= 42,- 37), 42.0 %
HIARCS 13.2 MP 32b            : 100 (+ 58,= 35,-  7), 75.5 %
Komodo64 1.3 JA               : 100 (+ 47,= 45,-  8), 69.5 %
Stockfish 2.01 JA             : 100 (+ 26,= 55,- 19), 53.5 %


Was hier auffällt ist, dass das Setting deutlich mehr Spiele gewonnen hat, aber ebenso viele zusätzlich in den Sand gesetzt hat. Insgesammt kamen ein paar sehr schöne druckvolle Partien zustande, aber eben auch ein paar wirklich schlechte!

Bitte nochmal die Ergebnisse nachrechnen. Ich habe die 1900 Spiele für DR4 default "händisch" aus meiner Gesamtliste zusammengerechnet, es wäre möglich das ich mich verrechnet habe.

Gruß
Ingo

PS: Noch eine Bemerkung zu Rybka die man schon häufiger gelesen hat, aber mir erst jetzt, wo ein paar Engines da sind die Paroli bieten können, wirklich auffällt: Im Endspiel steckt für die Engine noch Entwicklungspotential

Parent - By Ernest Bonnem Date 2011-01-11 01:29
Parent - By Benno Hartwig Date 2011-01-13 09:44
[quote="Ingo Bauer"]Wenn ich die 1900 Spiele mit Bayes in die volle IPON PGN asuwerte kommt so etwas raus:

2 DR4 Exp61V2              2962   15   15  1900   77%  2754   25%
3 Deep Rybka 4             2952   11   11  3600   77%  2745   30%

Voll 10 Elo Unterschied ... nicht schlecht für ein Setting ...

Mit Elostat sieht das dann so aus:

2 DR4 Exp61V2                    : 2960   15  15  1900    76.7 %   2753   24.9 %
3 Deep Rybka 4                   : 2955   10  10  3600    77.1 %   2744   30.5 %

Nur noch 5 Elo ... klingt fast beeindruckend, aber nicht vergesssen, 1% Unterschied sind schon rund 6 Elo. Eigentlich kann man jetzt schon von statistischem "Rauschen" sprechen.[/quote]Dass zwei ELO-Berechnungs-Tools bei gleichen Eingabedaten zu unterschiedlichen ELO-Differenzen kommen, finde ich zunächst mal erstaunlich.
ELO-Berechnung ist ja schließlich keine verschwommene 'Wahrsagekunst'.
Ahnt man, wodurch diese unterschiedlichen Berechnungsergebnisse entstehen?
Macht eine Methode womöglich was falsch?

Benno
Parent - - By Ernest Bonnem Date 2011-01-09 13:34
[quote="Wolfgang Battig"]nach 350 Partien: +29[/quote]Geht schon runter:  +32 => +29...  
Parent - By Wolfgang Battig Date 2011-01-09 14:56
[quote="Ernest Bonnem"]
[quote="Wolfgang Battig"]nach 350 Partien: +29[/quote]Geht schon runter:  +32 => +29...  
[/quote]

da Shredder Classic die Ratings/Performance scheinbar etwas zu hoch rechnet sind es in der Liste sogar nur +21,
siehe http://www.husvankempen.de/nunn/40_40%20Rating%20List/40_40%20SingleVersion/rangliste.html

die laufenden 200 Partien (derzeit sind davon 65 gespielt) deuten auf einen kleinen Anstieg hin, wird sich zeigen...,
+80 werden es aber definitiv nicht, zumindest nicht bei dieser Bedenkzeit

Es folgt dann noch das Match gegen Houdini 1.5, aber das wird nicht in der Liste auftauchen, d.h. es kommen 550 Partien (nicht 600)
in die Wertung.

Gruß
Wolfgang
Up Topic Hauptforen / CSS-Forum / CEGT - Test mit (angeblichem) Rybka 4 - Wundersetting 61

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill