Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / CEGT - Update vom 31.08.2008 (locked)
- - By Wolfgang Battig Date 2008-08-31 22:51
Hallo zusammen,

unsere aktuellen Ranglisten sind online und unter den bekannten Links abrufbar.

40 / 20:
Neue Partien: 1.679
Gesamtzahl:  270.437

Hier lag der Schwerpunkt neben Rybka 3 vor allem bei Thinker 5.2I (MP-Version) und einer neuen Beta von Hamsters.

An der Spitze sind die Rybkas mit 4 (+200 Partien) und 2 CPU (+389 Partien) nun 20 Punkte auseinander, was immer noch zu wenig erscheint. Nochmals zulegen konnte die Single-x64 (+14), die nur 35 Punkte hinter der Dual und satte 77 vor der 32bit-single liegt. Allerdings immer noch zu wenig Partien (knapp 300). Im Blitz ist der Abstand sogar noch (deutlich)  größer (s.u.).

Ebenfalls neue Partien (+80) hat die neue TOP-Freeware Rybka 2.2n2 erhalten. Die deutliche Steigerung daraus bewirkte, dass jetzt nur noch 23 Punkte Minus zur seinerzeit getesteten kommerziellen Version 2.2 vorhanden sind. Von Zeit zu Zeit werden hier weitere Partien hinzukommen (die beste Freeware ist ein gutes "Referenz-Programm"!), wir gehen davon aus, dass sich der Abstand weiter verringert und beide als gleich stark anzusehen sind.

NEU in der Liste ist Hamsters 0.7.2. Hier sind aber noch viel zu wenig Partien gespielt, die Ergebnisse und auch der Vergleich zur Vorversion noch ziemlich unklar.

Blitz:
Neue Partien: 4.478
Gesamtzahl: 353.158

Neben weiteren Tests mit Rybka 3 standen einige neue Engines - auch aus dem mittleren und hinteren Bereich der Spielstärkeskala - im Focus.

NEU
Rybka 2.2n2 x64 2CPU / 3029 / 300 Partien / Differenz zur 2.2 <10 ELO
Scorpio 2.0 1CPU     / 2677 / 932 Partien / praktisch kein Unterschied zur 1.91 (+6)
Counter 1.0          / 2400 / 550 Partien / +66 zur zuletzt getesteten Version 0.7


Updates
Delfi 5.4 2CPU     /  100 neue Partien = 340 / keine Veränderung, weitere Tests folgen
Delfi 5.4 1CPU     /  400 neue Partien = 940 / keine Veränderung, +70 auf Version 5.2 (5.3 nicht getestet)
Arasan 10.4 1CPU   / 1204 neue Partien = 1354 / 23 Punkte Steigerung
Rybka 3 w32 2CPU   /  300 neue Partien = 600 / +55 auf 1CPU, -121 zur x64-2CPU!
Rybka 3 x64 1CPU   /  800 neue Partien = 1400 / +108 auf w32, +117 auf 2.3.2a x64


Da wir Rybka 3 x64 1CPU auch gegen Quad-Engines testen, kamen für die wichtigsten Engines mit 4CPU Partien hinzu.

40 / 120:
Kein Update diese Woche, alles Wichtige wie üblich im Forum. 

Beendet wurde das erste Match mit eigenen Büchern. Hier gewann Rybka 3 x64 gegen Hiarcs 12 (beide mit 4CPU) mit 41,0:9,0. Dabei zeigte sich, dass das neue Rybka3.ctg dem Hiarcs-Buch deutlich überlegen war. Hiarcs musste zumeist deutlich früher rechnen. Den Verlauf des Matches mit ausführlichen Kommentaren von Heinz van Kempen könnt Ihr unter [http://cegt.foren-city.de/topic,86,-rybka-3-x64-4cpu-vs-hiarcs-12-shpv-4cpu-own-books-40-120.html] nachlesen.

Wie immer ein herzliches Dankeschön an alle Tester!! [[smile]]

Links:
All Versions with min. 50 games:
http://www.husvankempen.de/nunn/40_40%20Rating%20List/40_40%20All%20Versions/rangliste.html
Best Versions with min. 300 games:
: http://www.husvankempen.de/nunn/40_40%20Rating%20List/40_40%20BestVersion/rangliste.html
Blitz:
http://www.husvankempen.de/nunn/blitz.htm (ebenfalls nach Best-Versions und All-Versions unterteilt)
Turnierschach 40/120:
http://www.husvankempen.de/nunn/40_120_ratinglist/ratinglist/rangliste.html
Replay Zone:
http://www.husvankempen.de/nunn/Replay/replay.htm
Tester mit Bild und Hardware:
http://www.husvankempen.de/nunn/testers/testers.html
Games of the week:
http://www.husvankempen.de/nunn/40_40%20Rating%20List/Coordination/gow.JPG

Wolfgang Battig
CEGT-Team
Parent - - By Chr. Kommerell Date 2008-09-01 13:35
> [...] Nochmals zulegen konnte die Single-x64 (+14), die nur 35 Punkte hinter der Dual und satte 77 vor der 32bit-single liegt.

Frage:

Läuft Win XP 64bit auch unter dem Pentium 4 ?
(1xCPU, Hyperthreading).

Mit Dank für Aufklärung

Christian Kommerell
Parent - By Horst Wandersleben (CSS-Forum) Date 2008-09-01 13:55
Hallo Christian,
bitte trage in zukunft den kompletten namen in das namensfeld ein.
Danke!
Horst
Parent - By Gerhard Sonnabend Date 2008-09-01 14:01
Läuft Win XP 64bit auch unter dem Pentium 4 ?
(1xCPU, Hyperthreading).
Mit Dank für Aufklärung
Christian Kommerell


Ne, das ist ein 32-Bit-Prozzi.

Viele Grüsse
G.S.
Parent - - By Roland Rösler Date 2008-09-01 17:28
Stellt sich nun die Frage nach einem Zwischenfazit: Um wieviel besser ist Rybka 3 als die Vorgängerversion Rybka 2.3.2a?

Schaut man sich die "Brot und Butter"-Version von Rybka an (1-cpu, w32), ist man überrascht, wie genau ChessBase die Elosteigerung mit +80 Elo prognostiziert hat:
- (40/4  Liste):  +78 Elo; Rybka 3 w32 1-cpu Elo 3036 (1750 Spiele) versus R 2.3.2a w32 1-cpu Elo 2958 (2772 Spiele)
- (40/20 Liste):  +81 Elo; Rybka 3 w32 1-cpu Elo 3048 ( 904 Spiele) versus R 2.3.2a w32 1-cpu Elo 2967 (3161 Spiele)

Vergleicht man die x64 2CPU Versionen, fällt der Unterschied deutlich grösser aus:
- (40/4  Liste):  +143 Elo; Rybka 3 x64 2-cpu Elo 3212 (1512 Spiele) versus R 2.3.2a x64 2-cpu Elo 3065 (2694 Spiele)
- (40/20 Liste):  +111 Elo; Rybka 3 x64 2-cpu Elo 3160 (1675 Spiele) versus R 2.3.2a x64 2-cpu Elo 3049 (3159 Spiele)

Generell kann man sagen, dass die Elosteigerungen der x-64 Versionen in der Blitzrangliste gigantisch sind (nach mehr als jeweils 1.300 Partien von Rybka 3; R2 hat jeweils mehr als 3.000 Partien):
- +163 Elo (x64 4CPU)
- +143 Elo (x64 2CPU)
- +127 Elo (x64 1CPU)

Will man die Eingangsfrage beantworten, ist man einigermassen ratlos; irgendwo zwischen 78 und 163 Elo!
Parent - - By Gerhard Sonnabend Date 2008-09-01 19:34
Hallo Roland !

[quote="Roland Rösler"]
[...snip...]

Generell kann man sagen, dass die Elosteigerungen der x-64 Versionen in der Blitzrangliste gigantisch sind (nach mehr als jeweils 1.300 Partien von Rybka 3; R2 hat jeweils mehr als 3.000 Partien):
- +163 Elo (x64 4CPU)
- +143 Elo (x64 2CPU)
- +127 Elo (x64 1CPU)

Will man die Eingangsfrage beantworten, ist man einigermassen ratlos; irgendwo zwischen 78 und 163 Elo!
[/quote]

Blitz ist halt nun mal eine andere Disziplin als Aktivschach,
auch wenn immer noch einige glauben, dass der Unterschied
vernachlässigbar ist (sein sollte). Trotzdem laufen die Tests
natürlich weiter, d.h. fast alle Rybka 3 Varianten werden f.
d. Blitz-Rangliste weitere Matches spielen.

Viele Grüsse
G.S.
Parent - - By Roland Rösler Date 2008-09-02 01:10
Hallo Gerhard!

[quote="Gerhard Sonnabend"]
Blitz ist halt nun mal eine andere Disziplin als Aktivschach, auch wenn immer noch einige glauben, dass der Unterschied vernachlässigbar ist (sein sollte). Trotzdem laufen die Tests natürlich weiter, d.h. fast alle Rybka 3 Varianten werden f. d. Blitz-Rangliste weitere Matches spielen.

Viele Grüsse
G.S.
[/quote]

natürlich hast Du Recht, dass Blitzschach kein Aktivschach ist und die Tests weitergehen. Dennoch sind im Blitzschach 40-50% der zu erwartenden Spiele (ca. 3.000) für Rybka 3 (Hauptvariante!) schon gespielt; riesige Veränderungen sind hier nicht mehr zu erwarten. Auch im Aktivschach (40/20) sind ca. 30% (w32 1-cpu) bzw. 55% (x64 2-cpu) der Spiele schon gespielt.
In der Blitzrangliste hat Rybka 3 x64 4CPU bei CEGT inzwischen eine höhere Elozahl (3263) als bei CCRL (3255)! Bei CCRL sind in der Blitzrangliste (nach mehr als jeweils 1300 Spielen) die Abstände zu Vorgängerversion folgendermassen:
- +125 Elo (x64 4CPU)
- +128 Elo (x64 2CPU)
- +111 Elo (x64 1CPU)
Im (langen) Aktivschach bei CCRL (40/40) hat Rybka 3 x64 4CPU nach 684 Spielen +101 Elo gegenüber der Vorgängerversion (1552 Spiele).

Mein vorläufiges Fazit:
In der Blitzrangliste von CEGT schneidet Rybka 3 im Vergleich zur Vorgängerversion um so besser ab, je besser OS (w32 vs. x64) und Hardware (Anzahl cores). Im Aktivschach ist der Trend noch da, aber deutlich abgeschwächt!
Es bleibt abzuwarten, wie es im Turnierschach (40/120) aussieht. Schrumpfen hier die Elozuwächse weiter, oder kommt es zu einer Trend-Umkehr? Wir werden sehen ...

Gruss Roland
Parent - - By Benno Hartwig Date 2008-09-02 08:48
Code:
In der Blitzrangliste hat Rybka 3 x64 4CPU bei CEGT inzwischen eine höhere Elozahl (3263) als bei CCRL (3255)!


Na, dieser Unterscheid ist aber doch recht klein. Ich hätte eher ein Statement "Beide Ranglisten weisen R3 sehr ähnliche ELO-Werte zu" erwartet.

und:

Wie sieht es eigentlich mit den Niveaus dieser Ranglisten aus? Sicher kann man die ELO-Zahlen innerhalb einer Liste vergleichen.
Und auch vergleiche von Differenzen aus beiden Listen (R3-R2 bei CEGT und CCRL) sind sinnvoll.
Aber ein direkter Vergleich der ELO-Werte macht doch nur Sinn, wenn z.B. der Durchschnittswert der Engines, die in beiden Listen auftauchen, auch gleich sind. Und ist das wirklich so? Hat das mal jemand überschlagen? Ansonsten müsste da jeweils eine Korrektur-Verschiebung berücksichtigt werden.

Benno
Parent - - By Gerhard Sonnabend Date 2008-09-02 08:54
Hallo Benno !

[quote="Benno Hartwig"]
Wie sieht es eigentlich mit den Niveaus dieser Ranglisten aus? Sicher kann man die ELO-Zahlen innerhalb einer Liste vergleichen.
Und auch vergleiche von Differenzen aus beiden Listen (R3-R2 bei CEGT und CCRL) sind sinnvoll.
Aber ein direkter Vergleich der ELO-Werte macht doch nur Sinn, wenn z.B. der Durchschnittswert der Engines, die in beiden Listen auftauchen, auch gleich sind. Und ist das wirklich so? Hat das mal jemand überschlagen? Ansonsten müsste da jeweils eine Korrektur-Verschiebung berücksichtigt werden.
[/quote]

Beide Listen (CEGT+CCRL) haben als Referenz-Engine Shredder 9.1 mit ELO 2750.

Viele Grüsse
G.S.
Parent - - By Benno Hartwig Date 2008-09-02 10:28
Code:
Beide Listen (CEGT+CCRL) haben als Referenz-Engine Shredder 9.1 mit ELO 2750.


Hallo Gerhard, Thanx für die Info.
Finde ich gut, dass man versucht, die Niveaus anzugleichen, die Werte direkt vergleichbar zu machen.
Die Güte des Weges über eine einzige Engine steht und fällt dann aber direkt mit den Qualitäten, mit denen eben jene Engine in den Listen bewertet wurde.

Mal geguckt:

CEGT 40/20: Da hat Shredder 9.1 tatsächlich 9195 Partien gespielt (!!! Mal überschlagen: das ist wohl der Spitzenwert in dieser Liste)
CCRL 40/40: Hmm, da finde ich Shredder 9.1 nicht, allerdings gibt es einen Eintrag 'Shredder 9 mit 2823 ELO' (Passt nicht gut)

CEGT 40/4: Da hat Shredder 9.1 5836Partien gespielt. (Nicht der Spitzenwert in der Liste, aber sicher eine hübsch große Zahl)
CCRL 40/4: Shredder 9.1 taucht da mit 2807 Punkten auf bei lediglich 309 Partien

Hmm, kannst du bitte noch mal darlegen, wie du im Falle CCRL begründest, dass Shredder 9.1 mit ELO 2750 die Referenz-Engine ist?
Gerade diese Engine scheint bei CCRL eher wenig beachtet worden zu sein und lässt eher befürchten, dass die Niveaus der Listen um gut 50 Punkte zueinander verschoben sind.
(Wobei ich aus jenen 309 Paortien sicher lieber gar keine Vermutung ableiten möchte)

Benno
Parent - - By Gerhard Sonnabend Date 2008-09-02 11:52
Hallo Benno !

[quote="Benno Hartwig"]
Hmm, kannst du bitte noch mal darlegen, wie du im Falle CCRL begründest, dass Shredder 9.1 mit ELO 2750 die Referenz-Engine ist?
Gerade diese Engine scheint bei CCRL eher wenig beachtet worden zu sein und lässt eher befürchten, dass die Niveaus der Listen um gut 50 Punkte zueinander verschoben sind.
(Wobei ich aus jenen 309 Paortien sicher lieber gar keine Vermutung ableiten möchte)
[/quote]

Ehrlich gesagt habe ich das nie überprüft.
Ich muss mal Wolfgang Battig und/oder Michael Koppel fragen.
Wenn mich mein Gedächtnis nicht vollkommen im Stich lässt,
dann war immer die Rede davon, dass die CCRL und wir uns
auf diese Engine geeinigt haben (hatten ?) und der Referenz-
wert 2750 ist (war ?).

Viele Grüsse
G.S.
Parent - - By Benno Hartwig Date 2008-09-02 13:00
Eigentlich ein interessantes Thema:

Welche Art der Niveauangleichung wäre eigentlich aus stochastischer Sicht am besten?

Will man zwei Listen auf ein Niveau bringen, so müssten wohl alle Engines und ihre ELO-Werte betrachtet werden, die in beiden Listen auftauchen.
Gut.
Aber man sollte sie lieber nicht alle gleich stark bewerten, sondern auch die Verlässlichkeit der einzelnen ELO-Schätzungen einbeziehen.

Angenommen ich habe Liste_1 und Liste_2
und Engine_A mit den ELO-Werten 2700 (+-50) und 2800 (+-30)
und ich habe Engine_B mit den ELO-Werten 2500 (+-60) und 2540 (+-20)
Wie sollte dann die beiden Listen angelichen werden.

Einfacher Ansatz ohne Betrachtung der Verlässlichkeiten:
DIFF = ((2800-2700) + (2540-2500)) / 2 = 70      (Differenz der Listenniveaus)
KORR = DIFF/2 = 35                                         (jeweiliger Korrekturbedarf)

und daraus folgt dann für Liste_1
Engine_A: 2735 ELO
Engine_B: 2535 ELO

und für Liste_2
Engine_A: 2765 ELO
Engine_B: 2505 ELO

OK, aber richtig befriedigen kann solch eine Niveauangleichung eigentlich nur, wenn auch die Verlässlichkeiten (die (+-)-Intervalle) berücksichtigt werden.
Aber wie müsste dies eigentlich korrekt geschehen? (hier hatte ich erst '***ber' geschrieben, das Gegenteil von 'schmutzig' eben, und das auf verbale Reinlichkeit bedachte System spendiert mir Sternchen. Niedlich.)
Ich finde das interessant, ganz unabhängig davon, ob CEGT und CCRL wirklich mit dem Gedanken spielen, ob sowas gemacht werden sollte.

Benno
Parent - By Gerhard Sonnabend Date 2008-09-04 08:52
Hallo Benno !

Z.Zt. ist es tatsächlich so, dass lediglich unsere Listen
via Shredder 9.1 (mit fixer ELO 2750) aufeinander abgestimmt
sind. Es gab schon mal Kontakte mit der CCRL in Bezug auf
das Angleichen der Listen, welche jedoch aufgrund verschiedener
Dinge nicht weiterverfolgt wurden, u.a. weil beide Betreiber
unterschiedliche Programme zum Erstellen der jeweiligen Listen
verwenden (CEGT berechnet mit ELO-Stat, CCRL verwendet Bayeselo).

Viele Grüsse
G.S.
Up Topic Hauptforen / CSS-Forum / CEGT - Update vom 31.08.2008 (locked)

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill