Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / QBRL* - Test mit Stockfish 1.5.1 x64 4CPU beendet
- - By Gerhard Sonnabend Date 2009-11-24 08:52
Hi to all !

Der Test mit Stockfish 1.5.1 x64 4CPU ist beendet.

Die Engine konnte sich auf Platz 6 einreihen und dabei die Performance
gegenüber dem Vorgänger Version 1.4 um immerhin 29 Punkte steigern !

Hier nun die aktuelle Liste:

Code:

   Program                         Elo    +   -  Games    Score   Av.Op.  Draws
01 Rybka 3.0 x64 4CPU             2909   14  14   1900    78.5 %   2684   31.7 %
02 Naum 4.0 x64 4CPU              2808   12  12   1900    65.9 %   2694   41.7 %
03 Rybka 2.3.2a x64 4CPU          2785   12  12   1900    64.1 %   2684   43.3 %
04 Deep Shredder 12 x64 4CPU      2777   13  13   1900    61.4 %   2697   37.2 %
05 Deep Fritz 11 4CPU             2752   11  11   2000    57.9 %   2697   45.0 %
06 Stockfish 1.5.1 JA x64 4CPU    2744   12  12   1900    56.8 %   2697   41.2 %
07 Stockfish 1.4 JA x64 4CPU      2715   12  12   1900    52.6 %   2697   38.6 %
08 Zappa Mexico II x64 4CPU       2714   11  11   2000    52.2 %   2699   43.2 %
09 Naum 3.1 x64 4CPU              2710   12  12   1900    52.4 %   2694   42.3 %
10 Thinker 5.4D x64 4CPU Inert    2696   12  12   1900    49.2 %   2702   39.8 %
11 Hiarcs 12 4CPU                 2682   12  12   1900    47.1 %   2702   39.2 %
12 Shredder WM Edition Bonn 4CPU  2682   12  12   1900    47.8 %   2697   36.9 %
13 Hiarcs 12.1 4CPU               2678   12  12   1900    46.6 %   2702   38.9 %
14 Deep Sjeng 3.0 x64 4CPU        2672   12  12   2000    45.9 %   2701   39.5 %
15 Fruit 2.4 Beta A x64 4CPU      2671   12  12   2000    45.6 %   2701   38.0 %
16 Thinker 5.4A x64 4CPU Inert    2662   12  12   1900    44.2 %   2702   40.3 %
17 Bright 0.4a 4CPU               2647   13  13   1900    41.5 %   2707   34.4 %
18 Bright 0.3d 4CPU               2623   13  13   1900    38.2 %   2707   36.1 %
19 Loop M1 4CPU                   2614   12  12   2000    37.4 %   2704   38.6 %
20 Spike 1.3x6 4CPU               2606   13  13   2000    36.1 %   2705   34.3 %
21 Deep Junior 10.1 4CPU          2567   14  14   2000    31.0 %   2706   27.4 %


Fehlende Spiele erklären sich dadurch, dass keine Matches
"Ryb vs Ryb", "Naum vs Naum" etc. gespielt werden.

Die Einzelresultate (in Klammern die Ergebnisse der Version 1.4):

Stockfish 1.5.1 x64 4CPU
Code:

vs Bright 0.3d 4CPU               [2629] 72.5-27.5 perf=2797 (66.0-34.0)
vs Bright 0.4a 4CPU               [2651] 65.5-34.5 perf=2762 (56.5-43.5)
vs Deep Fritz 11 4CPU             [2757] 48.0-52.0 perf=2743 (42.5-57.5)
vs Deep Junior 10.1 4CPU          [2569] 70.0-30.0 perf=2716 (74.0-26.0)
vs Deep Shredder 12 x64 4CPU      [2780] 47.0-53.0 perf=2759 (43.0-57.0)
vs Deep Sjeng 3.0 x64 4CPU        [2677] 66.0-34.0 perf=2792 (56.0-44.0)
vs Fruit 2.4 Beta A x64 4CPU      [2675] 61.5-38.5 perf=2756 (50.0-50.0)
vs Hiarcs 12 4CPU                 [2686] 58.5-41.5 perf=2746 (61.0-39.0)
vs Hiarcs 12.1 4CPU               [2683] 64.0-36.0 perf=2783 (59.5-40.5)
vs Naum 3.1 x64 4CPU              [2715] 57.5-42.5 perf=2768 (49.0-51.0)
vs Naum 4.0 x64 4CPU              [2812] 36.0-64.0 perf=2712 (37.5-62.5)
vs Loop M1 4CPU                   [2620] 72.0-28.0 perf=2784 (62.5-37.5)
vs Rybka 2.3.2a x64 4CPU          [2788] 43.0-57.0 perf=2739 (38.0-62.0)
vs Rybka 3.0 x64 4CPU             [2914] 26.0-74.0 perf=2732 (24.0-76.0)
vs Spike 1.3x6 4CPU               [2612] 72.0-28.0 perf=2784 (69.0-31.0)
vs Shredder WM Edition Bonn 4CPU  [2687] 55.5-44.5 perf=2725 (53.5-46.5)
vs Thinker 5.4A x64 4CPU Inert    [2663] 55.0-45.0 perf=2698 (61.5-38.5)
vs Thinker 5.4D x64 4CPU Inert    [2701] 55.5-45.5 perf=2739 (51.5-48.5)
vs Zappa Mexico II x64 4CPU       [2717] 54.0-46.0 perf=2745 (44.5-55.5)


*Quad-Blitz-Rating-Liste, Details siehe:
http://www.pcschach.de/Punkt3.htm

Viele Grüsse,
G.S.
Parent - - By Bert Rinzel Date 2009-11-24 09:43
Hi Gerhard,

wodurch kommt es eigentlich zu den großen Elo Unterschieden zwischen deinen Listen und den Listen vom CEGT?

Bert
Parent - - By Gerhard Sonnabend Date 2009-11-24 10:08
[quote="Bert Rinzel"]
Hi Gerhard,

wodurch kommt es eigentlich zu den großen Elo Unterschieden zwischen deinen Listen und den Listen vom CEGT?

Bert
[/quote]

Du meinst die absoluten Zahlen ?
Ich verwende als ELO-Startwert 2700, in den CEGT-Listen wird als Referenz Shredder 9.1 her genommen.
Das spielt aber keine Rolle, da eh nur die Unterschiede der Engines untereinander interessant sind.

Viele Grüsse,
G.S.
Parent - By Frank Quisinsky Date 2009-11-24 10:42 Edited 2009-11-24 10:50
Hi Gerhard,

habe übrigens mal Rybka - Human Partien gesammelt.
Sind knapp 200 ...
Unterschiedliche Bedenkzeiten und Rybka natürlich auf unterschiedlicher Hardware und unterschiedliche Versionen.

Ich kam auf eine Rybka ELO von 2.925.
Insofern eiche ich selbst auf Rybka ELO 2.925.

Passt ja fast mit Deinem Wert für Rybka.
Die Zahlen von CEGT und CCRL bzw. die ELOs sind alle viel zu hoch, aber egal ...

Hast Dir ja viel Arbeit gemacht mit der Ratingliste aber ...
Vergleiche doch jetzt mal mit anderen Listen.

Du spielst Blitz ohne Ponder.
Faktor 2.3-3.2 (schlechtester 4Core Faktor und bester 4Core Faktor) an Zeit drauf ...
CEGT spielt 40 in 20, wäre auf schneller Hardware (z. B. Intel Dual Core 3.0 GHz) 40 in 10.
Deine Blitz Resultate sollten _grob - was ausreicht_ mit 40 in 10 CEGT und einem Core bei x64 vergleichbar sein.

Ganz ehrlich, ich sehe keine neuen Erkenntnisse, wenn ich mir diese von Dir ermittelten ELO-Zahlen ansehe.
z. B. Unterschied von Rybka auf Shredder bei w32 ist ca. 60-70 und bei x64 ca. 100-110.

Hier und dort mal 10 ElO mehr oder weniger und das war es.

Und jetzt total provokativ aber ernst gemeint ...

Und dafür verzichtest Du auf das viel spannendere Ponder = On ?
Warum quälst Du Dich deswegen mit dieser Liste ?

Bist doch selbst ein starker Schachspieler und müsstest doch eigentlich viel mehr Spass beim Zusehen von Ponder = on haben.

Offenbar haben wir es mit einer Versuchung zu tun ... x64 und mehrere Cores.

Minimal übertrieben:
So ganz wie das Knusperhäuschen (sind ja fast in der Weihnachtszeit und möchte nicht Off Topic posten).
Nehme doch und esse ... friss ... denke an Deine Ratingliste ... friss endlich ...

Aber was bringt es ... wirst nur dick und neue Erkenntnisse bringt das auch nicht.
Die Versuchung ist offenbar zu stark wegen minimal mehr Spielstärke durch einfache zeitbezogene Faktoren auf x64 und mehr Cores zu greifen.

Sehr übertrieben aber ich finde da ist etwas dran !!
Möchte Dir auch nicht zu Nahe treten aber ich dachte das wirklich gerade !!

Also, vergleiche ich Deine x64 4Core Liste mit einer x64 1Core Liste sehe ich nichts, keine Auffälligkeiten.
Und wenn ich weiß welche Engines von x64 zu w32 profitieren sehe ich auch nichts wenn ich Deine Ratingliste mit w32 1Core vergleiche.

Siehst Du etwas ?
Vielleicht bin ich ja Computerschachblind !!
Will ich noch nicht mal ausschließen !!

Gruß
Frank

PS:
Aber dennoch eine gute Arbeit die zumindest meine ganzen Annahmen bestätigt die mir nach wie vor zumindest der Zeitfaktoren wie mehr Cores logisch erscheinen.
Parent - - By Bert Rinzel Date 2009-11-24 10:51
Hi Gerhard,

soweit ich weiß werden die CEGT Tests auf vielen unterschiedlichen Rechnern durchgeführt. Kann man das dennoch vergleichen, oder wie wird das ausgeglichen?

Bert
Parent - - By Frank Quisinsky Date 2009-11-24 10:58
Hi,

wird auf die Hardware "grob aber ausreichend" umgerechnet.

Bei CEGT wird auf 40 in 20 geeicht ... ca. Dual Core 3GHz (mit einem Core) 40 in 10.

Bei CCRL wird mit 40 in 40 auf einen schnelleren Vergleichrechner gespielt (AMD Athlon 4600+ x2).
Dieser Rechner erreicht ca. 2/3 der Geschwindigkeit von einem Dual Core 3GHz.

Bedeutet das CCRL mit etwas mehr an doppelter Rechenzeit als CEGT spielt (Vergleich 40 in 20 CEGT zu 40 in 40 CCRL).

Würdest Du also CEGT Tester und mit einem Pentium 2GHz antreten müsstest Du ca. 40 in 40 spielen damit die Ergebnisse in die CEGT Liste kommen.
Jetzt mal ganz grob ... geht genauer aber das würden Dir dann sicherlich die CEGT bzw. CCRL Tester noch besser erklären.

Gruß
Frank
Parent - - By Wolfgang Battig Date 2009-11-24 11:36
[quote="Frank Quisinsky"]
Hi,

wird auf die Hardware "grob aber ausreichend" umgerechnet.

Bei CEGT wird auf 40 in 20 geeicht ... ca. Dual Core 3GHz (mit einem Core) 40 in 10.

Bei CCRL wird mit 40 in 40 auf einen schnelleren Vergleichrechner gespielt (AMD Athlon 4600+ x2).
Dieser Rechner erreicht ca. 2/3 der Geschwindigkeit von einem Dual Core 3GHz.

Bedeutet das CCRL mit etwas mehr an doppelter Rechenzeit als CEGT spielt (Vergleich 40 in 20 CEGT zu 40 in 40 CCRL).

Würdest Du also CEGT Tester und mit einem Pentium 2GHz antreten müsstest Du ca. 40 in 40 spielen damit die Ergebnisse in die CEGT Liste kommen.
Jetzt mal ganz grob ... geht genauer aber das würden Dir dann sicherlich die CEGT bzw. CCRL Tester noch besser erklären.

Gruß
Frank
[/quote]

das Adaptieren auf eine Referenzhardware wird bei CEGT nur noch bei der 40/20-Liste durchgeführt (war früher anders).

Bei Blitz spielen wir ausschließlich mit 40/3+40/3+... egal auf welcher Hardware. Vom Benchmark her könnten wir (sind beim Blitz derzeit meist nur Gerhard und ich, ab und zu noch Christian Koch und sehr selten Leto) auf unseren schnellsten Maschinen bis auf 40/1 oder 40/2 runtergehen. Das ist uns aber zu kurz, daher spielen wir immer mit 40/3. Langsamere Maschinen haben wir eh nicht mehr oder kaum noch im Einsatz. Bei mir - sehr selten - der Laptop meiner Frau (P4 mit 2,4 GHZ), da spiele ich dann 40/4+...

Für die Turnierrangliste wird 40/120 + 20/60 + 30 Rest gespielt, ebenfalls ohne Adaption. Hardwareuntergrenze ist hier aber eh ein A64-4200+ (2,4 GHZ). Langsameres kommt nicht zum Einsatz.

Gruß
Wolfgang
Parent - - By Bert Rinzel Date 2009-11-24 11:58
Hallo,

vielen Dank für eure Antworten.

Da ich mich mit dieser Materie noch nie beschäftigt habe, sind die Erklärungen für mich leider immer noch unverständlich.

Ich stelle mir vor, dass Tests auf sehr unterschiedlichen Rechnern auch unterschiedliche Elo-Werte ergeben müßten.

Wenn also ein Tester Rybka gegen Deep Shredder 12 testet mit einem AMD 4200+ und der andere testet Rybka gegen Naum auf einem ja viel schnelleren i7, dann müßten die Elo-Werte stark voneinander abweichen. Oder wird dies anhand des Benchmarks ausgeglichen?

Bert
Parent - - By Bert Rinzel Date 2009-11-25 09:41
Waren die Fragen zu dumm?
Parent - By Gerhard Sonnabend Date 2009-11-25 09:48
[quote="Bert Rinzel"]
Waren die Fragen zu dumm?
[/quote]

Nein, lediglich doppelt, siehe:
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=16854#pid16854

Viele Grüsse,
G.S.
Parent - - By Ingo Bauer Date 2009-11-25 11:24
Moin

[quote="Bert Rinzel"]
Waren die Fragen zu dumm?
[/quote]

Wie Gerhard geschrieben hat, vielleicht doppelt, aber die Antwort war auch schwer zu verstehen.

Ich habe mal versucht das auseinanderzuklamüsern:

a. "auf eine Referenzhardware wird bei CEGT nur noch bei der 40/20-Liste durchgeführt (war früher anders)."
D.h: Für diese Liste werden JETZT Hardwareunterschiede mit einem Benchmark in unterschiedliche Zeiten angepasst - früher war das nicht der Fall. Mein Frage wäre wie weit die Hardwareunterscheide oder besser ECHTE gespielte Zeitkontrollen auseinander klaffen!?

b. "Bei Blitz spielen wir ausschließlich mit 40/3+40/3+... egal auf welcher Hardware."
Das ist wohl recht klar, egal welche HW wir spielen 40/3+. Wenn angepasst würde liegen die HW Extreme maximal von 40/1 bis 40/3, also grob den Faktor 3 auseinander. (Sollte doch noch langsamere HW zum einsatz kommen (sehr selten) dann wird aber doch auf 40/4+ angepasst.) De fakto spielt also jeder auf jeder Hardware 40/3+ und alles kommt hinterher in einen Topf.

c. "Für die Turnierrangliste wird 40/120 + 20/60 + 30 Rest gespielt, ebenfalls ohne Adaption."
Die CEGt legt noch eine Hardwareuntergrenze von "A64-4200+ (2,4 GHZ)" fest. Langsamer wird es nicht mehr, die HW Obergrenze (momentan) ist mir nicht bekannt. De fakto euch alles in einen Topf, allerdings sind die HW-Unterschiede nicht bekannt bzw. sind auch leider auf der CEGT Homepage nicht up to date - nehme ich an ...

Man könnte sehr bissig und satirisch folgendermaßen zusammenfassen:

"Wir erlauben für unsere Liste Eröffnungsstellungen (Jeder was er möchte), Bücher (Jeder was er möchte), Hardware (Jeder was er möchte, aber nicht älter als 5 Jahre alte 2.4Ghz CPUs), Zeitkontrollen passen wir an, oder auch nicht (Jeder wie er möchte) am Schluß werfen wir alles zusammen und vertrauen darauf das sich Fehler gegenseitig ausbügeln - das ist schließlich was einen guten Eintopf ausmacht!" 

Okok, ist etwas verkürzt, und der Gerechtigkeit halber möchte hier deutlich sagen dass, wenn man sich mit den Deteils beschäftigt, die CCRL keinen Deut besser ist und das betreiben einer Rangliste mit vielen Teilnehmern auch nicht einfach ist. Um so wichtiger sind klare Regeln!

Gruß
Ingo
Parent - - By Bert Rinzel Date 2009-11-25 12:23
Code:
"Wir erlauben für unsere Liste Eröffnungsstellungen (Jeder was er möchte), Bücher (Jeder was er möchte), Hardware (Jeder was er möchte, aber nicht älter als 5 Jahre alte 2.4Ghz CPUs), Zeitkontrollen passen wir an, oder auch nicht (Jeder wie er möchte) am Schluß werfen wir alles zusammen und vertrauen darauf das sich Fehler gegenseitig ausbügeln - das ist schließlich was einen guten Eintopf ausmacht!"


Hi Ingo,

mit anderen Worten: die Werte haben alle keine wirkliche Aussagekraft? Es sind allenfalls grobe Anhaltspunkte?

Mal gespannt was Gerhard dazu sagt.

Grüße
Bert
Parent - - By Ingo Bauer Date 2009-11-25 12:38
Hallo Bert,

[quote="Bert Rinzel"]

Code:


Man könnte sehr bissig und satirisch folgendermaßen zusammenfassen:

"Wir erlauben für unsere Liste Eröffnungsstellungen (Jeder was er möchte), Bücher (Jeder was er möchte), Hardware (Jeder was er möchte, aber nicht älter als 5 Jahre alte 2.4Ghz CPUs), Zeitkontrollen passen wir an, oder auch nicht (Jeder wie er möchte) am Schluß werfen wir alles zusammen und vertrauen darauf das sich Fehler gegenseitig ausbügeln - das ist schließlich was einen guten Eintopf ausmacht!"

Okok, ist etwas verkürzt, und der Gerechtigkeit halber möchte hier deutlich sagen dass, wenn man sich mit den Deteils beschäftigt, die CCRL keinen Deut besser ist und das betreiben einer Rangliste mit vielen Teilnehmern auch nicht einfach ist. Um so wichtiger sind klare Regeln!



Hi Ingo,

mit anderen Worten: die Werte haben alle keine wirkliche Aussagekraft? Es sind allenfalls grobe Anhaltspunkte?

Mal gespannt was Gerhard dazu sagt.

[/quote]

... oder sie sind superperfekt, weil sich die Fehler ausgleichen. Das Problem ist nur das man das nicht "weiß", sondern nur vermuten kann.

Ich glaube nicht mal das das Ergebniss so schlecht ist, mein Problem ist mehr das (ohne Not) fehlende oder zumindest sehr lasche, Regelwerk.

Übrigens hast du zwei wichtige Teile meiner Aussage vergessen zu zitieren. Ich habe das für dich mal oben nachgetragen und deutlich gemacht.

Gruß
Ingo
Parent - - By Bert Rinzel Date 2009-11-25 12:47
Hi Ingo

Die Tatsache, dass die CCRL Zahlen keinen Deut besser sind, macht die Statistik ja deswegen keineswegs aussagefähig.

Code:
... oder sie sind superperfekt, weil sich die Fehler ausgleichen. Das Problem ist nur das man das nicht "weiß", sondern nur vermuten kann.


An die Möglichkeit, dass sich die Fehler  ausgleichen könnten, glaube wer will.

Grüße

Bert
Parent - - By Ingo Bauer Date 2009-11-25 12:55
Moin

[quote="Bert Rinzel"]

An die Möglichkeit, dass sich die Fehler  ausgleichen könnten, glaube wer will.

[/quote]

Nun ja, ich vermag nicht zu entscheiden ob sie sich addieren oder subtrahieren.

Gruß
Ingo
Parent - - By Gerhard Sonnabend Date 2009-11-25 14:25
Hi Ingo !

Es gab und gibt viele Probleme beim Erstellen von Ranglisten, sobald
mehrere Leute daran beteiligt sind. Natürlich könnte man hergehen und
festlegen, dass alle Teilnehmer mit absolut identischer Hardware und
unter identischen Bedingungen spielen lassen.

Nur, wer würde so etwas mitmachen wollen ?

Wenn man es nämlich unter "Laborbedingungen" durchziehen will, dann
müssten auch folgende Voraussetzungen gegeben sein:

a.) ein immer gleichbleibendes GUI
Keine Updates wären in der Zukunft zulässig, dies könnte ja u.U. bereits
getestete Engines benachteiligen resp. Neueinsteiger bevorzugen.
Wählt man Shredder oder Arena, dann bleiben Fritz und Junior aussen vor.

b.) immer die selben Eröffnungs-Vorgaben
Sollten die Partien der Öffentlichkeit zur Verfügung gestellt werden,
z.B. via Downloadmöglichkeit, so ist es nach kurzer Zeit ein Leichtes
für jeden Programmautor, seine Engine auf diese Vorgaben zu tunen. Das
würde niemand merken, die etwas grösse EXE kann man leicht als "nun mit
mehr Wissen" verkaufen. Das wäre sogar korrekt bis auf das Weglassen
des Worteils Eröffnung.
Kurzbücher könnten nicht zum Einsatz kommen, da bei zufälliger Auswahl
bereits Ungerechtigkeiten auftreten könnten.

Stellt sich hingegen heute ein Engineautor auf die vielfältigen CEGT-
Eröffnungs-Bedingungen ein, dann kann man schon behaupten, dass sich
sein Programm dadurch auch tatsächlich verstärkt hat. Er müsste nämlich
den fast kompletten ECO A-E Bereich abdecken.

Viele Grüsse,
G.S.
Parent - - By Bert Rinzel Date 2009-11-25 16:21
Hi Gerhard,

hier scheint nicht einmal der schöne alte Satz:

"Glaub keiner Statistik, die du nicht selbst gefälscht hast"

Anwendung finden zu können.

Ich verkneife mir sämtliche Hinweise auf frühere Aussagen meinerseits zu diesem Thema.

Schöne Grüße

Bert
Parent - - By Gerhard Sonnabend Date 2009-11-25 16:43
[quote="Bert Rinzel"]
Hi Gerhard,

hier scheint nicht einmal der schöne alte Satz:

"Glaub keiner Statistik, die du nicht selbst gefälscht hast"

Anwendung finden zu können.

Ich verkneife mir sämtliche Hinweise auf frühere Aussagen meinerseits zu diesem Thema.

Schöne Grüße

Bert
[/quote]

Ich verstehe Dein Posting nicht ?!
Kannst Du mir das in einfachen Worten erklären ?

Viele Grüsse,
G.S.
Parent - - By Bert Rinzel Date 2009-11-25 18:18
Hallo Gerhard,

das verstehe ich aber jetzt nicht.

Nachdem du mir nicht erklärt hast, warum eure Statistiken korrekt sind, hat mir Ingo die Angelegenheit erläutert. Seinen Ausführungen hast du auch nicht widersprochen.

Code:
... oder sie sind superperfekt, weil sich die Fehler ausgleichen. Das Problem ist nur das man das nicht "weiß", sondern nur vermuten kann.

Ich glaube nicht mal das das Ergebniss so schlecht ist, mein Problem ist mehr das (ohne Not) fehlende oder zumindest sehr lasche, Regelwerk.
Parent - - By Bert Rinzel Date 2009-11-25 18:20
Sorry, da war ich zu schnell.

Jedenfalls hört sich das nicht so an, als seien die Zahlen wirklich korrekt.

Bert
Parent - - By Gerhard Sonnabend Date 2009-11-25 19:23
[quote="Bert Rinzel"]
Sorry, da war ich zu schnell.

Jedenfalls hört sich das nicht so an, als seien die Zahlen wirklich korrekt.

Bert
[/quote]

Weshalb sollten die Zahlen nicht korrekt sein ?
Wer hat Besseres zu bieten ?

Perfekt im Sinne von 100% wirst Du nirgends bekommen, nicht mal dann,
wenn nur eine einzige Person mit immer absolut gleichen Konditionen
eine Liste führt !

Viele Grüsse,
G.S.
Parent - - By Bert Rinzel Date 2009-11-26 14:50
Ich darf nochmal an die Aussage von Ingo erinnern, der sich sicherlich viel mehr mit der Materie befaßt hat als ich:

Code:
"Wir erlauben für unsere Liste Eröffnungsstellungen (Jeder was er möchte), Bücher (Jeder was er möchte), Hardware (Jeder was er möchte, aber nicht älter als 5 Jahre alte 2.4Ghz CPUs), Zeitkontrollen passen wir an, oder auch nicht (Jeder wie er möchte) am Schluß werfen wir alles zusammen und vertrauen darauf das sich Fehler gegenseitig ausbügeln - das ist schließlich was einen guten Eintopf ausmacht!"

Okok, ist etwas verkürzt, und der Gerechtigkeit halber möchte hier deutlich sagen dass, wenn man sich mit den Deteils beschäftigt, die CCRL keinen Deut besser ist und das betreiben einer Rangliste mit vielen Teilnehmern auch nicht einfach ist. Um so wichtiger sind klare Regeln!


Wenn das alles zutreffend ist, wie will man da auf korrekte Werte kommen? Mir erscheint das völlig unmöglich.

Aber vielleicht kannst du es mir so erklären, dass es einleuchtend ist.

Gruß

Bert
Parent - - By Ingo Bauer Date 2009-11-26 15:17
Moin,

Es wäre schön wenn du mich nicht zum "stänkern" benutzen würdest. Das mache ich lieber selber, wenn es mir nötig erscheint.

Danke und Gruß
Ingo
Parent - - By Bert Rinzel Date 2009-11-26 16:23
Hallo Ingo,

nichts liegt mir ferner, als deinen Namen zum Stänkern zu verwenden. Mir wäre es auch nicht in den Sinn gekommen, dass deine Aussagen zu diesem Thema geeignet sein könnten rumzustänkern.

Was du geschrieben hast leuchtet mir nur eher ein, als die Erklärungsversuche von Gerhard zu diesem Thema.

Vergleichbare Ergebnisse kann man m.E. doch nur bekommen, wenn alle Games  mit den gleichen Eröffnungen (Nunn2 oder vergleichbar) und gleicher Hardware gespielt werden. Außerdem mit Ponder On, da nur dies der Realität entspricht.

Aber ich lasse mich natürlich gerne von Gerhard eines Besseren belehren.

Bert
Parent - By Gerhard Sonnabend Date 2009-11-26 17:00
[quote="Bert Rinzel"]
[...snip...]
Vergleichbare Ergebnisse kann man m.E. doch nur bekommen, wenn alle Games  mit den
gleichen Eröffnungen (Nunn2 oder vergleichbar) und gleicher Hardware gespielt werden.
[/quote]

Die Meinung darfst Du ruhig vertreten.
Du kannst ja gerne mal selbst nachrechnen was es bedeuten würde,
die aktuell über 800 verschiedenen Engines und Versionen, welche
wir z.Zt. in der CEGT-Blitz-Liste haben, unter diesem Motto zu testen.

[quote="Bert Rinzel"]
Außerdem mit Ponder On, da nur dies der Realität entspricht.
[/quote]

Realitätsnäher wohl ja. Nur, ob messbar andere Ergebnisse heraus kommen
würden ? Bisher hat mich noch niemand davon überzeugen können.

Viele Grüsse,
G.S.
Parent - - By Thomas Müller Date 2009-11-26 17:41
apropos realität....
kein programm spielt (auf einem server oder turnieren) mit den gleichen eröffnungen oder zeitvorgaben.
ponder on ja, aber der vorteil davon ist minimal und für mich nicht relevant.
Wenn jemand analysen laufen lässt, dann meistens mit allen verfügbaren cores (4x), oder schaltet jemand freiwillig davon 3 ab?

Ranglisten sind vielfältig aber in sich schlüssig und keine wird perfekt sein. Perfekt kann immer anders definiert und eben auch interpretiert werden.

--
TM
Parent - By Gerhard Sonnabend Date 2009-11-26 21:27
[quote="Thomas Müller"]
apropos realität....
kein programm spielt (auf einem server oder turnieren) mit den gleichen eröffnungen oder zeitvorgaben.
ponder on ja, aber der vorteil davon ist minimal und für mich nicht relevant.
Wenn jemand analysen laufen lässt, dann meistens mit allen verfügbaren cores (4x), oder schaltet jemand freiwillig davon 3 ab?
Ranglisten sind vielfältig aber in sich schlüssig und keine wird perfekt sein. Perfekt kann immer anders definiert und eben auch interpretiert werden.
[/quote]

Hi Thomas !

Dem ist nichts hinzuzufügen, Danke !

Viele Grüsse,
G.S.
Parent - - By Wolfgang Battig Date 2009-11-25 13:18
[quote="Ingo Bauer"]
....
a. "auf eine Referenzhardware wird bei CEGT nur noch bei der 40/20-Liste durchgeführt (war früher anders)."
D.h: Für diese Liste werden JETZT Hardwareunterschiede mit einem Benchmark in unterschiedliche Zeiten angepasst - früher war das nicht der Fall. Mein Frage wäre wie weit die Hardwareunterscheide oder besser ECHTE gespielte Zeitkontrollen auseinander klaffen!?


sorry, das war missverständlich ausgedrückt von mir. "war früher anders" bezog sich darauf, dass "früher" auch bei der Blitzliste angepasst wurde. Das haben wir abgeschafft. Bei der 40/20 bzw. früher 40/40-Liste wurde schon immer gem. dem Benchmark angepasst und wird es auch jetzt noch.
Die Turnierliste kam erst wesentlich später hinzu, hier hat Heinz van Kempen von Beginn an auf eine Adaptierung verzichtet.

.....

....

Zitat:
"Wir erlauben für unsere Liste Eröffnungsstellungen (Jeder was er möchte),


korrekt

Zitat:
Bücher (Jeder was er möchte),


korrekt

Zitat:
Hardware (Jeder was er möchte, aber nicht älter als 5 Jahre alte 2.4Ghz CPUs),


jain
eher, "jeder was er kann" (sich leisten kann). Da die "freaks" (wer tut sich sowas sonst schon an?) aber eh meist starke Hardware haben, ist eine Untergrenze eigentlich nicht nötig.
Leider ist unsere Testerseite weder personell noch hardwaretechnisch aktuell, da hast Du allerdings recht.

Zitat:
Zeitkontrollen passen wir an, oder auch nicht (Jeder wie er möchte) am Schluß werfen wir alles zusammen und vertrauen darauf das sich Fehler gegenseitig ausbügeln - das ist schließlich was einen guten Eintopf ausmacht!"


nein, nicht jeder wie er möchte. Hardware und Eröffnungen sind schwer zu regeln, du kannst niemanden zwingen einen bestimmten Computer zu kaufen oder ein Buch/Vorgabe zu verwenden, die er nicht will.

Was die Adaption angeht, muss man vielleicht etwas weiter zurückgehen. Anfangs gab es bei CEGT zwei Listen (Blitz und 40/40 = die jetzige 40/20). In beiden wurde gemäß Benchmark angepasst, also ganz einheitlich. Wer das nicht bereit war zu aktzeptieren, konnte bei CEGT nicht mitmachen.
Dann kam die Turnierliste hinzu, die HvK auf "aktueller" Hardware erstellen wollte (daher die Untergrenze A64-4200+). Da er der einzige Tester bzw. der Haupttester war, war eine Adaption unnötig, da er - da kannst du die Testerseite bemühen - 4 baugleiche Rechner hat. Mittlerweile testen auch Jörn und ich mit 40/120 und unsere Rechner sind denen von Heinz sehr nahe, Geschwindigkeitsunterschied im niedrigen einstelligen Prozentbereich.

Beim Blitz haben wir was geändert, das ist korrekt. Gerhard und ich, die eh nie Freunde der Adaption waren (wenn ich 40/20 spiele halte ich mich aber daran!!), haben - als derzeit quasi einzige Blitztester - die Bedenkzeit bei 40/3 festgelegt. Also eine Änderung an den CEGT-Bedingungen durchgeführt, die aber aus meiner Sicht nötig war, da sonst die blitzliste vermutlich eingeschlafen wäre. Wilhelm Hudetz hatte seinerzeit aufgehört und mich hätte niemand dazu bekommen mit 40/1 (oder so) zu spielen, Gerhard wohl auch nicht (er kam ja auch erst etwas später dazu). Daher gab es nur die Wahl die Liste zu beenden oder etwas zu verändern. Wir haben uns für letzteres entschieden.

Zitat:
Okok, ist etwas verkürzt,


ein wenig....

Zitat:
und der Gerechtigkeit halber möchte hier deutlich sagen dass, ..... und das betreiben einer Rangliste mit vielen Teilnehmern auch nicht einfach ist. Um so wichtiger sind klare Regeln!


genau da liegt der Knackpunkt. Den Spagat zwischen "klaren Regeln" und "Betreiben einer RL mit vielen Testern" (meinst Du das mit "Teilnehmern"?) hinzubekommen ist alles andere als leicht.

Wenn man als Einzelner eine Rangliste erstellt, wie Du es tust, sind klare Regeln oder Vorgaben kein Problem. Sie ergeben sich ganz einfach, weil du alleine testest und somit deine Vorlieben umsetzen kannst.

Bei 5, 6, 8 oder xy Testern kannste das getrost vergessen. Du kannst niemanden zwingen sich eine bestimmte HW zu kaufen, logisch. Du kannst u.U. Grenzen nach unten oder oben setzen, mehr nicht. Bei Freaks wie uns Testern ist das aber nicht soooo problematisch, weil sich die Hardware zumeist relativ gleicht. Ich stelle das die Tage vielleicht mal für CEGT zusammen, die Unterschiede sind marginal. Natürlich nur solange, bis einer mit nem i7 auftaucht.... Aber erfahrungsgemäß ziehen die anderen relativ zügig nach. Wir sind halt keine "normalen" Computerschächer....

Zum Thema Vorgaben: Klar kannst du sagen, dass alle Tester ein und dieselbe Vorgabedatei/Buch nutzen müssen. Erfahrungsgemäß sind Computerschachfreaks aber nicht nur "besonders" sondern auch besonders stur (positiver: "individuell"). Wenn Du jemanden zwingen willst, ein bestimmtes Buch oder eine bestimmte Vorgabedatei zu verwenden, geht das zumeist nicht. Ok, du kannst dann auf denjenigen ggfs. verzichten, andererseits sind Ranglistentester auch relativ dünn gesäät... Kompromisse sind (beiderseits!) also unvermeidlich!

Ein schwieriges Thema, keine Frage. Will man alles "perfekt" haben, muss man auch alles alleine machen. In einer Testergruppe geht dieser Anspruch allerdings völlig an der Realität vorbei.

Gruß, Wolfgang
Parent - By Gerhard Sonnabend Date 2009-11-25 14:11
Volle Zustimmung, Danke Wolfgang !

Viele Grüsse,
G.S.
Parent - - By Ingo Bauer Date 2009-11-25 18:03
Moin Wolfgang,

Vorweg - NATÜRLICH kann und insbesondere soll nicht jeder immer die neuste Hardware kaufen. Nichts liegt mir ferner als jedem dieselben Idiotien aufzwingen zu wollen die ich bereit bin zu machen! So mancher Bekannter kuckt mich schon etwas schräg an wenn er mitbekommt wie viele Rechner ich habe. Da kommt man schon ins Grübeln ob man es nicth ein 'bischen' übertreibt

[quote="Wolfgang Battig"]

Leider ist unsere Testerseite weder personell noch hardwaretechnisch aktuell, da hast Du allerdings recht.


Ja, das ist bedauerlich - Transparenz schafft Vertrauen! Wenn weder Hardware noch tatsächlich gespielte Zeitkontrolle für eine Rangliste bekannt gegeben werden, sondern mal hier ein Brocken und mal da ein bischen, dann ist das eher kontraproduktiv!

Zitat:

Zitat:
Zeitkontrollen passen wir an, oder auch nicht (Jeder wie er möchte) am Schluß werfen wir alles zusammen und vertrauen darauf das sich Fehler gegenseitig ausbügeln - das ist schließlich was einen guten Eintopf ausmacht!"


nein, nicht jeder wie er möchte. Hardware und Eröffnungen sind schwer zu regeln, du kannst niemanden zwingen einen bestimmten Computer zu kaufen oder ein Buch/Vorgabe zu verwenden, die er nicht will.


Zwingen liegt mir fern, klare Regeln sind es die ich zuerst Anmahne!

Zitat:

Was die Adaption angeht, muss man vielleicht etwas weiter zurückgehen. Anfangs gab es bei CEGT zwei Listen (Blitz und 40/40 = die jetzige 40/20). In beiden wurde gemäß Benchmark angepasst, also ganz einheitlich. Wer das nicht bereit war zu aktzeptieren, konnte bei CEGT nicht mitmachen.
Dann kam die Turnierliste hinzu, die HvK auf "aktueller" Hardware erstellen wollte (daher die Untergrenze A64-4200+). Da er der einzige Tester bzw. der Haupttester war, war eine Adaption unnötig, da er - da kannst du die Testerseite bemühen - 4 baugleiche Rechner hat. Mittlerweile testen auch Jörn und ich mit 40/120 und unsere Rechner sind denen von Heinz sehr nahe, Geschwindigkeitsunterschied im niedrigen einstelligen Prozentbereich.

Beim Blitz haben wir was geändert, das ist korrekt. Gerhard und ich, die eh nie Freunde der Adaption waren (wenn ich 40/20 spiele halte ich mich aber daran!!), haben - als derzeit quasi einzige Blitztester - die Bedenkzeit bei 40/3 festgelegt. Also eine Änderung an den CEGT-Bedingungen durchgeführt, die aber aus meiner Sicht nötig war, da sonst die blitzliste vermutlich eingeschlafen wäre. Wilhelm Hudetz hatte seinerzeit aufgehört und mich hätte niemand dazu bekommen mit 40/1 (oder so) zu spielen, Gerhard wohl auch nicht (er kam ja auch erst etwas später dazu). Daher gab es nur die Wahl die Liste zu beenden oder etwas zu verändern. Wir haben uns für letzteres entschieden.


Für das ganze gibt es ein schönes Wort: "Wildwuchs". Womit wir wieder bei einem klaren Regelwerk wären.

Zitat:

... Den Spagat zwischen "klaren Regeln" und "Betreiben einer RL mit vielen Testern" ... hinzubekommen ist alles andere als leicht.


Ohne jeden Zweifel!

Zitat:

Wenn man als Einzelner eine Rangliste erstellt, wie Du es tust, sind klare Regeln oder Vorgaben kein Problem. Sie ergeben sich ganz einfach, weil du alleine testest und somit deine Vorlieben umsetzen kannst.


Auch da muß ich dir zustimmen.

Zitat:

Bei 5, 6, 8 oder xy Testern kannste das getrost vergessen. Du kannst niemanden zwingen sich eine bestimmte HW zu kaufen, logisch. Du kannst u.U. Grenzen nach unten oder oben setzen, mehr nicht. Bei Freaks wie uns Testern ist das aber nicht soooo problematisch, weil sich die Hardware zumeist relativ gleicht. Ich stelle das die Tage vielleicht mal für CEGT zusammen, die Unterschiede sind marginal. Natürlich nur solange, bis einer mit nem i7 auftaucht.... Aber erfahrungsgemäß ziehen die anderen relativ zügig nach. Wir sind halt keine "normalen" Computerschächer....

Zum Thema Vorgaben: Klar kannst du sagen, dass alle Tester ein und dieselbe Vorgabedatei/Buch nutzen müssen. Erfahrungsgemäß sind Computerschachfreaks aber nicht nur "besonders" sondern auch besonders stur (positiver: "individuell"). Wenn Du jemanden zwingen willst, ein bestimmtes Buch oder eine bestimmte Vorgabedatei zu verwenden, geht das zumeist nicht. Ok, du kannst dann auf denjenigen ggfs. verzichten, andererseits sind Ranglistentester auch relativ dünn gesäät... Kompromisse sind (beiderseits!) also unvermeidlich!

Ein schwieriges Thema, keine Frage. Will man alles "perfekt" haben, muss man auch alles alleine machen. In einer Testergruppe geht dieser Anspruch allerdings völlig an der Realität vorbei.


Perfekt geht nie, aber man sollte doch versuchen es zu erreichen.

1. Dokumentation. Das A und O einer Rangliste. Es muß alles hinterher nachvollziehbar sein. Wer, wann, was, womit, wie ...

2. HW ist ein Problem. Die SSDF macht es richtig. Feste "günstige" HW bei der über einen längeren Zeitraum geblieben wird. Ab und zu wird neue "günstige" HW gekauft, die aber nie das obere Ende sein darf. Diese neue HW kann man sauber und getrennt in die bestehende Liste einspielen! Ein mischen und langsames wachsen von Hardware geht meiner Meinung nach nicht. Zeitanpassungen sind Wilkürlich, ein Craftybench passt nicht zu Rybka und der Fritzmrak nicht mal zu Fritz. (Extrem: Wie hier neulich festgestellt wurde läuft Stockfish 1.4 auf einem AMD prozentual schneller pro GHz als auf einem Intel C2 ... so etwas Extremes bekommt ihr NIE in einen Benchmark gepackt!) Wie will man da eine vernünftige Zeitanpassung machen - ich bin fest davon überzeugt das das unmöglich gerecht für alle Engines gehen kann!
Nochmal, man kann niemanden zwingen, aber wenn die Bedinungen feststehen muß jeder für sich entscheiden ob er mitmachen will. Kann sein das man den ein oder anderen verliert, aber was ist eine Liste wert, die, wie ich es oben überspitzt angedeutet habe, beliebiges zusammenwirft?

3. Eröffnungsstellungen und Bücher. Das größte Problem meiner Meinung nach. Da ich aber Bücher überhaupt nicht kontrolieren kann bevorzuge ich Eröffnungsstellungen (Da spiele ich mal ein paar Spiele mit meinem Französchbuch weil mir das gut gefällt während der nächste den Sizilianer mag - hinterher werfen wir das zusammen und scheuen mal was rauskommt - brrr). Wie kann man vermeiden das Engines sich darauf einschießen (theoretisch, da soweit mir bekannt noch nicht vorgekommen): Viele verschiedene Stellungen,(50/100...) Alle 6 oder 12 Monate den Satz an Eröffnungsstellungen wechseln. Wie kann man sicherstellen das man "gleichwertige" Stellungen hat: eine Minniturnier mit den 10 besten Engines, jeder gegen jeden mit dem "alten" Satz und dem "neuen" Satz spielen. Ergebnisse müssen möglichst gleich sein (% Abweichung VORHER definieren). Nach dem ein neuer Satz gefunden wurde können diese Spiele auch sofort in die Liste integriert werde.

Sicherlich ist mein ad hoc Vorschlag nicht perfekt, aber auch das ist kein Problem, IHR macht die Regeln, wenn ihr euch entscheidet die Spiele nicht zu veröffentlichen, dann ist das eben so. Damit kann euch aber auch niemand in die Karten sehen wenn Ihr Angst habt das sich die Programmierer auf die Eröffnungsstellungen einschießen würden (wie gesagt, glaube ich nicht!) Das wichtigste ist nur das Ihr Regeln habt und die auch dokumentiert und dabei bleibt! Um das alles zum Laufen zu bringen sind Kompromisse nötig, das ist mir klar, aber nicht Kompromisse um jeden Preis die den Eindruck der Beliebigkeit hinterlassen!

So das langt erstmal
Gruß
Ingo
Parent - - By Gerhard Sonnabend Date 2009-11-25 19:35
[quote="Ingo Bauer"]
[...snip...]
Sicherlich ist mein ad hoc Vorschlag nicht perfekt, aber auch das ist kein Problem, IHR macht die Regeln, wenn ihr euch entscheidet die Spiele nicht zu veröffentlichen, dann ist das eben so. Damit kann euch aber auch niemand in die Karten sehen wenn Ihr Angst habt das sich die Programmierer auf die Eröffnungsstellungen einschießen würden (wie gesagt, glaube ich nicht!) Das wichtigste ist nur das Ihr Regeln habt und die auch dokumentiert und dabei bleibt! Um das alles zum Laufen zu bringen sind Kompromisse nötig, das ist mir klar, aber nicht Kompromisse um jeden Preis die den Eindruck der Beliebigkeit hinterlassen!
[/quote]

Hi Ingo !

Etwas weiter oben schreibst Du selbst:
"Ja, das ist bedauerlich - Transparenz schafft Vertrauen!"

Was glaubst Du würden die "Leute" denken und sagen, wenn
wir die Games nicht mehr online stellen würden ?

Wie Wolfgang eigentlich deutlich geschrieben hat, haben wir
Regeln und die werden auch eingehalten. Von "Beliebigkeit"
kann nun wirklich absolut keine Rede sein !

Vergleiche einfach noch mal in aller Ruhe Deine bisher selbst
erspielten Resultate mit den Unseren und Du wirst fast immer
feststellen, dass die Unterschiede marginal sind. Und nicht
vergessen, bei 95% sind es immerhin 5 von 100 Engines,
welche ausserhalb der Schranken liegen können.

Viele Grüsse,
G.S.
Parent - - By Ingo Bauer Date 2009-11-25 19:48
Moin,

[quote="Gerhard Sonnabend"]
Etwas weiter oben schreibst Du selbst:
"Ja, das ist bedauerlich - Transparenz schafft Vertrauen!"

Was glaubst Du würden die "Leute" denken und sagen, wenn
wir die Games nicht mehr online stellen würden ?


War auch nur ein Bsp. Wenn ihr ordentlich begründet warum nicht finde ich das ok. Aber wie gesagt eure Regeln...

Zitat:

Wie Wolfgang eigentlich deutlich geschrieben hat, haben wir
Regeln und die werden auch eingehalten. Von "Beliebigkeit"
kann nun wirklich absolut keine Rede sein !


Ich wiederhole den "Wildwuchs", zumindest ist es nicht mehr weit von beliebig weg. Spätestens wenn ihr in eure 40/20 Liste Kurzspiele mit 40/3 einspielt weil die Hardware so schnell ist ist es endgültig beliebig ... und lange kann das nicht mehr dauern.

Zitat:

Vergleiche einfach noch mal in aller Ruhe Deine bisher selbst
erspielten Resultate mit den Unseren und Du wirst fast immer
feststellen, dass die Unterschiede marginal sind. ...


Gerhard, das ist ein bayrisches Argument nach dem Motto: "Paßt schon"! Bischen 'dünn' finde ich - insbesondere wenn man es besser machen könnte, wenn man den wollte!

Gruß
Ingo
Parent - - By Gerhard Sonnabend Date 2009-11-25 19:56
[quote="Ingo Bauer"]
[...snip...]
Gerhard, das ist ein bayrisches Argument nach dem Motto: "Paßt schon"! Bischen 'dünn' finde ich -
insbesondere wenn man es besser machen könnte, wenn man den wollte!
[/quote]

Na dann Ingo, nimm es selbst in die Hand und zeige uns allen
wie man es richtig macht. Ich freue mich schon darauf und
werde zur Stelle sein wenn es darum geht die Ergebnisse
zu vergleichen resp. abzuklopfen !

Viele Grüsse,
G.S.
Parent - By Roland Rösler Date 2009-11-26 02:10
[quote="Gerhard Sonnabend"]Na dann Ingo, nimm es selbst in die Hand und zeige uns allen wie man es richtig macht. [/quote]
Ich will ja nicht stänkern, aber m. E. macht es Ingo schon besser!

Wenn ich mir seine 6'+3" sp Engine-Rangliste anschaue, habe ich mehr Vertrauen als bei der CEGT 40/20 Rangliste (und übersichtlicher ist sie auch noch!). Den ganzen Quatsch bzgl. Anzahl cores und w32 vs. x64 brauche ich nicht (hab ich im Hinterkopf!). Und 6'+3" mit Ponder=on bei C2 3GHz und Vorgabestellungen gefällt mir besser als CEGT 40/"10" mit Ponder=off und GHz=? und wahllose Bücher! Ist halt Geschmackssache! Ich liebe Systematik bei der Ranglistenerstellung. Dazu gehört auch, daß man gleiche Anzahl von Partien spielt gegen die unterschiedlichen Gegner und nicht einfach abbricht, weil es zu einseitig oder uninteressant (?) wird (bin mal von Heinz zusammengestaucht worden, weil ich das bemängelt habe). Das hat sich aber bei CEGT gebessert.
Parent - By Wolfgang Battig Date 2009-11-26 11:03
[quote="Ingo Bauer"]
.....
3. Eröffnungsstellungen und Bücher. ....

(Da spiele ich mal ein paar Spiele mit meinem Französchbuch weil mir das gut gefällt während der nächste den Sizilianer mag - hinterher werfen wir das zusammen und scheuen mal was rauskommt - brrr).

.....[/quote]

Hi Ingo,

da wir glaube ich insgesamt thematisch nicht wirklich zueinander kommen, nur kurz etwas zu obigem Satz:

Selbstverständlich kommen bei uns keine Spezialbücher für irgendeine Eröffnung zum Einsatz, sondern allgemeine Bücher,
wie z.B. die Bücher von Harry Schnapp (unter Classic nehme ich meist das HS2.0.bkt, unter CB-GUI das HS7-moves oder HS10-moves.ctg) oder
Sedat Canbaz (Perfect-Serie). Diese enthalten Varianten aus dem kompletten ECO-Bereich A-E. Beide machen auch gute Bücher für Arena, aber da Arena nur einen Turniermodus hat in dem Farbtausch wie unter Classic nicht funktioniert, nutze ich das selten, höchstens mal für kleine, kurzrundige Turniere. Arena bietet dafür "PGN-Random", was ich - nach anfänglicher Skepsis - für ziemlich genial halte.

Gruß
Wolfgang
Parent - - By Peter Martan Date 2009-11-25 14:58
Parent - By Wolfgang Battig Date 2009-11-25 15:16
[quote="Peter Martan"]

[/quote]

sehr konstruktiver Beitrag...
Parent - - By Gerhard Sonnabend Date 2009-11-24 11:46
[quote="Frank Quisinsky"]
[...snip...]
Und jetzt total provokativ aber ernst gemeint ...
Und dafür verzichtest Du auf das viel spannendere Ponder = On ?
Warum quälst Du Dich deswegen mit dieser Liste ?
[/quote]

Quälen ? Die Liste macht Spass und läuft fast nebenher.
PB=ON spannender ? Weshalb ?

[quote="Frank Quisinsky"]
Bist doch selbst ein starker Schachspieler und müsstest doch eigentlich
viel mehr Spass beim Zusehen von Ponder = on haben.
[/quote]

Ich schau nur ganz selten zu. Bei einer neuen Engine die ersten 2-3 Games.
Dies aber nur um zu prüfen, ob alles korrekt läuft.
Die Nacharbeit bedeutet den grössten Aufwand, also:
a.) Partienausgänge überprüfen
b.) nach ZÜs oder Abbrüchen suchen
c.) u.U. Enginenamen anpassen, Daten in die Datenbank kopieren

Ich hatte 2 Beweggründe die Liste zu starten:
a.) es gab (gibt ?) noch keine "4-CPU-Liste"
b.) der CEGT-Blitz-Ratingliste fehlten zu dieser Zeit 4-CPU-Engines + Games

Übrigens:
ich persönlich betrachte 4-CPU als "Championsleague", bald wird das "8-CPU" sein.
Alles andere (2-CPU und/oder Single) ist maximal als Bundesliga anzusehen.

Viele Grüsse,
G.S.
Parent - - By Frank Quisinsky Date 2009-11-24 12:35
Hi Gerhard,

Ok, dann gebe ich Dir folgendes zu bedenken ...

Du spielst mit Ponder = off und 4 Cores.
Die Engines kommen auf einen Faktor von 2,3 - 3,2

Spielst Du 4x mit 1 Core hast Du Faktor 4
Spielst Du 1x mit 4 Cores hast Du Faktor 2,3 - 3.2

Du verschenkst Prozessorzeit ... kannst Du das nachvollziehen ?

2.6 (durchschnittlicher Faktor) : 100 : 4 = 35%
Du verschenkst also 35% an Zeit bzw. Deine erkorene Königsklasse verschenkt Zeit !!

Durch SMP bzw. 4 Cores erhälst Du ja nicht die vierfache Leistung, sondern die durchschnittliche 2.6fache Leistung.
1,4 von Deinen 4.0 Cores an Leistung geht ins Nirwana.

Und das um in 1900-2000 Partien pro Engine zu sehen wie der Geschwindigkeitsvorteil ist, der leicht zu errechnen ist ... nimmst Du auch noch einen Verlust von 1.4 Prozessoren auf Dich.

Bei Ponder schaut das auch so aus.
Schalte ich Ponder ein gehen runde 65% der Prozessorzeit der Engine die nicht am Zug ist ins Nirwana.
Aber ich sehe dafür realistische Partien.

Beispiel:
2 Matches laufen mit Ponder = on auf Deiner Maschine !!

Engine 1 = 100% Prozessorzeit
Engine 2 =   35% Prozessorzeit (durchschnittliche Pondertreffer)
Engine 3 = 100% Prozessorzeit
Engine 4 =  35% Prozessorzeit (durchschnittliche Pondertreffer)

= 270% x 100 : 400 = 67,50

Zeitverlust auf Quad = 32,5% bei 4x 1 Core pro Engine
Zeitverlust auf Quad = 35,0% beim SMP und 4 Cores

Und nun noch deutlicher:

Partie mit Ponder = On und 2 Cores
Durchschnittlicher Faktor 1.7

2x Faktor 1,7 : 3.4
3.4 x 100 : 4 =  15% Verlust an Prozessorzeit

Engine 1 = 100%
Engine 2 =  35%

= 135% x 100: 200 = 67,5 = 32,5% Verlust durch Nirwana Prozessorzeit (keine Pondertreffer)

Verlust bei Ponder = On und 2 Cores = 32,5 + 15 = 47,5%
Verlust bei Ponder = Off und 4 Cores = 35%

Insofern dürfte die Engine Leistung minimal besser bei 4 Cores und Ponder = off sein als bei 2 Cores und Ponder = on !!
Die Königsklasse wäre aber dennoch 2Cores und Ponder = on weil die Variante 4Cores und Ponder = off realitätsfremd ist.

Fest steht aber, dass Dein Quad von den 4.0 Prozessoren 1.4 Prozessoren durch SMP an Zeit verliert.
Diesen Zeitverlust könntest Du besser nutzen denn Du siehst in "Deiner" Königsklasse eh nichts was von bekannten ELO-Werten abweicht beim Testen von 4Cores im Vergleich zu einem Core.

Gruß
Frank

Egal, fest steht ... ich verstehe die Logik beim Testen von Schachengines nicht !!
Parent - - By Gerhard Sonnabend Date 2009-11-24 13:50
Hi Frank !

Nein, mein Quad "verliert" nichts an Zeit. Die Dinger rechnen
immer volles Rohr und der Strom kommt aus der Steckdose !

Spass beiseite, natürlich sehe ich Unterschiede.

Mal nur ein Beispiel, speziell für Dich herausgesucht (alles aus "CEGT-Blitz"):

Code:

Shredder 12 x64 1CPU   ELO 3006 / 2400 Games / +- 12
Naum 4.0 x64 1CPU      ELO 2983 / 3140 Games / +- 10

jedoch

Naum 4.0 x64 4CPU      ELO 3124 / 2800 Games / +- 10
Shredder 12 x64 4CPU   ELO 3091 / 2000 Games / +- 12


Es gibt noch viele solcher Beispiele in denen sich nicht nur die Zahlen, sondern
auch die Platzierungen durch Einsatz von SMP z.T. deutlich verändern.

Wie hättest Du dies mit blossem Herauf- Herunterrechnen ermitteln können ?
Gar nicht, sei versichert, denn Faktor 2.4 zu 2.6 ist in ELO gar nicht messbar,
resp. kaum nachzuweisen !

Viele Grüsse,
G.S.
Parent - - By Frank Quisinsky Date 2009-11-24 14:07
Hi Gerhard,

kannst aber nicht CEGT Blitz mit Deinen Ergebnissen Blitz und 4 Cores vergleichen.
Solltest vergleichen mit CEGT 40 in 20 (sprich 40 in 10 auf Deiner Hardware, also vergleichbar).

Naum 4 x64 2CPU             3054
Deep Shredder 12 x64 2CPU  3041

+ 13 für Naum
Bei Dir + 33 für Naum

Das sind 20 ELO Unterschied und alles was sich um 25 bewegt ist nicht wichtig ... da unterschiedliche Bedinungen etc..
Ferner kommt der SMP Faktor bei Naum im Vergleich zu Shredder hinzu und dann passt es wieder.

Gruß
Frank
Parent - By Gerhard Sonnabend Date 2009-11-24 15:51
[quote="Frank Quisinsky"]
[...snip...]
kannst aber nicht CEGT Blitz mit Deinen Ergebnissen Blitz und 4 Cores vergleichen.
Solltest vergleichen mit CEGT 40 in 20 (sprich 40 in 10 auf Deiner Hardware, also vergleichbar).
[...snip...]
[/quote]

Klar kann und darf ich das !
Alle meine gespielten Games für meine QBRL*
sind in die CEGT-Blitz-Ratingliste integriert.

Viele Grüsse,
G.S.
Parent - - By Roland Rösler Date 2009-11-24 16:49
[quote="Gerhard Sonnabend"]
Mal nur ein Beispiel, speziell für Dich herausgesucht (alles aus "CEGT-Blitz"):

Code:

Shredder 12 x64 1CPU   ELO 3006 / 2400 Games / +- 12
Naum 4.0 x64 1CPU      ELO 2983 / 3140 Games / +- 10

jedoch

Naum 4.0 x64 4CPU      ELO 3124 / 2800 Games / +- 10
Shredder 12 x64 4CPU   ELO 3091 / 2000 Games / +- 12
[/quote]

Mal nur ein Beispiel, speziell für Dich herausgesucht (alles aus "CEGT-Blitz"):

Code:

Naum 4.0 x64 1CPU      ELO 2983 / 3140 Games / +- 10
Shredder 12 w32 1CPU   ELO 2967 / 2160 Games / +- 12

jedoch

Naum 4.0 x64 4CPU      ELO 3124 / 2800 Games / +- 10
Shredder 12 w32 4CPU   ELO 3098 /  800 Games / +- 19


Okay, Naum verbessert sich um +141 Elo, S12 "nur" um +131 Elo.
Jetzt behaupte doch mal, S12 w32 skaliert halt besser als die x64 Version!
Parent - By Gerhard Sonnabend Date 2009-11-24 19:09
[quote="Roland Rösler"]
Mal nur ein Beispiel, speziell für Dich herausgesucht (alles aus "CEGT-Blitz"):

Code:

Naum 4.0 x64 1CPU      ELO 2983 / 3140 Games / +- 10
Shredder 12 w32 1CPU   ELO 2967 / 2160 Games / +- 12

jedoch

Naum 4.0 x64 4CPU      ELO 3124 / 2800 Games / +- 10
Shredder 12 w32 4CPU   ELO 3098 /  800 Games / +- 19


Okay, Naum verbessert sich um +141 Elo, S12 "nur" um +131 Elo.
Jetzt behaupte doch mal, S12 w32 skaliert halt besser als die x64 Version!
[/quote]

Hi Roland !

Nein, bei Deinem Beispiel muss ich nur "behaupten", dass
Shredder 12 w32 4CPU erst am Anfang der Tests steht und
noch viel zu wenig Spiele absolviert hat.

Viele Grüsse,
G.S.
Parent - - By Wolfgang Battig Date 2009-11-24 11:56
[quote="Bert Rinzel"]
Hi Gerhard,

soweit ich weiß werden die CEGT Tests auf vielen unterschiedlichen Rechnern durchgeführt. Kann man das dennoch vergleichen, oder wie wird das ausgeglichen?

Bert
[/quote]

siehe meine Antwort an Frank.

Für die Blitz- und Turnierliste erfolgt keine Angleichung der Hardware, sondern nur bei 40/20.

Beim Blitz haben wir (Gerhard und ich) eh relativ gleichstarke Rechner:
Gerhards Quad 6600 hat 4x2,4 GHZ, meiner (Q8200) 4x2,33 GHZ. Ich habe noch einen Intel-Dual E5200 mit 2x2,5 GHZ sowie einen A64-3500+ (2,2 GHZ) im Einsatz, Gerhard glaube ich noch einen Laptop (A64-3700+, dürfte auch so um die 2,2-2,4 GHZ haben). Das tut sich alles nicht viel.

Für die 40/120-Liste:
Der Großteil der Partien beider Listen ist mit Heinz van Kempens diversen Quads erstellt worden (alle Q6600 mit 2,4 GHZ). Da er derzeit nicht aktiv ist, haben Jörn Gronemann und ich da ein wenig weitergemacht. Meine Hardware siehst Du oben, Jörn hat ebenfalls einen Quad wie Heinz im Einsatz. 
Parent - By Gerhard Sonnabend Date 2009-11-24 12:17
[quote="Wolfgang Battig"]
[quote="Bert Rinzel"]
Hi Gerhard,

soweit ich weiß werden die CEGT Tests auf vielen unterschiedlichen Rechnern durchgeführt. Kann man das dennoch vergleichen, oder wie wird das ausgeglichen?

Bert
[/quote]

siehe meine Antwort an Frank.

Für die Blitz- und Turnierliste erfolgt keine Angleichung der Hardware, sondern nur bei 40/20.

Beim Blitz haben wir (Gerhard und ich) eh relativ gleichstarke Rechner:
Gerhards Quad 6600 hat 4x2,4 GHZ, meiner (Q8200) 4x2,33 GHZ. Ich habe noch einen Intel-Dual E5200 mit 2x2,5 GHZ sowie einen A64-3500+ (2,2 GHZ) im Einsatz, Gerhard glaube ich noch einen Laptop (A64-3700+, dürfte auch so um die 2,2-2,4 GHZ haben). Das tut sich alles nicht viel.

Für die 40/120-Liste:
Der Großteil der Partien beider Listen ist mit Heinz van Kempens diversen Quads erstellt worden (alle Q6600 mit 2,4 GHZ). Da er derzeit nicht aktiv ist, haben Jörn Gronemann und ich da ein wenig weitergemacht. Meine Hardware siehst Du oben, Jörn hat ebenfalls einen Quad wie Heinz im Einsatz. 
[/quote]

Genau, ein Notebook mit AMD 3700+ (@2.4GHz).
Ab und zu verwende ich noch 2 baugleiche P4-2GHz, hier laufen dann 40/6+...

Viele Grüsse,
G.S.
Up Topic Hauptforen / CSS-Forum / QBRL* - Test mit Stockfish 1.5.1 x64 4CPU beendet

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill