Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Frage zu CEGT 40 / 120 Testbedingungen + Langzeittest
- - By Michael Huber Date 2010-07-01 11:23
Hallo zusammen,
ich habe mir zwar die Testbedingungen auf der CEGT Seite durchgelesen bin mir aber nicht ganz sicher ob ich die richtig interpretiere. Bezieht man sich dort für die 40 / 120 Rangliste auch auf den P4 (2 GHz) als Referenzprozessor? 

Ich interpretire die Angaben dort so:
Die Bedenkzeit wird entsprechend der höheren Rechengeschwindigkeit des verwendeten PCs im Vergleich zu einem P4 mit 2 GHz reduziert.

Also auf einem P4 mit 2 Ghz - 120 Minuten für 40 Züge
Auf einem Prozessor der 6 x so schnell wäre (zB. lt. Fritzmark) also 20 Minuten / 40 Züge

Ist das so richtig ?

Hintergrund:
ich möchte ein Turnier mit hohen Bedenkzeiten spielen und hätte mir gerne ausgerechnet um welchen Faktor die Bedenkzeit höher ist als unter den CEGT 40 / 120 Bedingungen.

z.B. 6 x so schnelle CPU bei 40 / 480 ergibt eine Verlängerung der Bedenkzeit im Vergleich zu den CEGT Testbedingungen um einen Faktor von 24.

Ab welchem Faktor würdet ihr da interessante Ergebnisse erwarten die eventuell zeigen könnten dass eine Engine bei längeren Bedenkzeiten stärker ist als bei kurzen?

Ich denke aus praktischen Gründen an einen Faktor von 10 - was sagt ihr dazu?
Für Vorscläge wäre ich dankbar.

Schönen Gruß

Michael
Parent - - By Frank Quisinsky Date 2010-07-01 15:18 Edited 2010-07-01 15:24
Hallo Michael,

ich denke, dass es ein unmögliches Unterfangen ist, dass mit Turnierbedenkzeiten festzustellen. Für ein solches Unterfangen müssen dann auch viele Gegner integriert werden. Mehrere Rechner sind notwendig, Turnier läuft länger als ein Jahr selbst bei 8 Quad Cores die laufen ... hatte ich kürzlich ausgerechnet ... um auf die notwendige Anzahl der Partien zu kommen.

Um jetzt festzustellen, ob eine Engine mit längeren Bedenkzeiten besser ist, wären wahrscheinlich Teststellungen interessant. Stellungen die bei kurzer Zeit nicht gelöst werden.
Der Test von Swami als Beispiel.

Diesen Test durchführen mit den normalen Testbedinungen. Stellungen herauspicken die nicht gelöst werden.
Und genau auf diese Stellungen dann mit dem von Dir vorgeschlagenen Faktor 10 ansetzen. Oder auch Faktor 2, 4, 8, 16 ... und vergleichen.

Das wäre eine Möglichkeit ...

Also interessante Ergebnisse erwarte ich bei längeren Bedenkzeiten eher nicht. Die Partien werden noch härter umkämpft, die Remisquoten werden weiter zunehmen, der Zügedurchschnitt wird weiter zunehmen. Vergleichst Du Blitz mit 40 in 10 siehst Du schon das die Remisquoten drastisch zunehmen. Die Qualität der Partien steigt, für uns wird zusehen aber wahrscheinlich nicht unbedingt interessanter.

Nun schaue ich auf Blitz Ergebnisse und 40 in 10 Ergebnisse. Bei Hiarcs fällt auf, dass die Engine im Blitz deutlich bessere Ergebnisse im Verhältnis zu anderen erreicht. Ob z. B. diese Kurve bei Hiarcs anhält oder eher abnimmt bleibt fraglich.

Faktor 10 ist gar nicht notwendig. Faktor 2 oder Faktor 4 sollte schon ausreichen. Eine Verdoppelung der Geschwindigkeit mach ca. 60 ELO aus. Nach meiner These wird es immer ein bissel weniger je schneller die Hardware wird. Nehmen jetzt alle Engines bei Faktor 2 um 60 ELO zu oder nicht, das wäre die interessante Frage bzw. welche Engines nehmen in einem geringeren Maße zu.

Die Engine mit gewisser Basisstärke, welche bei diesem Test weitere Lösungen aus Testsuits findet, wäre wahrscheinlich auch gut für Fernschach geeignet. Ich bin z. B. nicht der Meinung, dass Rybka in allen Partiephase für Fernschach geeignet ist. Gibt viele Engines die spielen nach der Buchphase deutlich besseres Schach. Da aber die Partien später entschieden werden (spätes Mittelspiel, frühes Endspiel) ist dann wieder Rybka angesagt, oder auch Stockfish etc..

In der Regel die Engines, die schon sehr schnell einen wirklich guten Zug finden. Diese sind dann so selelktiv, dass vermeidbar gute Züge auch oft überrechnet werden bzw. übersehen werden. So ganz nach der alten These ... mit doppelt so schneller Hardware oder Bedenkzeit werden auch die Fehler doppelt so schnell ersichtlich.

Bin zwar jetzt kein CEGT Tester aber ich denke dass es "nur" mit Teststellungen herauszufinden ist. Erst Recht wenn wir über Turnierbedenkzeiten reden.

Gruß
Frank
Parent - - By Michael Huber Date 2010-07-01 16:49
Hallo Frank,
danke für deine ausführliche Antwort

Du hast natürlich recht wenn du mich darauf hinweist, dass das ein uferloses unterfangen wäre wenn ich feststellen wollte welche die Beste aller Engines bei möglichst vielen verschiedenen Gegnern ist.

Ich möchte allerdings "nur" max. 10 Engines die ich (und meine Gegner) im Fernschach einsetzen bei langen Bedenkzeiten miteinander vergleichen. Damit wird die Geschichte etwas übersichtlicher. Der Aufwand ist aber trotzdem noch beträchtlich - da werden wohl ein paar Monate ins Land gehen bevor ich ein halbwegs brauchbares Ergebnis erhalte.

Vor allem bin ich gespannt ob Engines wie Shredder, Hiarcs oder Junior bei längeren Bedenkzeiten gegenüber den Platzhirschen zulegen können.

Wie stehst du zur Frage Ponder On / Off bei langen Bedenkzeiten. Energieverschwendung oder signifikanter Einfluss auf die Spielstärke?

LG, Michael
Parent - By Frank Quisinsky Date 2010-07-01 18:09
Hallo Michael,

dann hoffe ich das Du auch berichtest.
Diese Ergebnisse würden mich natürlich sehr interessieren.

Ponder:
Tja, bin eigentlich kein Fan von ponderlosen Partien ... spiele seit 10 Jahren nur Eng-Eng mit Ponder.
Angefangen mit einem Dual Pentium III 733Mhz.
Dann gab es viele Ponder Diskussionen in Foren.
Die Hardware war sehr teuer und viele wollten für einen Rechner auch nicht so viel Geld ausgeben.
Günstig war ein Celeron 433 Dual mit Abit Board ... haben sich seinerzeit auch viele zugelegt.

Heute kein Problem mehr!

Also ich glaube ich würde Ponder ausschalten
Bei einer so langen Bedenkzeit kannst Du einfach das doppelte testen wenn Ponder ausgeschaltet ist.
Die ca. 30% echten / brauchbaren Pondertreffer machen da auch nicht so viel aus.

Schätze mal das die Engines bei der Bedenkzeit z. B. 40 / 120 vielleicht noch 20 ELO besser mit Ponder spielen.
Nun gut ... in diesem Fall ... so ungerne ich das sage ... wohl wirklich Energieverschwendung.

Mein Vorschlag wäre es ...
Auf keinen Fall 5-Steiner ... würgst die Engines ab.
Siehe auf www.amateurschach.de (Bericht: Beeinflussungsfaktoren)

Würde dann spielen lassen:
40 in 120, 40 in 120, Rest in 20 oder 40 Minuten.
Also 80 Züge mit 40 in 120 und den Rest in 20 oder 40 Minuten.

Vorgabestellungen oder Buch ... meines Erachtens nicht wichtig.
Ponder = off

Würde ich 10 Engines dafür auswählen:

- Stockfish 1.7.1 JA
- Rybka 4 oder wenn Du ein Fan der vermuteten Clones bist ... eine von diesen Engines
- Naum 4.2
- Shredder 12
- Komodo 1.2
- Critter 0.70
- Hiarcs 13.1
- Junior 11.2
- Spark 0.5
- Zappa Mexico II

32-Bit würde ich interessanter finder, 64-Bit würde den Turnierdurchschnitt anheben ...
Deep Fritz 12 geht ja nicht, sonst müsste alles unter Fritz GUI laufen, die kannst Du aber nicht öfters starten ...
Also Shredder GUI ohne Fritz.

Kannst auch Fritz doppelt starten auf Quad Core aber dann Virtual Maschine oder so ...
Zu umständlich.

Bin mal gespannt was Du zusammenbringst und ob Du berichtest.
Viel Spass bei diesem Unterfangen ...

Gruß
Frank

PS: Junior legt zu, Shredder wird geringfügig zulegen, Hiarcs ... nicht sicher ... Prognose
Parent - - By Wolfgang Battig Date 2010-07-01 19:17
[quote="Michael Huber"]
Hallo zusammen,
ich habe mir zwar die Testbedingungen auf der CEGT Seite durchgelesen bin mir aber nicht ganz sicher ob ich die richtig interpretiere. Bezieht man sich dort für die 40 / 120 Rangliste auch auf den P4 (2 GHz) als Referenzprozessor? [/quote]

Hallo Michael,

nein, für die 40/120-Liste wird nicht auf einen Referenzprozessor angepasst. Allerdings hat Heinz damals eine Untergrenze festgesetzt, die beim A64-3500+ bzw. X2-4200+ lag.
Langsamere CPUs kommen für diese Liste nicht zum Einsatz. Die Bedenkzeit wird wie erwähnt nicht angepasst, sie beträgt PC-unabhängig 40/120' + 20/60' + Rest/30'

Der P4 mit 2GHZ ist ein Relikt aus den Anfangszeiten von CEGT (damals war er aktuell) und hat heute keinerlei Bedeutung mehr.

Zitat von: http://www.husvankempen.de/nunn/rating120.htm: "you find games with tournament time control on faster hardware (minimum AMD64 3500+ and AMD64 x2 4200+ real time control"

Gruß
Wolfgang
CEGT
Parent - By Werner Schüle Date 2010-07-01 19:36 Edited 2010-07-01 21:19
Hallo Michael,
vielleicht noch eine kleine Ergänzung:
In der replay-zone findest du auch noch matches, die Heinz mit 40/120 repeated gemacht hat und auch mit 40/400. Daraus lassen sich auch schon Vergleiche ableiten.
Es gab dazu von Heinz auch Auswertungen. Die waren z.B. im Rybkaforum zu finden:
http://rybkaforum.net/cgi-bin/rybkaforum/topic_show.pl?tid=3300
http://rybkaforum.net/cgi-bin/rybkaforum/topic_show.pl?tid=3063

Gruß
Werner
Parent - - By Michael Huber Date 2010-07-04 16:04
Hallo zusammen,
erst einmal möchte ich mich für Euren input, die vielen Tipps und Anregungen bedanken 

Und dann wollte ich noch kurz bescheid geben unter welchen Bedingungen ich meinen Testlauf letztendlich gestartet habe.

Testsystem:
Core 2 Duo E8500 3,8 GHz
4 GB RAM
Windows XP  64
Fritz 12 GUI

Testbedingungen:
Alle Engines rechnen auf nur 1 Core
Ponder=off
Hash 1 GB je Engine
3+4 Steiner Tabelbases
2+3+4 Steiner Totalbases

Bedenkzeit 40 / 400; 20 / 200; Rest / 100

Die ersten 15 Züge aus den powerbooks
(dabei habe ich mir erlaubt Eröffnungen die mich persönlich interessieren als Turnierzug zu markieren und damit deren ausspielen zu erzwingen. Dazu gehören Italienisch, Göring Gambit, Zweispringerspiel im Nachzug, KIA, Sizilianer mit frühem e5, modernes Benoni, Slavisch, angenommenes Damengambit, Grünfeldindisch.... D.h. viele Eröffnungen werden gar nicht die Chance haben aufs Brett zu kommen.)

Teilnehmer:

Deep Rybka 4 x64
Stockfish 1.8 JA x64
Fire 1.3.1 x64
Ivanhoe B63 Mod12c x64
Houdini 1.02 x64 1 CPU
Deep Junior 11.2
Hiarcs 13.1 SP
Shredder 12
Fritz 12
Zappa Mexico II x64
Spark 0.4 win64-mp
Rybka 3 dynamic x64
Naum 4.1 x64

Es sind relativ viele "verdächtige" Engines dabei, aber wie gesagt mir geht es hier hauptsächlich um Engines bei denen ich davon ausgehe, dass sie von meinen Gegnern im Fernschach eingesetzt, bzw. von mir eingesetzt werden.

Ich werde jetzt mal die einzelnen Engines im Spießrutenlauf (je 2 Partien pro Gegner, einmal Weiß einmal Schwarz) durchlaufen lassen. Mit der Zeit sollte ich ein paar Partien zusammen bringen - mal sehen ob dabei was rauskommt. Ergebnisse würde ich dann von Zeit zu Zeit posten. 1. Kandidat ist Deep Junior 11.2

Zum Abschluss habe ich noch eine Statistikfrage - nimmt mit zunehmender Bedenkzeit die Anzahl Partien ab die benötigt werden um eine Aussage zur Spielstärke treffen zu können? Rein gefühlsmäßig würde ich ja sagen, dass das Endergebnis bei kurzen Bedenkzeiten (40 / 1; 40 / 4) zufälliger ist als bei langen (40 / 120) - aber ich weiß ja, Gefühl ist in der Statistik meisten ganz falsch.

Noch einen schönen Tag,

Michael
Parent - By emilo reggio Date 2010-07-04 16:48
[quote="Michael Huber"]
...
Zum Abschluss habe ich noch eine Statistikfrage - nimmt mit zunehmender Bedenkzeit die Anzahl Partien ab die benötigt werden um eine Aussage zur Spielstärke treffen zu können? Rein gefühlsmäßig würde ich ja sagen, dass das Endergebnis bei kurzen Bedenkzeiten (40 / 1; 40 / 4) zufälliger ist als bei langen (40 / 120) - aber ich weiß ja, Gefühl ist in der Statistik meisten ganz falsch.

Noch einen schönen Tag,

Michael
[/quote]

nein, ganz falsch!

glaube ingo oder gerhard hat mal einen elo vergleich zwischen kurzen und längeren bedenkzeiten angestellt.

das ergebnis war nach meiner erinnerung: es ist vollkommen egal, es kommt das selbe dabei heraus!

deckt sich im übrigen mit meinen erfahrungen im menschenschach

emilo
Up Topic Hauptforen / CSS-Forum / Frage zu CEGT 40 / 120 Testbedingungen + Langzeittest

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill