Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / CEGT - 40/120-Liste wird eingestellt!
Poll Ich finde es wichtig, dass CEGT weiterhin eine Liste mit 40/120 führt (Closed)
ja 18 55%
nein 15 45%
- - By Wolfgang Battig Date 2010-08-01 00:30 Edited 2010-08-01 00:34
Hallo zusammen,

die Arbeit an unseren beiden 40/120-Listen wird - zumindest in der bisherigen Form - wieder eingestellt. Der Versuch die Listen mit den zur Verfügung stehenden Ressourcen nach Heinz van Kempens Ausstieg fortzuführen ist leider gescheitert. 

Gründe
- Es fehlt - insbesondere für die Quad-Liste - schlicht die nötigen Hardwarerepower, da alle verfügbaren Quads praktisch rund um die Uhr mit 40/20 bzw. Blitz beschäftigt sind. Zudem nutzen manche Tester ihre Maschinen auch noch für andere Dinge als Computerschach - unglaublich!

- Viele wichtige Engines (aktueller Stockfish, Komodo, Critter, Zappa Mexico II in der Quadliste usw.) fehlen ebenfalls, von neuen "Unter"-Versionen wie z.B. Naum 4.2 gar nicht zu reden.

- Eine auch nur halbwegs aussagekräftige Anzahl von Partien (300 - 500) kann auf diese Weise weder für wichtige "Nachzügler" (siehe voriger Punkt) noch für neue Engines/Versionen gewährleistet werden, zumindest nicht wenn 2 Listen mit 3 verschiedenen Hardwareleveln (1,2,4 CPU) zu führen sind. Es ist aber unser Anspruch, keine Engine(s) mit 50 oder 100 Partien "versauern" zu lassen.
Zur Info: Durchschnittlich bekommt man bei 40/120+20/60+30/Rest etwa 4 Partien pro Tag, ein 50-Partien-Match dauert also fast 2 Wochen!!

Wir bedauern diesen Entschluss, da 40/120 für die meisten von uns immer noch so etwas wie die "Königsdisziplin" ist und wir uns durch diese Liste(n) auch von anderen abgehoben haben, ähnlich wie z.B. die CCRL durch ihre FRC-Liste.

-----------------------------------------------------------

Als Lösung für dieses Dilemma und um Freunden langer Bedenkzeiten auch weiterhin etwas zu bieten könnte ich mir allerdings folgendes vorstellen:

- eine Liste
- 1 CPU
- 64bit oder 32bit (ersteres bevorzugt)

Natürlich ist das ein Kompromiss, der aber machbar ist. Die Beschränkung auf eine CPU ist für eine vernünftige Partienzahl notwendig und aus meiner Sicht auch kein Problem,
da sich die Unterschiede zwischen den Programmen nur in den seltensten Fällen maßgeblich (!) ändern, wenn mit 2 oder 4 CPU gespielt wird. Für die Analyse finde ich
es eh sinnvoller 4 Engines mit je 1 CPU zu nutzen als nur eine mit 4CPU!

Bevor ich damit anfange würde ich aber gerne wissen, ob überhaupt Interesse besteht und habe eine entsprechende Umfrage gestartet. Bitte zahlreich abstimmen

Gruß
Wolfgang Battig
CEGT - Team
Parent - By Frank Quisinsky Date 2010-08-01 00:49
WB:
Für die Analyse finde ich
es eh sinnvoller 4 Engines mit je 1 CPU zu nutzen als nur eine mit 4CPU!

FQ:
Absolut!
So analysiere ich GM Partien.
Je nach Partiephase dann die entsprechenden Engines laden und los gehts, macht richtig Spass.

Finde es ist die Zeit nicht wert Turnierbedingungen zu testen.
Hatte mich mit dem Thema ja vor ein paar Wochen beschäftigt. Wenn Ponder eingeschaltet ist, bräuchte ich bei 40 in 40 ca. 6 Quad Cores bei der Anzahl der Updates die kommen und eine gute Liste zu produzieren. Der Aufbau der Liste wird ferner ca. 6 Monate dauern. Selbst bei 40 in 40 kaum zu schaffen. Bin immer noch am Überlegen ob ich das mal mache aber mich hindert daran, dass mir beim Zusehen langweilig sein wird. Die Partien würden mir zu lange laufen. Aus dem Grund habe ich schon 40 in 20 nach 2.000 Partien im September 2009 wieder abgebrochen.

Auch überlege ich ob es Sinn macht eine Partie z. B. ab Zug Nummer 30 zu starten und bis Zugnummer 60 laufen zu lassen. Ein Test-Set fürs Mittelspiel, einer fürs Endspiel und daraus die ELOs berechnen. Dann müsste aber erstmal ein Test-Set kreiert werden. Wäre einfach per Random möglich, wie das Random-Buch. Dann mit längeren Bedenkzeiten ... aber was für ein Aufwand dahinter steckt.

Was gut wäre:
Ingo spielt mit der hälftigen Bedenkzeit die ich einsetze. Jetzt müsste noch eine Liste her die mit doppelter Bedenkzeit von mir testet.

Eine Partie läuft 15 Minuten (Ingo)
Bei mir 40 Minuten, würde ich mit Aufgabefaktor spielen wären es 30 Minuten (Frank).
und jetzt noch eine Liste mit Ponder und 60 Minuten pro Partie.

Das wäre interessant ...
Bzw. würde auch nur bekanntes bei rauskommen, denke ich mal.

Wenn die CEGT jetzt nach einer Idee sucht, bin ich mal gespannt.
Vielleicht eine neue Liste mit Ponder = On (Zusehen macht doch viel mehr Spass).

Spielt mit den gleichen Bedingungen die Ingo einsetzt oder ich einsetze und die Ergebnisse können in einen Topf geworfen werden. Wäre auch interessant ...

Keine Ahnung ...
Oder die ganze Kraft in die bestehenden CEGT Listen legen.

Aber, die 40 in 120 macht wirklich wenig Sinn hinsichtlich ... wie von Dir beschrieben ... etwas aussagekräftiges aufzubauen.
Müssten sich schon 20 Personen zusammenraufen um eine solche Liste zu powern.
Auf Dauer wird das sehr schwierig.

Wünsche das richtige Händchen und viel Spass beim Testen!

Gruß
Frank
Parent - - By Günther Höhne Date 2010-08-01 10:43
Hallo Wolfgang,

für mich sind die Ranglisten mit 40/4 und 40/20 völlig ausreichend. Bisher habe ich auch kaum einen Blick auf die 40/120 geworfen , weil es schlichtweg zu lange dauert, bis dort Ergebnisse neuer Motoren vorliegen.
Die Gründe dafür hattest Du ja bereits angesprochen und sind absolut nachvollziehbar. Wenn die nötige Hardwarerepower fehlt und die Quad Rechner schon mit anderen Ranglisten voll ausgelastet sind,
macht es kaum Sinn die 40/120 fortzuführen. 1-CPU Rangliste 64bit ist eine gute Idee, macht aber nur Sinn, wenn man diese Rangliste halbwegs aktuell halten kann.

Gruß
Günther
Parent - By Thorsten Eckhardt Date 2010-08-01 12:44
Hallo Wolfgang,

ich denke auch, die 40/120 Liste kann eingestellt werden. Ist ja klar, dass die Partien hier ewig dauern. Allerdings ist es natürlich auch interessant, was die Engines bei längerer Bedenkzeit so fabrizieren.
Mein Vorschlag als Denkanstoss: Anstelle 40/20 und 40/120 separat laufen zu lassen, eine neue Rangliste mit z.B. 40/40 oder 40/60. Die ganz alten Engines könnten meiner Meinung nach auch rausgeworfen werden.
Und nicht jede .x -Version in die Liste aufnehmen. Pro Engine z.B. nur alle max alle 6 Monate was neues testen. So spart ihr viel Zeit und natürlich auch Geld (was habt ihr eigentlich für Stromrechnungen?)

Viele Grüße
Thorsten
Parent - - By Kurt Utzinger Date 2010-08-01 14:47
[quote="Wolfgang Battig"]

[...]
Als Lösung für dieses Dilemma und um Freunden langer Bedenkzeiten auch weiterhin etwas zu bieten könnte ich mir allerdings folgendes vorstellen:

- eine Liste
- 1 CPU
- 64bit oder 32bit (ersteres bevorzugt)

[...]
[/quote]

... auf Bedenkzeit 120'/40 ??

Mfg
Kurt
Parent - - By Wolfgang Battig Date 2010-08-01 17:03
[quote="Kurt Utzinger"]
[quote="Wolfgang Battig"]

[...]
Als Lösung für dieses Dilemma und um Freunden langer Bedenkzeiten auch weiterhin etwas zu bieten könnte ich mir allerdings folgendes vorstellen:

- eine Liste
- 1 CPU
- 64bit oder 32bit (ersteres bevorzugt)

[...]
[/quote]

... auf Bedenkzeit 120'/40 ??

Mfg
Kurt
[/quote]

ja klar, darum geht es ja in diesem Thread...
Gruß
Wolfgang
Parent - - By Frank Quisinsky Date 2010-08-01 18:51
Hallo Wolfgang,

vergesse bei der Deutung der Umfrageergebnisse nicht den Umstand, dass es viele Partiesammler gibt (Erstellung von Eröffnungsbüchern).
Die würden sich mächtig ärgern wenn eine solche Quelle versiebt, ganz egal welche Engines bislang 40 in 120 bei der CEGT spielten.

Gruß
Frank
Parent - - By Wolfgang Battig Date 2010-08-01 20:23
[quote="Frank Quisinsky"]
Hallo Wolfgang,

vergesse bei der Deutung der Umfrageergebnisse nicht den Umstand, dass es viele Partiesammler gibt (Erstellung von Eröffnungsbüchern).
Die würden sich mächtig ärgern wenn eine solche Quelle versiebt, ganz egal welche Engines bislang 40 in 120 bei der CEGT spielten.

Gruß
Frank
[/quote]

Hi Frank,

ob die "Eröffnungsbucherstellungsfreaks" an den gespielten Varianten Freude haben wage ich mal zu bezweifeln, weil auch bei CEGT-40/120
mit Testsuites und allgemeinen (Kurz)büchern gespielt wurde/wird/würde. Mit 8-12zügigen Varianten gibt sich diese Klientel wohl eher nicht
zufrieden... Ok, die errechneten Züge sind hochwertig und vielleicht nutzbar.

Egal, wenn es - wovon ich ausgehe - bei diesem (sehr) knapp positiven Ergebnis bleibt, werde ich eine Fortführung der Liste mit 1CPU zumindest versuchen
und dann nach 6-8 Monaten entscheiden, ob es funktioniert hat und somit Sinn macht oder eben nicht. Bange machen gilt nicht und aufgeben kann man immer noch...

Habe jetzt bald eh erstmal Urlaub, vor Anfang September wird sich also nichts tun.

Als Basis dienen ca. 1300 Partien der folgenden Engines:


1 Rybka 1.2f x64                 : 2841   28  27   380    70.8 %   2687   41.1 %
2 Fritz 12                       : 2821   55  53    60    59.2 %   2757   61.7 %
3 Fritz 11                       : 2795   34  33   250    64.2 %   2694   41.2 %
4 Fruit 2.2.1                    : 2691   33  33   250    51.4 %   2681   41.2 %
5 Toga II 1.3.1                  : 2680   32  32   300    47.2 %   2700   33.7 %
6 Spike 1.2 Turin                : 2675   26  26   380    45.1 %   2709   44.5 %
7 Hiarcs 10                      : 2661   29  29   350    44.1 %   2701   38.6 %
8 Ktulu 8                        : 2618   30  30   350    37.4 %   2708   35.4 %
9 Chess Tiger 2007.1             : 2618   31  31   300    39.3 %   2693   38.0 %


Das sind nicht alle Partien 1CPU gegen 1CPU, da ich einige Engines gelöscht habe (Fritz 9+10, eine Fruit-Beta, ein Fruit-Setting, einen Toga und Hiarcs X50).

Wie man sieht fehlt außer Fritz 12 so ziemlich jede aktuelle Engine und F12 hat auch nur 60 games bisher, also reichlich Arbeit...

Wichtig zu erwähnen: Meine Arbeit an unserer Blitzliste wird darunter nicht leiden und bei 40/20 bin ich eh nur sporadisch aktiv!

Gruß
Wolfgang
Parent - By Frank Quisinsky Date 2010-08-01 20:46
Hallo Wolfgang,

zeigt auf, dass es schwierig ist eine solche Liste zu spielen.

Mal rechnen, jetzt mal ohne Ponder ...

die 8.400 Partien der SWCR-32 oder der SWCR-64, jeder gegen jeden 40 Partien bei 21 Engines.
Wie lange würde es dauern diese Partiezahl bei 40 in 120 ohne Ponder zu generieren?

Ausgehend von meinen 4 Quad-Core Systemen ...

Könnte 16 Matches gleichzeitig laufen lassen ...

Mit Aufgabefaktor = Partiedurschnitt 68 Züge, ohne 85 ... mal mit Aufgabefaktor.

Eine Partie läuft ca. 400 Minuten = 3.5 Partien pro Tag x 16 = 56 Partien pro Tag.
Wie gesagt ohne Ponder, 1 Core und mit Aufgabefaktor.

150 Tage würde es dauern eine solche Liste zu generieren !!
5 Monate bei 4x Quad Core.

Durschnittlich kommen pro Monat von den TOP-21 4 neue Versionen.
4 x 5 = 20 neue Versionen in 5 Monaten.

Das würde bedeuten, die Liste läuft 5 Monate, danach kann die gleiche Liste im Grunde erneut gespielt werden, weil ca. 13-15 Programme mindestens 1x upgedatet wurden.

Hm, eigentlich schade ponderlose 40 in 120 Partien.
Mit Ponder dann 10 Monate ...

Tja ...
Dann sollten ca. 6-8 Quad Cores her damit die Liste irgendwie spannend gestaltet werden kann, zumindest für die die zusehen.
Für die, die ausführen wirds langweilig.

Wie gesagt, halte 40 in 60 (maximal) für ausreichend, ausgehend von einem Core und einer Testmethode (w32 oder x64, beides wenn x64 nicht vorhanden ist).

Dir einen schönen Urlaub !!

Frank

Dann sollen mal alle die nach solchen Listen schreihen zum Händler laufen, sich einen Quad Core kaufen und mithelfen.
Dann geht es vielleicht.
Parent - - By Ingo Bauer Date 2010-08-02 07:05
Hallo Wolfgang,

Das ich jetzt 'meckern' will weil ich grundsätzlich den Wert einer Rangliste (nicht der Partien) die auf so langen Spielen beruht anzweifle kann man sich schon denken. Ich will allerdings den Advocatus Diaboli spielen und ein Argumente verwenden das ich schon mehrfach von CEGT Mitglieder gehört habe.

Mehr Rechenpower ist nur Bedenkzeitverlängerung!

Aus dem obengenannten Grunde verzichtet ihr auf Ponder on, aus dem selben Grund passt Ihr auch Bedenkzeiten für verschiedene Hardware an.
Wenn du nun eine 40/120 Liste mit 1 Core spielst, liefert das, bei einem 'über den Daumen' angenommenen Faktor von 3 so wie bisherige 40/40 bei 4 Kernen. Wenn du dann obendrein noch eure Hardwareanpassung aufgrund des Benchmarks durchführst kommst du womöglich noch näher an eure bisherige 40/20 herran. Jetzt sielt Ihr eure 40/20 aber teilweise mit 4 Kernen. Theoretisch müßten also in der 40/20 Liste die 4 Kern Spiele fast  gleichwertig, wenn nicht sogar tatsächlich gleichwertig sein.

Solltet Ihr also mit obigem Argument Recht haben, frage ich mich also nicht nur aus dem Grund das die Listen sich gleichen, sondern auch weil ihr 'gleiches' mit der 4Kern 40/20 Liste produziert, ob eine 40/120 Liste mit einem Kern wirklich Sinn macht!?

Natürlich ist der Faktor "Spaß" in obiger Betrachtung nicht eineschlossen

Gruß
Ingo
Parent - - By Wolfgang Battig Date 2010-08-02 10:31
[quote="Ingo Bauer"]
Hallo Wolfgang,

Das ich jetzt 'meckern' will weil ich grundsätzlich den Wert einer Rangliste (nicht der Partien) die auf so langen Spielen beruht anzweifle kann man sich schon denken. Ich will allerdings den Advocatus Diaboli spielen und ein Argumente verwenden das ich schon mehrfach von CEGT Mitglieder gehört habe.

Mehr Rechenpower ist nur Bedenkzeitverlängerung!

Aus dem obengenannten Grunde verzichtet ihr auf Ponder on, aus dem selben Grund passt Ihr auch Bedenkzeiten für verschiedene Hardware an.
Wenn du nun eine 40/120 Liste mit 1 Core spielst, liefert das, bei einem 'über den Daumen' angenommenen Faktor von 3 so wie bisherige 40/40 bei 4 Kernen. Wenn du dann obendrein noch eure Hardwareanpassung aufgrund des Benchmarks durchführst kommst du womöglich noch näher an eure bisherige 40/20 herran. Jetzt sielt Ihr eure 40/20 aber teilweise mit 4 Kernen. Theoretisch müßten also in der 40/20 Liste die 4 Kern Spiele fast  gleichwertig, wenn nicht sogar tatsächlich gleichwertig sein.

Solltet Ihr also mit obigem Argument Recht haben, frage ich mich also nicht nur aus dem Grund das die Listen sich gleichen, sondern auch weil ihr 'gleiches' mit der 4Kern 40/20 Liste produziert, ob eine 40/120 Liste mit einem Kern wirklich Sinn macht!?

Natürlich ist der Faktor "Spaß" in obiger Betrachtung nicht eineschlossen

Gruß
Ingo
[/quote]

Hi Ingo,

nur kurz (?! ) ein paar Fakten, die ich nicht erwähnt hatte:

- wenn ich Heinz beim Start "seiner" Listen richtig verstanden hatte, ging es ihm in erster Linie um hochwertige Partien und dann erst um die Liste an sich. Eine "vollständige" Liste geht mit dieser Bedenkzeit eh nicht, es sei denn man ist mit 50 Partien/Engine zufrieden... Da kann man eben nicht Stockfish 1.4, 1.5, 1.6, 1.62, 1.63, 1.71, 1.8 testen (übertragbar auf viele andere Engines), sondern muss selektieren.

- es gab bei 40/120 bisher keine Anpassung und wird es auch nicht geben! Die allermeisten Partien, schätze mal "95% + x " wurden auf gleichwertiger Hardware (+/- 10%) gespielt. Heinz hatte 4 Quads Q6600 mit 2,4 GHZ, meine Rechner haben 2,33 - 2,6 GHZ. In absehbarer Zeit wird es bei mir keine neue Hardware geben, höchstens Ergänzung um einen (billigen) Quad, der dann vermutlich aber auch in diesem GHZ-Klasse liegen wird

- Der Vergleich zu unserer 40/20-Liste hinkt insofern, dass dort ja angepasst wird. Ich spiele z.B. auf meinen PCs (s.o.) mit 40/12. Also wäre 40/120 schonmal eine Verzehnfachung (bei beiderseits 1CPU) bzw. etwa das 3-fache wenn ich mit 4CPU bei 40/"20" vergleiche. Auch natürlich alles "über den Daumen"....


Gruß
Wolfgang
Parent - - By Ingo Bauer Date 2010-08-02 17:18
Moin Wolfgang,
[quote="Wolfgang Battig"]
..

- Der Vergleich zu unserer 40/20-Liste hinkt insofern, dass dort ja angepasst wird. Ich spiele z.B. auf meinen PCs (s.o.) mit 40/12. Also wäre 40/120 schonmal eine Verzehnfachung (bei beiderseits 1CPU) bzw. etwa das 3-fache wenn ich mit 4CPU bei 40/"20" vergleiche. Auch natürlich alles "über den Daumen"....


[/quote]

OK, sagen wir mal 3 fach.

Die Frage sie du dann positiv beantworten mußt ist, ob entweder eine ordentliche Liste dabei raus kommt oder dieser Faktor qualitativ sichtbar bessere Partien garantiert ...

Ich wüßrt wie ich das beantworte

Gruß
Ingo
Parent - By Harald Faber Date 2010-08-03 08:51
Ich auch.    Und vermutlich anders als Du. 
Parent - - By Christina Nussbaum Date 2010-08-01 20:05
Hallo Wolfgang!
[quote="Wolfgang Battig"]
- Eine auch nur halbwegs aussagekräftige Anzahl von Partien (300 - 500) kann auf diese Weise weder für wichtige "Nachzügler" (siehe voriger Punkt) noch für neue Engines/Versionen gewährleistet werden, zumindest nicht wenn 2 Listen mit 3 verschiedenen Hardwareleveln (1,2,4 CPU) zu führen sind. Es ist aber unser Anspruch, keine Engine(s) mit 50 oder 100 Partien "versauern" zu lassen.
Zur Info: Durchschnittlich bekommt man bei 40/120+20/60+30/Rest etwa 4 Partien pro Tag, ein 50-Partien-Match dauert also fast 2 Wochen!!
[/quote]
Sehe ich das richtig, dass die Qualität der Quantität geopfert wird?

Viele schachliche Grüße,
Tina
Parent - - By Benno Hartwig Date 2010-08-02 08:07
[quote="Christina Nussbaum"]Sehe ich das richtig, dass die Qualität der Quantität geopfert wird?[/quote]Eine Liste, die aus weniger Partien (größere Fehler bei der Stärkeabschätzung)  oder mit weniger Engines ("Da fehlen ja die wichtigsten") gebildet wird, hat auch weniger Qualität.
Benno
Parent - - By Christina Nussbaum Date 2010-08-02 10:15
Hallo Benno!
Die Liste soll doch nicht aus weniger Partien bestehen! Vielleicht nicht aus tausend pro Programm, 200-500 reichen auf jeden Fall. Die wichtigsten Engines ist immer so eine Sache, da muss man auch Kompromisse machen. Top-Ten auf jeden Fall, wenn nicht sogar rauf bis zur Top-20. Damit kriegt die Liste genug Qualität und Quantität.

Viele schachliche Grüße,
Tina
Parent - - By Benno Hartwig Date 2010-08-02 22:14
Klar, auch 200 bis 500 Partien zeichnen ein Bild, aus welchem sich meist schon gut was erkennen lässt. (und machen bei langen Zeiten einen entsprechend größeren Aufwand. Der für 500 40/120- Partien ermöglicht halt ca. 3000 40/20-Partien  und vielleicht 15000 40/4-Partien)
Es kommt darauf an, wieviel Rechenpower man einsetzen kann und möchte. Und wofür.
Und man muss auch die Fehleranfälligkeit im Auge behalten.
Z.B. bei 200 Partien zwischen zwei eigentlich gleichstarken Engines wirst du in mehr als jedem 10ten Fall(!) eine Spielstäkedifferenz von immerhin mindestens 35 ELO ermitteln.
Benno
Parent - - By ernst happe Date 2010-08-02 23:47
[quote="Benno Hartwig"]
...
Z.B. bei 200 Partien zwischen zwei eigentlich gleichstarken Engines wirst du in mehr als jedem 10ten Fall(!) eine Spielstäkedifferenz von immerhin mindestens 35 ELO ermitteln.
Benno
[/quote]
hi benno,

mit welcher formel hast du das denn ausgerechnet?

rechne das doch bitte mal vor!

ernst
Parent - - By Benno Hartwig Date 2010-08-03 11:52
[quote="ernst happe"]mit welcher formel hast du das denn ausgerechnet?
rechne das doch bitte mal vor![/quote]Das ist leicht.
Zwei Engines A und B, gerechnet wird aus Sicht z.B. von A:
P(g) = Gewinnwahrscheinlichkeit von A
P(r) = Wahrscheinlichkeit für Remis.
P(v) = 1-P(g)-P(r) = Wahrscheinlichkeit für Verlust von A
Für meine Berechnung nahm ich an P(r)=0,4 und damit P(g)=0,3, könnte natürlich auch andere Remiswahrscheinlichkeiten oder Überlegenheit einstellen, mache ich auch manchmal.
W(x,a) sei die Wahrscheinlichkeit, in a Spielen genau x Punkte zu erreichen, dann gilt:
W(0,0)=1
W(x,0)=0 für x!=0
W(x,a)=W(x,a-1)*P(v)+W(x-0,5,a-1)*P(r)+W(x-1,a-1)*P(g)

Am Ende summiert das Script die Wahrscheinlichkeiten so auf, wie es einen interessiert.

Und so kommt z.B. heraus, dass bei 200 Spielen gleichstarker Engiens mit 40% Remiswahrscheinlichkeit die Wahrscheinlichkeit dafür, dass irgendeine der Engines höchstens 91,0 Punkte (also 45,5%) bekommt, recht genau 0,11 ist. Das ist dann ziemlich genau eine ELO-Differenz von 35 ELO.
"Das macht nichts, wenn man so häufig in mindestens diesem Ausmaß daneben liegt!" ist eine Aussage, die man bei so wenig Spielen schon akzeptieren sollte.

Benno
Parent - - By Benno Hartwig Date 2010-08-03 12:16 Edited 2010-08-03 12:18
W(x,a)=W(x,a-1)*P(v)+W(x-0.5,a-1)*P(r)+W(x-1,a-1)*P(g)
(Ein Dezimalpunkt bei 0.5 war hier halt notwendig, kein Komma, Sorry)

In Worten:
ich habe nach a Spielen genau x Punkte, wenn ich
- vor dem letzten Spiel schon genau x Punkte hatte, nun aber verlor, oder
- vor dem letzten Spiel schon genau x-0.5  Punkte hatte, nun aber Remis spielte, oder
- vor dem letzten Spiel schon genau x-1 Punkte hatte, nun aber gewann.

Eine rein rekursive Implemetierung, wie sie obenstehende Formeln nahelegen, wird bei größeren Turnieren den Rechner überordern (z.B. 3^1000 beeindruckt schon).
Wenn du aber erst mal alle W(x,1), dann W(x,2), dann W(x,3) usw berechnest und dich dabei immer auf die bereits berechnete Stufe beziehst, geht es immer ratzfatz.

Benno
Parent - By Frank Quisinsky Date 2010-08-03 12:55
1+
Super Beitrag!
Muss ich mir anschauen!
Parent - - By Ernest Bonnem Date 2010-08-03 19:51
[quote="Benno Hartwig"]
Und so kommt z.B. heraus, dass bei 200 Spielen gleichstarker Engiens mit 40% Remiswahrscheinlichkeit die Wahrscheinlichkeit dafür, dass irgendeine der Engines höchstens 91,0 Punkte (also 45,5%) bekommt, recht genau 0,11 ist. Das ist dann ziemlich genau eine ELO-Differenz von 35 ELO.[/quote]
Hallo Benno,
1. Ist 45,5% nicht (50 -45,5) x 7 = 31,5 Elo (also nicht ganz 35 Elo) ?
2. Dein Script ist natürlich völlig korrekt.
Ich benütze eine Approximation, mit Gauss Kürve:
Standard Deviation SD ist  Sqrt (200 x 60% /4) = 5,48
"höchstens 91,0 Punkte" ist : bis 91,25 Punkte (interpoliert zwischen 91 und 91,5), also 8,75 / 5,48 = 1,6 mal SD
...und mit der Gauss Wahrscheinlichkeit Tafel sieht man, daß "1,6 mal SD" eine Wahrscheinlichkeit von 89% gibt, oder 11% (0,11) daß irgendeine der Engines höchstens 91,25 Punkte (also 91 Punkte!  ) : das selbe Resultat wie Du.
Parent - - By Benno Hartwig Date 2010-08-03 20:34
[quote="Ernest Bonnem"]1. Ist 45,5% nicht (50 -45,5) x 7 = 31,5 Elo (also nicht ganz 35 Elo) ?[/quote]
Hallo Ernest,
91 Punkte aus 200 Spielen bedeutet 91:109 oder eben 45,5%:54,5%

Ich fand nun auf
http://www.schach-computer.info/wiki/index.php/Elo
die Zeilen
Code:
    Differenz  (+)   (-)   10er Match Ergebnis
    26 -  32  0,54  0,46
    33 -  39  0,55  0,45  -->  ~35 = 5,5 : 4,5

Da hatte ich wirklich nicht genau genug hingeguckt. Bei genauerer Betrachten dieser Tabelle würde ich nun schätzen 32,5 ELO Differenz.
Aber es mag sein, dass deine 31,5 ELO noch besser treffen. So richtig kenne ich diese ELO-Rechnerei nicht.

Benno
Parent - - By Gerhard Sonnabend Date 2010-08-03 20:55 Edited 2010-08-03 20:58
Hi Benno !

Lt. ELO-Stat von Dr. Frank Schubert bedeutet ein Ergebnis von 91-109:
Code:

Result     : 91.0/200 (+91,=0,-109)
Perf.      : 45.5 %
Margins    :
68 %      : (+  3.5,-  3.5 %) -> [ 42.0, 49.0 %]
95 %      : (+  7.0,-  6.8 %) -> [ 38.7, 52.5 %]
99.7 %    : (+ 10.6,- 10.3 %) -> [ 35.2, 56.1 %]

Elo        : 2669
Margins    :
68 %      : (+ 25,- 25) -> [2644,2693]
95 %      : (+ 49,- 49) -> [2620,2717]
99.7 %    : (+ 74,- 75) -> [2594,2743]

Die Anzahl an Remisen ändert an der Differenz (-31) übrigens nichts, siehe:
Code:

Result     : 91.0/200 (+0,=182,-18)
Perf.      : 45.5 %
Margins    :
68 %      : (+  0.9,-  1.1 %) -> [ 44.4, 46.4 %]
95 %      : (+  1.7,-  2.3 %) -> [ 43.2, 47.2 %]
99.7 %    : (+  2.5,-  3.8 %) -> [ 41.7, 48.0 %]

Elo        : 2669
Margins    :
68 %      : (+  6,-  8) -> [2661,2675]
95 %      : (+ 12,- 16) -> [2652,2681]
99.7 %    : (+ 17,- 27) -> [2642,2686]


"Lediglich" die Margins werden enger je höher die Anzahl an Remisen wird.

Vergleichswert war 2700.

Viele Grüsse,
G.S.
Parent - - By Ernest Bonnem Date 2010-08-03 21:50
[quote="Gerhard Sonnabend"]
Code:
...
Elo        : 2669

...
Vergleichswert war 2700.
[/quote]
Also, wie Du sagst: Differenz (-31) 
Parent - By Gerhard Sonnabend Date 2010-08-03 22:46
[quote="Ernest Bonnem"]
[quote="Gerhard Sonnabend"]
Code:
...
Elo        : 2669

...
Vergleichswert war 2700.
[/quote]
Also, wie Du sagst: Differenz (-31) 
[/quote]

Genau Ernest, dies hatte ich geschrieben:
"...Die Anzahl an Remisen ändert an der Differenz (-31) übrigens nichts, siehe:..."

Viele Grüsse,
G.S.
Parent - - By ernst happe Date 2010-08-03 20:56
o.k.,

bis hierher reine theorie. aber wie sieht das praktisch aus mit
einem wettkampf zwischen r4 - r4 mit geichen einstellungen und 200 partien?
wo muss dann geschummelt werden, damit das ergebnis passt?

ernst
Parent - - By Benno Hartwig Date 2010-08-03 22:45
[quote="ernst happe"]bis hierher reine theorie. aber wie sieht das praktisch aus mit
einem wettkampf zwischen r4 - r4 mit geichen einstellungen und 200 partien?
wo muss dann geschummelt werden, damit das ergebnis passt?[/quote]Ganz prakisch wird es so aussehen, dass du, wenn du tatsächlich eine große Menge von 200-Partien-Testreihen mit R4-R4 machst, dann in ungefähr 11% dieser Testreien eine der beiden R4 agewinnen siehst mit mindestens 109:91. (mögen das nun 31 oder 31,5 oder 32,5 ELO Differenz sein. Mein 35 ELO stimmte nicht ganz, sorry)
Wenn jemand mit verschiedenen Engines einige derartige Testreihen macht, wird er diverse Läufe mit erheblichem Fehler dazwischen haben.
Ganz praktisch und real.

Oder anders gesagt. Die Wahrscheinlichkeit dafür, dass dir dein 200-Partien-Test bei gleichstarken Engines wenigstens eine Stärkedifferenz meldet, die zwischen 0 und 30 ELO liegt, also wenigstens so gaaanz grob Stärkegleichheit erkennt, ist nur 89%.
Diese relative geringe Verlässlichkeit für eine andererseits doch eigentlich recht ungenaue Aussage wird vielen nicht reichen.
Aber jeder gern wie er mag.
Wenigstens sollte man aber wissen, mit welchen Ungenauigkeiten, mit welchen recht großen Wahrscheinlichkeiten für auch ziemlich große Fehler man sich bei nur 200 Partien arrangiert.

Benno
Parent - - By ernst happe Date 2010-08-04 10:53
hi benno,

mit statistiken ist das so eine sache. ich bevorzuge lieber harte fakten, die dann auch
statistisch ausgewertet werden dürfen. dann kann man sehen ob man der statistik
glauben darf. da bin ich ein wenig skeptisch. vieleicht findet sich jemand dazu bereit
so eine testreihe zu fahren?

ernst
Parent - By Benno Hartwig Date 2010-08-04 13:05
[quote="ernst happe"]mit statistiken ist das so eine sache. ich bevorzuge lieber harte fakten, die dann auch
statistisch ausgewertet werden dürfen.[/quote]
Allerdings ist es hier einfach mit der 'Statistik', besser: der Wahrscheinlichkeitsrechnung.

Du bekommst bei Tests ein Ergebnis, eine Stärkeschätzung, und du weißt zunächst überhaupt nicht, wie dicht sie an der Realität liegt.
Und die Wahrscheinlichkeiten, mit denen Fehler diverser Größen auftreten, lassen sich aber gut und einfach berechnen. Und ich finde: man sollte das dann auch tun.
Ich würde davor nicht die Augen schließen wollen.

Bei Herumspielereien mit den Stockfish-Sourcen ließ ich häufiger als ersten Test 148-Partien-Reihen absolvieren.
Und da purzelt der Zufall häufg drastisch und sehr irreführend dazwischen.

200 Partien gestatten meiner Meinung nach einen ersten Eindruck.
Und man muss wissen, dass dieser mit noch recht großer Wahrscheinlichkeit ziemlich falsch sein kann.

Benno
Parent - - By Benno Hartwig Date 2010-08-04 18:58
[quote="Ernest Bonnem"]1. Ist 45,5% nicht (50 -45,5) x 7 = 31,5 Elo (also nicht ganz 35 Elo) ?[/quote]Diese einfache Formel kennen ich nicht, aber praktisch ist sie ja.
Was liefert sie eigentlich? Einen ungefähren Schätzwert für die erspielte ELO-Differenz oder einen genauen? (Dann könnte ich mir ja den Blick in die Tabellen sparen)
Benno
Parent - By Ernest Bonnem Date 2010-08-04 21:02
Die Elo Tafel (offiziell) ist da unten.
In der Nähe 50% sieht man, daß jeder Prozent in Resultat, 7 Elo in Elo-Differenz gibt.

Code:
Resul EloDiff
0,50  0
0,51  7
0,52  14
0,53  21
0,54  29
0,55  36
0,56  43
0,57  50
0,58  57
0,59  65
0,60  72
0,61  80
0,62  87
0,63  95
0,64  102
0,65  110
0,66  117
0,67  125
0,68  133
0,69  141
0,70  149
0,71  158
0,72  166
0,73  175
0,74  184
0,75  193
0,76  202
0,77  211
0,78  220
0,79  230
0,80  240
0,81  251
0,82  262
0,83  273
0,84  284
0,85  296
0,86  309
0,87  322
0,88  335
0,89  351
0,90  366
0,91  383
0,92  401
0,93  422
0,94  444
0,95  470
0,96  501
0,97  538
0,98  589
0,99  677
Parent - - By Harald Faber Date 2010-08-03 09:26
[quote="Wolfgang Battig"]
Hallo zusammen,

die Arbeit an unseren beiden 40/120-Listen wird - zumindest in der bisherigen Form - wieder eingestellt. Der Versuch die Listen mit den zur Verfügung stehenden Ressourcen nach Heinz van Kempens Ausstieg fortzuführen ist leider gescheitert. 

Gründe
- Es fehlt - insbesondere für die Quad-Liste - schlicht die nötigen Hardwarerepower, da alle verfügbaren Quads praktisch rund um die Uhr mit 40/20 bzw. Blitz beschäftigt sind. Zudem nutzen manche Tester ihre Maschinen auch noch für andere Dinge als Computerschach - unglaublich!

- Eine auch nur halbwegs aussagekräftige Anzahl von Partien (300 - 500) kann auf diese Weise weder für wichtige "Nachzügler" (siehe voriger Punkt) noch für neue Engines/Versionen gewährleistet werden, zumindest nicht wenn 2 Listen mit 3 verschiedenen Hardwareleveln (1,2,4 CPU) zu führen sind. Es ist aber unser Anspruch, keine Engine(s) mit 50 oder 100 Partien "versauern" zu lassen.
Zur Info: Durchschnittlich bekommt man bei 40/120+20/60+30/Rest etwa 4 Partien pro Tag, ein 50-Partien-Match dauert also fast 2 Wochen!!

Wir bedauern diesen Entschluss, da 40/120 für die meisten von uns immer noch so etwas wie die "Königsdisziplin" ist und wir uns durch diese Liste(n) auch von anderen abgehoben haben, ähnlich wie z.B. die CCRL durch ihre FRC-Liste.

-----------------------------------------------------------
Gruß
Wolfgang Battig
CEGT - Team
[/quote]
Hallo Wolfgang,
ich würde evtl. einspringen, doch scheitert es an zweierlei:
1. Der eine Quadcore, den ich habe, läuft aus bekannten Gründen mit Junior im Dauereinsatz. Mir fehlt also einfach ein weiterer Quad. Allerdings müsste der eine dann tatsächlich reichen. Das bedeutet, entweder mit jeweils 2 Cores pro Engine und permanent brain, oder 4 Cores und ohne permanent brain. Oder sogar zwei Matches gleichzeitig mit jeweils 1 Core pro Engine und permanent brain. Aber 1 Core interessiert nicht mal mehr mich selbst angesichts der Verbreitung von Mehrkern-Systemen. Schaun mer mal. Die Abschreibung meines letzten Rechners ist um, ich kann mir dieses Jahr also einen neuen holen, den ich dann wieder von der Steuer absetzen kann.
2. Ich glaube ich hatte mal ein paar Probleme mit den Testbedingungen bzgl. Vorgabestellungen oder Eröffnungsbücher. Wenn jetzt nicht mehr mit irgendeinem 5moves oder so gespielt wird, sondern ausgewogeneren, die etwas weiter gehen (HS-Buch, Perfect-Bücher usw.), wäre das vom Tisch.
Gruß,
Harald
Parent - - By Wolfgang Battig Date 2010-08-03 13:07
[quote="Harald Faber"]
...
Hallo Wolfgang,
ich würde evtl. einspringen, doch scheitert es an zweierlei:
1. Der eine Quadcore, den ich habe, läuft aus bekannten Gründen mit Junior im Dauereinsatz. Mir fehlt also einfach ein weiterer Quad. Allerdings müsste der eine dann tatsächlich reichen. Das bedeutet, entweder mit jeweils 2 Cores pro Engine und permanent brain, oder 4 Cores und ohne permanent brain. Oder sogar zwei Matches gleichzeitig mit jeweils 1 Core pro Engine und permanent brain. Aber 1 Core interessiert nicht mal mehr mich selbst angesichts der Verbreitung von Mehrkern-Systemen. Schaun mer mal. Die Abschreibung meines letzten Rechners ist um, ich kann mir dieses Jahr also einen neuen holen, den ich dann wieder von der Steuer absetzen kann.
2. Ich glaube ich hatte mal ein paar Probleme mit den Testbedingungen bzgl. Vorgabestellungen oder Eröffnungsbücher. Wenn jetzt nicht mehr mit irgendeinem 5moves oder so gespielt wird, sondern ausgewogeneren, die etwas weiter gehen (HS-Buch, Perfect-Bücher usw.), wäre das vom Tisch.
Gruß,
Harald
[/quote]

Hallo Harald,

zu Punkt 1 (CPU): 1 CPU (PB=off) ist ein Kompromiss, keine Frage! Da meine Hardwarepower (1xQuad, 2xDual, 1xSingle) bei dieser Bedenkzeit für die Weiterführung der MP-Listen nicht reicht, man eine Liste aber zumindest halbwegs aktuell halten sollte, kommt für mich nur diese Kombi in Frage. Zudem soll es ja nicht nur aktuell sein, sondern auch eine vernünftige Partienzahl vorliegen. 300 wäre OK, 500 wünschenswert, 1000 optimal aber Wunschdenken... (ok, außer mit 4 Quads wie bei Heinz seinerzeit)

zu Punkt 2 (Bücher/Vorgaben): Ich nutze zumeist Vorgabstellungen (z.B. von Noomen oder Sedat oder, oder, oder), die zumeist 6-15 volle Züge lang sind. HS-Bücher, die ja teilweise deutlich tiefer gehen begrenze ich normalerweise auf 12 volle Züge.

Was wir bei CEGT nicht wollen sind:
- eigene Bücher
- ellenlange Eröffnungsvarianten wo nach Buchende schon auf die TB zugegriffen wird...
- PB=ON

Gruß
Wolfgang
Parent - By Harald Faber Date 2010-08-03 13:59
[quote="Wolfgang Battig"]
zu Punkt 2 (Bücher/Vorgaben): Ich nutze zumeist Vorgabstellungen (z.B. von Noomen oder Sedat oder, oder, oder), die zumeist 6-15 volle Züge lang sind. HS-Bücher, die ja teilweise deutlich tiefer gehen begrenze ich normalerweise auf 12 volle Züge.

Was wir bei CEGT nicht wollen sind:
- eigene Bücher
- ellenlange Eröffnungsvarianten wo nach Buchende schon auf die TB zugegriffen wird...
- PB=ON

Gruß
Wolfgang
[/quote]
Hallo Wolfgang,
Auf 1. bestehe ich nicht unbedingt, obwohl ich persönlich deren Einsatz befürworte.
Punkt 3: Nur wenn die Resourcen nicht ausreichen. Ansonsten erscheint mir noch immer sinnvoller, auf einem Quad mit 2 Cores je Engine und pb zu spielen statt mit 4 Cores und pb aus.
Und Punkt 2: Klar, das geht zu weit, doch die Grenze ist schwer zu ziehen. Soll man nur wegen einer Fixierung Engines in wilden, unüberschaubaren Stellungen alleine rechnen und ins Verderben laufen lassen? Welchen Wert haben solche Ergebnisse? Deshalb bin ich gegen Beschränkungen. Oder vielleicht bis Zug 20.
Auf jeden Fall sehe ich genug Diskrepanzen, um gar nicht erst in Verlegenheit zu kommen, dabei mitzumachen. Teste ich halt auf meine Art weiter. Und vermutlich gegen Ende des Jahres mit zwei Rechnern.
Gruß,
Harald
Parent - - By Wolfgang Battig Date 2010-08-06 16:04
Hallo zusammen,

habe die Umfrage nun beendet und mich entschlossen die 40/120-Liste unter den folgenden Bedingungen fortzuführen:

- 1CPU
- 64bit wenn vorhanden, sonst natürlich w32 aber keinesfalls beides
- 40/120 + 20/60 + Rest in 20' + 10"/Zug (als Ersatz für "Rest in 30")
- ansonsten die üblichen CEGT-Bedingungen (PB=Off, allgemeine Bücher oder Testsuites, usw.)

Sonstiges
- Beginn: Anfang September nach meinem Urlaub
- Testphase: 6-8 Monate (Frühjahr 2011)
- dann Entscheidung, ob sich das Vorhaben mit den vorhandenen Ressourcen als machbar herausgestellt hat oder nicht

Gruß + Danke für die Abstimmung/Diskussion
Wolfgang
Parent - - By Benno Hartwig Date 2010-08-07 08:14
[quote="Wolfgang Battig"]- 1CPU
- 64bit wenn vorhanden, sonst natürlich w32 aber keinesfalls beides[/quote]Diese Einschränkungen finde ich sehr vernünftig, und vielleicht bleibt es praktikabel.
So bleibt uns ein Blick auf die langen Zeien erhalten. Und wir werden es verkraften können, dass nicht jede Konfiguration mit einer eigenen aufwändigen Testreihe gewürdigt wird.
Ein gutes Gelingen wünsche ich euch!
Benno
Parent - By Wolfgang Battig Date 2010-08-08 13:57
[quote="Benno Hartwig"]
[quote="Wolfgang Battig"]- 1CPU
- 64bit wenn vorhanden, sonst natürlich w32 aber keinesfalls beides[/quote]Diese Einschränkungen finde ich sehr vernünftig, und vielleicht bleibt es praktikabel.
So bleibt uns ein Blick auf die langen Zeien erhalten. Und wir werden es verkraften können, dass nicht jede Konfiguration mit einer eigenen aufwändigen Testreihe gewürdigt wird.
Ein gutes Gelingen wünsche ich euch!
Benno
[/quote]

danke Benno!
Die CPUs werden heißlaufen...

Viele Grüße
Wolfgang
Up Topic Hauptforen / CSS-Forum / CEGT - 40/120-Liste wird eingestellt!

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill