CEGT - Update vom 07.06.2009

By Wolfgang Battig Date 2009-06-08 11:41

Hallo zusammen,

das Update unserer 40/20-Liste ist online.

40 / 20:
Neue Partien: 1.506
Gesamtzahl: 330.137
Games of the week: Link siehe unten

Einziger Neuzugang ist Ktulu 9.0. Mit Rahman Paidars Engine konnten wir bisher 410 Partien spielen, die eine Steigerung von (leicht enttäuschenden) 21 Punkten im Vergleich zur 8.0 brachten. Die Fehlerbandbreite liegt bei +/- 27, sodass hier noch weitere Partien nötig sein werden.
Link zum Test: http://cegt.foren-city.de/topic,248,-coordination-ktulu-9-0.html

UPDATES
Fruit 2.3.5m x64 4CPUp15: hat nach weiteren 185 und jetzt insgesamt 1099 Partien nochmals 10 ELO verloren und liegt nur kümmerliche 3 ELO vor der 2CPU-Version
Onno 1.0.0 x64: war neben Ktulu 9 das Haupttestobjekt der Woche, 550 neue Partien (ges. 680) brachten die erwartete Steigerung (+21), allerdings liegt die Release-Version noch 16 Punkte hinter der 0.12.0 (Toleranz +/- 20), was sich mit mehr Partien sicher noch weiter annähern wird.
Jonny 3.08: Weitere Partien mit 4CPU (+250) und Single (+100) ergaben keine Veränderung. Die Abstände bei CPU-Verdoppelung liegen bei +34 (2 auf 4) bzw. +44 (1 auf 2).
Glaurung 2.2 w32 1CPU: war ein Sorgenkind, weil die Engine deutlich vor der 64bit-Single lag (allerdings nach nur 90 Partien). Jetzt sind es 100 mehr und Glaurung hat dadurch 72 (!!) Punkte verloren und liegt nun hinter der x64. Hier sind auch noch deutlich mehr Partien notwendig.

40 / 4:
Hier kommt das nächste Update am 13.06.2009!

Aktuelle Tests (Onno 1.0.0 w32 + x64, Jonny 3.08 Pamplona, DanaSah 4.24, GreKo 6.5 x64, Philou 2.8.0, Critter 0.38 u.v.m) wie immer im Forum unter http://cegt.foren-city.de/forum,4,-cegt-blitz-coordination.html.

Wie immer ein herzliches Dankeschön an alle Tester!

Links:
40/20: http://www.husvankempen.de/nunn/rating.htm
Blitz: http://www.husvankempen.de/nunn/blitz.htm
40/120: http://www.husvankempen.de/nunn/rating120.htm
Tester: http://www.husvankempen.de/nunn/testers/testers.htm
Games of the week: http://www.husvankempen.de/nunn/40_40%20Rating%20List/Coordination/gow.JPG
Elo-comparison: http://www.husvankempen.de/nunn/Replay/ELOcomparison.htm

Wolfgang Battig
CEGT - Team

By Günther Höhne Date 2009-06-08 13:13

Hallo Wolfgang,

ich persönlich bin sehr gespannt auf den Test von Chronos v1.9.6 , den Werner nach seinem Urlaub starten will.

Gruß
Günther

By Wolfgang Battig Date 2009-06-08 14:29

[quote="Günther Höhne"]
Hallo Wolfgang,

ich persönlich bin sehr gespannt auf den Test von Chronos v1.9.6 , den Werner nach seinem Urlaub starten will.

Gruß
Günther
[/quote]

Gerhard und ich werden die Engine sicher auch in unsere Blitz-Tests aufnehmen, allerdings schaffe ich es
nicht mehr bis zum nächsten Update am Wochenende, da alle mir zugänglichen Maschinen derzeit ausgelastet
sind.

By Gerhard Sonnabend Date 2009-06-08 19:56

[quote="Günther Höhne"]
ich persönlich bin sehr gespannt auf den Test von Chronos v1.9.6 , den Werner nach seinem Urlaub starten will.
[/quote]

Ich beginne mit den Tests, weis aber noch nicht so recht, ob ich mit der
Gegnerwahl richtig liege. Meine beste Quelle sind immer die Turniere von Olivier,
deshalb starte ich mal mit einem Gegnerschnitt von 2635.

Bis zum Update am Samstag könnten ca. 500 Games zusammen kommmen.

Alles zu verfolgen unter:
http://cegt.foren-city.de/topic,250,-testing-chronos-1-9-6.html

Best wishes,
G.S.

By Günther Höhne Date 2009-06-08 21:45

[quote="Gerhard Sonnabend"]
Ich beginne mit den Tests, weis aber noch nicht so recht, ob ich mit der
Gegnerwahl richtig liege. Meine beste Quelle sind immer die Turniere von Olivier,
deshalb starte ich mal mit einem Gegnerschnitt von 2635.

Bis zum Update am Samstag könnten ca. 500 Games zusammen kommmen.

Alles zu verfolgen unter:
http://cegt.foren-city.de/topic,250,-testing-chronos-1-9-6.html
[/quote]

Hallo Gerhard,

vielen Dank!

By Gerhard Sonnabend Date 2009-06-10 20:22

[quote="Günther Höhne"]
vielen Dank!

Ich hatte die Engine mir schon selbst kurz angesehen und würde sie selbst,
in etwa auf 2650elo schätzen. Ich denke also bei Auswahl der Gegner kannst Du im Bereich
von 2600 -2700elo nichts falsch machen.
[/quote]

Nach nunmehr 300 games sieht alles sehr stabil aus,
die Gegnerauswahl war bisher ein Volltreffer. Nun
darf ein wenig "gestreut" werden.

Viele Grüsse,
G.S.

By Günther Höhne Date 2009-06-10 21:18

Thx! verfolge den Test ja mit. Das geht ja wie das Brezel backen, sind jetzt schon 400 games ,schönes Ergebniss gegen Ruffian 1.0.5 25.5-24.5 perf=2648

Gruß
Günther

By Benno Hartwig Date 2009-06-08 13:28

[quote="Wolfgang Battig"]Fruit 2.3.5m x64 4CPUp15: hat nach weiteren 185 und jetzt insgesamt 1099 Partien nochmals 10 ELO verloren und liegt nur kümmerliche 3 ELO vor der 2CPU-Version[/quote]
Wie sehen eigentlich eure Erfahrung hinsichtlich folgendem Problem aus:
Ihr habt eine Engine umfangreich getestet gegen ein Feld von Gegnern, und ihr habt für die Engine eine ELO-Zahl ermittelt.
Etwas später lasst ihr diese Engine gegen eine Schar von Engines antreten, die durchweg ein Stück stärker (und natürlich auch ELO-kräftiger) sind.
Drückt dies die ELO-Zahl der Engine dann vielleicht häufiger nach unten, als es zu erwarten wäre?

Ich habe halt den Eindruck, dass ich häufiger las, dass Engines im Laufe der Tests an ELO verlieren und eher selten, dass sie gewinnen.
Täuscht mich meine Erinnerung?

Benno

By Gerhard Sonnabend Date 2009-06-08 14:05

[quote="Benno Hartwig"]
Wie sehen eigentlich eure Erfahrung hinsichtlich folgendem Problem aus:
Ihr habt eine Engine umfangreich getestet gegen ein Feld von Gegnern, und ihr habt
für die Engine eine ELO-Zahl ermittelt.
Etwas später lasst ihr diese Engine gegen eine Schar von Engines antreten, die
durchweg ein Stück stärker (und natürlich auch ELO-kräftiger) sind.
Drückt dies die ELO-Zahl der Engine dann vielleicht häufiger nach unten, als es
zu erwarten wäre?
Ich habe halt den Eindruck, dass ich häufiger las, dass Engines im Laufe der Tests
an ELO verlieren und eher selten, dass sie gewinnen. Täuscht mich meine Erinnerung?
[/quote]

Hi Benno !

Über dieses Thema hatten wir uns schon mal unterhalten,
war es hier oder noch im alten CSS-Forum ?!

Den Text von damals habe ich noch:
--->
Ich simuliere das einfach mal am Fall Rybka 2.3.2a w32 1CPU. Zur Zeit
steht die Engine so da (zum Vergleich bleibt der aktuelle Spitzenreiter
stehen):

Code:


   Program                    Elo    +   -  Games  Score   Av.Op.  Draws
01 Rybka 2.3.2a x64 4CPU     3086   13  13   1750  73.1 %   2912   37.7 %
...
25 Rybka 2.3.2a w32 1CPU     2955   11  11   2672  66.9 %   2833   36.2 %

Nun löschte ich alle Spiele gegen die "schwächsten" Gegner,
bis 899 Partien aus der Datenbank entfernt waren:

Code:


   Program                    Elo    +   -  Games  Score   Av.Op.  Draws
01 Rybka 2.3.2a x64 4CPU     3086   13  13  1750   73.1 %   2913   37.7 %
...
25 Rybka 2.3.2a w32 1CPU     2956   13  13  1773   62.8 %   2864   38.5 %

Im 2. Versuch lösche ich alle Spiele gegen die 12 "stärksten" Gegner:

Code:


   Program                    Elo    +   -  Games  Score   Av.Op.  Draws
01 Rybka 2.3.2a x64 4CPU     3086   13  13   1750  73.1 %   2913   37.7 %
...
22 Rybka 2.3.2a w32 1CPU     2959   14  14   1717  71.0 %   2803   33.6 %

--->

Meiner Meinung nach taugt das ELO-System am besten für Maschinen !

Viele Grüsse,
G.S.

By emilo reggio Date 2009-06-08 15:01

dank an prof. arpad elo

By Benno Hartwig Date 2009-06-08 16:26

[quote="Gerhard Sonnabend"]Über dieses Thema hatten wir uns schon mal unterhalten,
war es hier oder noch im alten CSS-Forum ?![/quote]Uff, peinlich, sorry.
Aber thanx, dass du es noch mal hier erklärtest.
Benno (kleinlaut)

By Gerhard Sonnabend Date 2009-06-08 17:27

[quote="Benno Hartwig"]
Uff, peinlich, sorry.
Aber thanx, dass du es noch mal hier erklärtest.
Benno (kleinlaut)
[/quote]

Weshalb denn peinlich ?
Das ist schon lange her, es war übrigens am 27/06/2008.
Normalerweise hätte ich es schon längst gelöscht, ich hatte
jedoch das Posting aus Versehen in einem anderen Ordner
als gewöhnlich gespeichert und so hat der Text überlebt.

Viele Grüsse,
G.S.

By Gerhard Sonnabend Date 2009-06-08 19:36

[quote="Benno Hartwig"]
Ich habe halt den Eindruck, dass ich häufiger las, dass Engines im Laufe der Tests an ELO verlieren
und eher selten, dass sie gewinnen. Täuscht mich meine Erinnerung?
[/quote]

Noch ein kleiner Zusatz, den ich vorher vergessen hatte.
Deine Erinnerung trügt Dich nicht in Bezug auf Listen,
welche "Gesamtpakete" (also vor allem Engine+Buch) testen.
Hier kam und kommt es zu solchen Effekten, da sich die
"Nachfolgegeneration" auf das alte Buch stürzen kann !

Viele Grüsse,
G.S.

By Roland Rösler Date 2009-06-09 06:38

Da Du das gerade ansprichst: Ihr testet Buch und Engine!
Meine Fragen:
In welchem Rythmus testet (ändert?) ihr eure Bücher (euer Buch)?
Ändert sich an den Büchern (dem Buch) überhaupt etwas?
Welche Kriterien legt ihr an, wenn ihr in den Büchern (dem Buch) etwas ändert?
Wie lang sind die Bücher (das Buch) (letzter Buchzug) ungefähr?
Sind die Bücher (das Buch) für unterschiedliche Bedenkzeiten immer identisch?

Fazit: Wie Du siehst, stochern im Nebel meinerseits! Möglicherweise kannst Du mich aufklären!

By Gerhard Sonnabend Date 2009-06-09 07:01

[quote="Roland Rösler"]
Da Du das gerade ansprichst: Ihr testet Buch und Engine!
Meine Fragen:
In welchem Rythmus testet (ändert?) ihr eure Bücher (euer Buch)?
Ändert sich an den Büchern (dem Buch) überhaupt etwas?
Welche Kriterien legt ihr an, wenn ihr in den Büchern (dem Buch) etwas ändert?
Wie lang sind die Bücher (das Buch) (letzter Buchzug) ungefähr?
Sind die Bücher (das Buch) für unterschiedliche Bedenkzeiten immer identisch?

Fazit: Wie Du siehst, stochern im Nebel meinerseits! Möglicherweise kannst Du mich aufklären!

[/quote]

Hi !

Ich persönlich habe noch keine einzige Partie mit Büchern für
die CEGT spielen lassen. Ich verwende diverse (auch eigene)
Vorgabestellungen.

Viele Grüsse,
G.S.

By Wolfgang Battig Date 2009-06-09 09:41

[quote="Roland Rösler"]
Da Du das gerade ansprichst: Ihr testet Buch und Engine!

ein klares JAIN...

Wir testen teilweise mit allgemeinen Büchern aber auch mit Testsuites von den üblichen Verdächtigen (Noomen z.B.) oder selbst zusammengestellte.
Wenn wir mit Büchern testen, dann immer für beide dasselbe Buch

Ich denke Gerhard bezog seine Aussage auf Tests mit eigenen Büchern auf die man sich "einschießen" kann. Wenn beide mit demselben allgemeneine Buch spielen müssen/dürfen ist das "Einschießen" kein Thema. Bei mir bleiben die Bücher auch schreibgeschützt, es findet also keine Veränderung durch Buchlernen statt.

Zitat:

Meine Fragen:
1. In welchem Rythmus testet (ändert?) ihr eure Bücher (euer Buch)?
2. Ändert sich an den Büchern (dem Buch) überhaupt etwas?
3. Welche Kriterien legt ihr an, wenn ihr in den Büchern (dem Buch) etwas ändert?
4. Wie lang sind die Bücher (das Buch) (letzter Buchzug) ungefähr?
5. Sind die Bücher (das Buch) für unterschiedliche Bedenkzeiten immer identisch?

Ich versuche die Fragen mal aus meiner persönlichen Praxis zu beantworten:

1. ich wechsle die Bücher relativ häufig, weil ich auch unter verschiedenen GUI teste. Unter Arena nutze ich zumeist Testsuites oder "PGN-Random", wo Arena aus einer beliebigen PGN-Datenbank (begrenzt auf xy Züge) auswählt. Unter Shredder Classic zumeist die Bücher von Harry Schnapp und Sedat Canbaz oder eben auch Testsuites. Letztere werden auch regelmäßig gewechselt bzw. neu zusammengestellt.

2. ich ändere quasi nie etwas an den Büchern, sie bleiben auch schreibgeschützt. Es sei denn, mir fällt eine eklatant schlechte Variante auf, also eine, die eine Seite zu stark bevorteilt. Diese würde ich dann löschen. Kommt aber extrem selten vor.

3. siehe Punkt 2.

4. viele Bücher sind schon vom Autor begrenzt, z.B. das Perfect 12.2a.bkt = 8 volle Züge, HS7moves/10moves von Harry Schnapp = 7 bzw. 10 volle Züge usw.
Ansonsten sind es bei mir i.d.R. maximal 12 volle Züge

5. die allgemeinen Bücher sind m.W. nicht auf bestimmte Bedenkzeiten optimiert und von daher vielseitig verwendbar.

By Thomas Mayer (Quark) Date 2009-06-08 23:08

Samal Ingo,

hälst Du solcherlei Sticheleien eigentlich für zwingend erforderlich ? Oder bereitet es Dir gar Genuß ? So kenn ich Dich eigentlich nicht ?!

Gruß, Thomas

By Ingo Bauer Date 2009-06-08 23:14

Moin Thomas,

jaja, ganz neue Seiten an mir nicht

Ich habe mindestens 6 Monate, wenn nicht länger, überhaupt nicht reagiert (andere Backe Prinzip ... , geht nicht!). Ich bin es einfach leid!

Gruß
Ingo

By Udo Kaiser Date 2009-06-11 00:30

na toll. also zurück zum alten Testament.
Welche der im alten Testament erwähnten verhaltensweisen dürfen wir denn nun noch alles erwarten Ingo ?

Also - ich wünsche dir eine gute Besserung.
Und das meine ich auch so.

By Roland Rösler Date 2009-06-11 04:15

Wozu brauchen Beta-Tester 2 Augen und ein volles Gebiss?

By Ingo Bauer Date 2009-06-11 09:02

Moin moin

OT!

[quote="Udo Kaiser"]
na toll. also zurück zum alten Testament.
Welche der im alten Testament erwähnten verhaltensweisen dürfen wir denn nun noch alles erwarten Ingo ?
[/quote]

Ich halte die Frage ob das "neue" dem "alten" Testament moralisch ethisch überlegen ist für offen. Im Christlichen Sinne müßte man das bejahen, andere Weltreligionen, Anschauungen oder Philosophien können da, mit guten Argumenten, durchaus anderer Ansicht sein.
Keine Angst zu haben, brauchst du das ich willkürlich gegen "irgendwelche" Leute schieße. Ich habe nur keine Lust mehr darauf das "ein Leut" hier in keinster Weise zwischen mir als Privatperson und mir als Betatester unterscheiden kann und alles was ich schreibe immer nur auf ein Thema bezieht!

[quote="Udo Kaiser"]
Also - ich wünsche dir eine gute Besserung.
Und das meine ich auch so.
[/quote]

Danke, danke, im Moment geht es mir aber ausgesprochen gut und brauche deine Wünsche nicht (freue mich natürlich darüber). Was ich mir aber wünschen würde wäre, dass du dieselbe Führsorge auch einer anderen Person hier zukommen läßt - von der, zumindest ich, überzeugt bin, dass sie es viel nötiger hat.

Gruß und einen schönen Tag
Ingo

PS: Falls jemand meint das meine Anspielungen auf diese Person unnötig sind, kann ich zu meiner Entschuldigung nur sagen das ich die gleichen Mittel anwende wie diese Person in Bzg. auf mich!