Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / CEGT 40/4 update 2017/01/06 online
- - By GS Date 2017-01-06 12:48 Upvotes 4
Hi !

Ausnahmsweise hier die Info, dass unser aktuelles Update
der CEGT 40/4 + ... Rangliste nun online ist, siehe:

http://www.husvankempen.de/nunn/blitz.htm

Dieses Update stand vorallem im Zeichen von Komodo 10.3 und Fizbo 1.9.
Komodo 10.3 x64 1CPU = ELO 3290 (version 10.2 x64 1CPU = ELO 3274) + 16
Fizbo 1.9 x64 1CPU   = ELO 3106 (version  1.8 x64 1CPU = ELO 3022) + 84 (!!)

Natürlich ist noch deutlich mehr zu entdecken, diesmal sind immerhin
10900 neue Spiele hinzugekommen, siehe:

http://cegt.forumieren.com/t11-cegt-40-4-update-friday-the-6th-of-january-2017-is-online

Gesamt sind es nun 2.002.462 Spiele (eine weitere Schallmauer ist durchbrochen),
was u.a. bedeutet, dass wir über die letzten 12 Jahre durchschnittlich 450 Games pro Tag (!!)
haben spielen lassen.

Deshalb auch auf diesem Wege ein "dickes Dankeschön" an:
Wolfgang, Werner und Leto und auch an die Tester, welche in früheren Tagen
an dieser Liste mitgewirkt haben !

h.a.n.d.
G.S.
Parent - By Thomas Müller Date 2017-01-06 15:57
Zitat:
Deshalb auch auf diesem Wege ein "dickes Dankeschön" an:
Wolfgang, Werner und Leto und auch an die Tester, welche in früheren Tagen
an dieser Liste mitgewirkt haben !


dem schließe ich mich an! ...dich dazu zählend natürlich
TOP!

gruß
thomas
Parent - - By Benno Hartwig Date 2017-01-06 16:20
Super!
Und Thanx für eure andauernde Mühe!
Benno
Parent - By Peter Martan Date 2017-01-06 17:56
Genau!
- - By Guenter Stertenbrink Date 2017-01-07 05:58 Edited 2017-01-07 06:05
"Spiele" klingt merkwuerdig. GS ist wohl kein Schachpartieler.

------------------------------------------------

in 40/4 spekuliere ich mal, dass Stockfish's Elo hoeher waer,
wenn die Elos der Gegner nicht so niedrig waer ?!
Parent - - By GS Date 2017-01-07 11:38
Guenter Stertenbrink schrieb:

"Spiele" klingt merkwuerdig. GS ist wohl kein Schachpartieler.


Ich muss gestehen, dass ich in diesem Fall kaum mehr als "Bahnhof" verstehe !
Was sollen mir diese zwei Sätze sagen ?

Guenter Stertenbrink schrieb:

in 40/4 spekuliere ich mal, dass Stockfish's Elo hoeher waer,
wenn die Elos der Gegner nicht so niedrig waer ?!


Dazu haben wir noch zu wenig Material. Es scheint
momentan (bei aller Vorsicht) tatsächlich so zu sein,
dass Stockfish 8.0 x64 1CPU [ELO 3336] etwas
besser gegen stärkere Gegner scored, siehe z.B.:

vs Houdini 5.0 x64 12CPU [ELO 3538] perf=3407 (lediglich 50 Spiele bisher)
vs Komodo 10.2 x64 12CPU [ELO 3451] perf=3374 (lediglich 50 Spiele bisher)

(Quelle: http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_single/24.html)

Das gilt jedoch ebenso für Houdini 5.0 x64 1CPU.

h.a.n.d.
G.S.
Parent - - By Guenter Stertenbrink Date 2017-01-07 11:48
man sagt doch Schachpartien, nicht Schachspiele ? Jedenfalls hierzulande.
Aber Schachspieler, nicht Schachpartieler, das Wortspiel war nur, damit
man sieht, dass es keine so ernst gemeinte Kritik war.

Zu Stockfish gegen schwaechere Gegner erinnere ich den Chat
in TCEC-Rapid , allgemeiner Konsensus war, dass Houdini
das Turnier gewann weil er besser gegen die schwachen Gegner
gepunktet hat. Wehen des Remis gegen Delphil musste
sich Stockfish viel Spott gefallen lassen
Parent - - By GS Date 2017-01-07 12:00
Guenter Stertenbrink schrieb:

man sagt doch Schachpartien, nicht Schachspiele ? Jedenfalls hierzulande.
Aber Schachspieler, nicht Schachpartieler, das Wortspiel war nur, damit
man sieht, dass es keine so ernst gemeinte Kritik war.


Alles klar, jetzt habe ich es verstanden.

Guenter Stertenbrink schrieb:

Zu Stockfish gegen schwaechere Gegner erinnere ich den Chat
in TCEC-Rapid , allgemeiner Konsensus war, dass Houdini
das Turnier gewann weil er besser gegen die schwachen Gegner
gepunktet hat. Wehen des Remis gegen Delphil musste
sich Stockfish viel Spott gefallen lassen


Das Problem dabei ist halt, dass es gar nicht SO leicht ist
stärkere Gegner für Stockfish, Houdini und Komodo zu finden.

h.a.n.d.
G.S.
Parent - - By Guenter Stertenbrink Date 2017-01-07 12:05
man kann doch einfach den schwaecheren Engines mehr Zeit oder CPUs geben,
sodass die errechneten Elos etwa gleich sind.
Ich versteh nicht, warum das nicht gemacht wird.
Parent - - By GS Date 2017-01-08 10:04 Upvotes 1
Guenter Stertenbrink schrieb:

man kann doch einfach den schwaecheren Engines mehr Zeit ...
[...snip...]


Das verbietet sich innerhalb einer Rangliste von selbst !


Guenter Stertenbrink schrieb:

[...snip...]
... oder CPUs geben,
sodass die errechneten Elos etwa gleich sind.
Ich versteh nicht, warum das nicht gemacht wird.


Genau das tun wir doch laufend. Ganz aktuell zu diesem Thema siehe:

http://cegt.forumieren.com/t744-1cpu-vs-4cpu-matches

h.a.n.d.
G.S.
Parent - - By Frank Brenner Date 2017-01-08 20:10
GS schrieb:

Guenter Stertenbrink schrieb:

man kann doch einfach den schwaecheren Engines mehr Zeit ...
[...snip...]


Das verbietet sich innerhalb einer Rangliste von selbst !


Warum verbietet sich das von selbst ?
Parent - - By Benno Hartwig Date 2017-01-08 22:43
Die Rangliste hat das Ziel, die Spielstärkeverhältnisse bei gleichen Bedingungen zu ergründen.
Wie willst du dieser mit ungleichen Bedingungen näher kommen, wenn du nicht gleichzeitig unnötige Unsicherheiten wie "Dann hätte SF bei mehr Zeit aber soundso gespielt!" hinzu bekommen willst?

Benno
Parent - - By Frank Brenner Date 2017-01-08 23:44
Zitat:
Die Rangliste hat das Ziel, die Spielstärkeverhältnisse bei gleichen Bedingungen zu ergründen.


Seit wann ist das denn so ?    "gleichen" ist wohl nicht das richtige wort, geeigneter wäre "definierten".

Bereits vor 25 Jahren hat die SSDF  Genius auf einem P90 gegen Mches auf 486/33 spielen lassen.

Ich weiß allerdings jetzt gerade nicht ob die CEGT 8 core Rechner gegen 4 und 1 Core Rechner antreten lassen .... wäre aber sehr wünschenswert für stabilere Werte.
Parent - - By Benno Hartwig Date 2017-01-09 05:59
Stimmt, SSDF, da hat man dann ein und die selbe Engine auf verschiedener Hardware spielen lassen.
Diese Gespanne dann aber auch als eigenständige Teilnehmer gewertet.
So wie heute ja auch z.B. bei CEGT eigenständige Teilnehmer "SF8 auf 1 Kern" und "SF8 auf 4 Kernen" hat.

Zeiten waren  aber immer auf beiden Seiten gleich.

Denkbar (und eigentlich auch interessant) wären auch verschiedene Zeiten.
Damit hättest du dann aber noch mal mehr Gegner (mehr Aufwand)
und man braucht eine GUI, die sowas "20 Minuten gegen 4 Minuten" automatisiert handhaben kann.

Benno
Parent - - By Frank Brenner Date 2017-01-09 15:55
Zitat:
Diese Gespanne dann aber auch als eigenständige Teilnehmer gewertet.


Selbstverständlich müsste beim Testen von SF mit mehreren Bedenkzeiten jede Kombination als eigenständiger Teilnehmer gewertet werden.

Alles andere wäre völlig wertlos.

Ist aber nichts neues, das wußte schon vor 30 jahren fast jeder.

Ich kann mich aber noch erinnern, dass es in der CSS Zeitung Zuschriften von Lesern gab, die das nicht verstanden haben und sich beschwert haben wie es denn sein könne, daß die Liste so verzerrt würde indem  eine Lang Engine die stärkere Hardware bekäme und die Schröder Engine nur eine Lahme Kiste vorgesetzt bekommt.
Parent - By Benno Hartwig Date 2017-01-09 20:47
Schachrechner hatten die Hardware, mit der sie eben hergestellt worden waren.

PC-Programme hatten aber doch standardisierte Hardwarestufen  (ggf. mit Korrekturwerden, wenn eine andere Hardware genutzt wurde.)
So meine Erinnerung.

Benno
Parent - - By GS Date 2017-01-09 10:32
Frank Brenner schrieb:

[...snip...]
Ich weiß allerdings jetzt gerade nicht ob die CEGT 8 core Rechner gegen 4 und 1 Core Rechner antreten lassen .... wäre aber sehr wünschenswert für stabilere Werte.


Genau das tun wir schon immer, resp. seit es PCs mit mehr als einem Core gibt.
Beispiele hierzu stehen auch in den Vorpostings. Unterschiedliche Zeitvorgaben
(Handicap-Matches) machen keinen Sinn, vor allem bei den "ponder=on - Listen".
Aber auch in den "ponder=off - Listen" wäre dies keine gute Idee. Man hätte dann
plötzlich Engines i.d.A. "Stockfish 8.0 x64 1CPU HC40/2" in der Liste. Für Matches
ausserhalb einer Rangliste kann man dies ja durchaus tun, so man ein GUI findet,
welches dies zulässt.
Parent - - By Guenter Stertenbrink Date 2017-01-09 11:53
keine verschiedenen Elos in der Hauptliste, man rechnet die Elo um auf einen Standard.
Etwa nach der Formel Bedenkzeitverdopplung = +50 Elo.
Das klappt ziemlich gut und ist m.E. eine geringere Ungenauigkeit
als die verschiedenen vorgegebenen Eroeffnungen,
die nicht mal angegeben werden in den Listen.
Parent - - By Benno Hartwig Date 2017-01-09 12:40
Auf solche Schätzungen sollte sich meiern Meinung nach ein Ratinglisten-Ersteller nicht verlassen.
Sind es doch nur 40, oder sogar nur 30, vielleicht auch doch mehr?
Und ist es ggf. doch von Engine zu Engine unterschiedlich?
Und vermutlich ist es auch generell von der Bedenkzeit abhängig.

Eine Liste, die zu mutig von derartigen "ist doch allgemein bekannt"-Schätzungen gebraucht machte, verlöre wohl doch stark an Vertrauenswürdigkeit.

Benno
Parent - - By Guenter Stertenbrink Date 2017-01-09 14:15
es ist m.E. aussagekraeftiger als Partien mit hohem Elo-Unterschied.
Viele Elo-bewusste Grossmeister meiden solche Partien, weil sie wissen, dass
das Elo-System da nicht so gut funktioniert. Und Engine-Programmierer
nutzen "contempt" , um dem Rechnung zu tragen.
Es wuerde sich ja zeigen, was solche Listen Wert sind.
Alles ausprobieren.
Parent - - By Benno Hartwig Date 2017-01-09 20:52
Solche Partien wären interessant.
Wenn es dann zu "Erstaunlichkeiten" kommt, könnte man eben überlegen, ob sich damit zeigt "was solche Listen Wert sind.", OK,
oder ob ggf. auch neue Sichten auf den aktuellen Einfluss von Zeitverdopplungen gelingen.

Hier Schätzwerte einfach so als richtig zu nehmen, wäre in meinen Augen viel zu frech(!),
und es würde den Ergebnissen doch viel an Wert nehmen.

Benno
Parent - By Benno Hartwig Date 2017-01-10 06:02
Schöne illustration der immensen zufallsbedingten Streuung
Und der großen Unsicherheit bei einer Mittelwertbildung.
Parent - - By Frank Brenner Date 2017-01-09 15:29
Zitat:
twa nach der Formel Bedenkzeitverdopplung = +50 Elo.


Das ist ja genau das, was man nicht will.

Man will empirisch berechnen was so eine Bedenkzeitverdopplung für eine spezielle Engine für eine spezielle Grundzeit und deren Vervielfachung hinterher in ELO ausmacht.

Man könnte die Zeiten dann auch mit x4, 8x, x16 , x32, x64 nehmen ... solange es genügende Rechner und freiwillige gibt die mitmachen.  An den Resourcen und Freiwilligen scheitet das natürlich.
Parent - - By GS Date 2017-01-09 16:21
Frank Brenner schrieb:

[...snip...]
Man könnte die Zeiten dann auch mit x4, 8x, x16 , x32, x64 nehmen ... solange es genügende Rechner und freiwillige gibt die mitmachen.  An den Resourcen und Freiwilligen scheitet das natürlich.


Es ist schon verblüffend, dass immer gerade hier (auf diesem Board)
Forderungen gestellt werden an die Personen, welche ohnehin schon
am meisten tun. Dabei ist es doch so einfach:
wie wäre es, wenn sich die "Forderer" zusammen tun und etwas nach
ihrem Gusto auf die Beine stellen ?
Oder scheitert dies an:
- keine Lust
- keine Zeit
- kein Geld
- keinen Plan
- keine Ahnung
?
Oder ist es wie schon so oft nur heiße Luft ?
Parent - - By Frank Brenner Date 2017-01-09 17:19
Zitat:
Es ist schon verblüffend,


Verblüffend ist eher, daß du aus dem was ich geschrieben hast ableitest ich hätte eine Forderung gestellt und noch dazu eine Forderung an Personen die ohnehin schon  am meisten tun ... (Meinst Du Dich damit?)

Das Gegenteil ist der Fall:  Ich würde niemals eine Forderung an andere dafür stellen, ich habe ja auch geschrieben, daß sich für so ein umfangreiches Unterfangen  sowieso keine Resourcen rekrutieren lassen, obwohl Andreas Strangmüller  hier schon Pionier Arbeit geleistet hat und mit verschiedenen Bedenkzeiten gute Experimente durchgeführt hat und das als Einzelperson!

Ich lese allerdings nicht das erste mal von Dir dieses Art von Beleidigung, dass du dich spontan so wie es dir gerade passt herablassend über deinen Diskussionspartner äußerst und mit Anschludigungen wie zb
Zitat:
Oder ist es wie schon so oft nur heiße Luft ?
     herum polterst.

Nun ich kann Dir sagen, daß ich deine Arbeit schätze und ich dankbar bin daß du so sorgfältig und mit sehr großem Zeit- und Hardwareaufwand testest. Die ganze CEGT macht eine sehr gute Arbeit.  Ebenso Andreas Strangmüller und Stephan Pohl und CCRL und Ingo Bauer und Klemens Keck und  Franki Q. und alle die ich jetzt gerade vergessen habe.
Parent - By GS Date 2017-01-09 17:25
Es war eher allgemein gemeint, deshalb auch "die Forderer".
Parent - - By Frank Brenner Date 2017-01-09 15:26
Angenommen du würdest jede Engine zwei mal testen, einmal mit der Bedenkzeit  40Züge in 20 Minuten und dann nochmal mit der Bedenkzeit 40 Züge in 40 Minuten, und zwar auch Mixed, also

SF 40/40   vs Komodo 40/20    oder
SF 40/20 vs SF 40/40

Dann würdest du nachher eine Eloliste herausbekommen wo du unter gleichen Bedingungen auch einen Hinweis darauf bekommst welchen Elonutzen eine Bedenkzeitverdopplung von 40/20 auf 40/40 für jede Engine bedeutet.
Eigentlich sehr sinnvoll ... wenn genügend PC Resourcen vorhanden sind.
Parent - - By GS Date 2017-01-09 15:40
Ich will aber nicht herausbekommen, was eine Bedenkzeitverdoppelung etc. etc. bringt.
Ich will herausbekommen, welche Engine unter gegebenen Bedingungen die stärkste (beste) ist.

Dies dürfen jedoch gerne andere tun ...
Parent - - By Frank Brenner Date 2017-01-09 15:45
GS schrieb:

1. Ich will aber nicht herausbekommen, was eine Bedenkzeitverdoppelung etc. etc. bringt.
2. Ich will herausbekommen, welche Engine unter gegebenen Bedingungen die stärkste (beste) ist.




zu 1.:  Du solltest "Ich" anstelle "nicht"  fettdrucken

zu 2.:  Dieser zweite Satz von Dir steht nicht im Widerspruch zum Testen von verschiedenen Bedenkzeiten innerhalb einer Liste.
Parent - By GS Date 2017-01-09 16:10
Frank Brenner schrieb:

[...snip...]
zu 2.:  Dieser zweite Satz von Dir steht nicht im Widerspruch zum Testen von verschiedenen Bedenkzeiten innerhalb einer Liste.


Deshalb schrieb ich, dass dies gerne andere tun dürfen ...
Parent - - By Wolfgang Battig Date 2017-01-09 20:25 Upvotes 1
Frank Brenner schrieb:

GS schrieb:

1. Ich will aber nicht herausbekommen, was eine Bedenkzeitverdoppelung etc. etc. bringt.
2. Ich will herausbekommen, welche Engine unter gegebenen Bedingungen die stärkste (beste) ist.




zu 1.:  Du solltest "Ich" anstelle "nicht"  fettdrucken

zu 2.:  Dieser zweite Satz von Dir steht nicht im Widerspruch zum Testen von verschiedenen Bedenkzeiten innerhalb einer Liste.


Die Diskussion wer was will oder nicht will oder ob jemand etwas "fordert" oder nicht, geht m.E. am Thema vorbei.

Das eigentliche Problem ist doch, dass keine der gängigen GUI so etwas automatisiert, also als Turnier oder Match kann, oder? Bei Arena und Shredder Classic bin ich mir zu 100% sicher, dass es nicht geht. Bei Fritz eigentlich auch, zumindest im Turniermodus, bei Engine-Wettkämpfen weiß ich es nicht genau, glaube aber nicht. Ob eines der Tools ohne GUI (LittleBlitzer, cutechess-cli) es kann weiß ich mangels Erfahrung damit nicht.

Bliebe also bestenfalls der altgediente Autoplayer. Aber das wäre nun wirklich die totale Ressourcenverschwendung.
Wo das hinführt kann man gut bei der SSDF begutachten. Die aktuelle Liste, https://ssdf.bosjo.net/list.htm, wird angeführt von Komodo 9.1 (immerhin) vor Stockfish 6 (!!), zwei älteren Komodos und Stockfish 3 (!!!!!). Die fehlenden Engines will ich gar nicht erst aufzählen.

Und die beste Hardware dort, Intel Q6600, kam 2007 heraus... Logisch, wenn ich mir als Tester immer die doppelte Anzahl an PCs zulegen MUSS, wenn ich dort mitmachen möchte, überlege ich mir eine Aufrüstung natürlich auch doppelt und dreifach... 
Parent - By Walter Eigenmann Date 2017-01-10 00:21
Wolfgang Battig schrieb:

Frank Brenner schrieb:

GS schrieb:

1. Ich will aber nicht herausbekommen, was eine Bedenkzeitverdoppelung etc. etc. bringt.
2. Ich will herausbekommen, welche Engine unter gegebenen Bedingungen die stärkste (beste) ist.

zu 1.:  Du solltest "Ich" anstelle "nicht"  fettdrucken
zu 2.:  Dieser zweite Satz von Dir steht nicht im Widerspruch zum Testen von verschiedenen Bedenkzeiten innerhalb einer Liste.

Das eigentliche Problem ist doch, dass keine der gängigen GUI so etwas automatisiert, also als Turnier oder Match kann, oder? Bei Arena und Shredder Classic bin ich mir zu 100% sicher, dass es nicht geht. Bei Fritz eigentlich auch, zumindest im Turniermodus, bei Engine-Wettkämpfen weiß ich es nicht genau, glaube aber nicht.


Unter "Aquarium" lassen sich bei Matches den Engines farbengetrennt sowohl unterschiedliche Bedenkzeiten als auch unterschiedliche Rechentiefen zuordnen.

Gruss: Walter

.
Parent - By Frank Quisinsky Date 2017-01-07 12:45 Edited 2017-01-07 12:50
Hallo Gerhard, CEGT Team,

zu dem Beitrag ...
Alles eine Frage der Zeit ... wie immer!

Und zu dem Einsprung!
Das ist es ja, die Beständigkeit der CEGT ...

Ich mache mir ja immer sehr viel Mühe mit Ratinglisten aber irgendwann habe ich dann wieder für eine Zeit genug.

Aber nach wie vor ...
Maximal interessant als die pure Spielstärke ist eher der Spielstil oder wie wird die Spielstärke generiert.
Und da bin ich sehr zuverlässig weil sehr viele Entwicklungen auf dem richtigen Weg sind und durchaus die Klasse der Programmierer bzw. deren Ideen daraus auch ersichtlich werden.

Euch weiterhin viel Spaß!

Gruß
Frank

BTW: Nimzo 3 unter DOS läuft jetzt mit Datum zurück! So Step by Step bin ich dran an den alten DOS Engines unter DOS 6.22.
Zeitgleich stelle ich auf Windows 10 um bzw. das war eigentlich schnell erledigt. Bin gerade dabei und baue mir einen Windows 98-2 und Windows 2000 mit Windows NT 4 Rechner. Mit einem kleinen Boot-Menü. Die ganze Zeit am fummeln mit meinem DOS Stick unter NT und da viel mir auch erst später wieder ein das NT ja gar keine USB Unterstützung hat. Mit was man sich alles herumschlagen muss.
Parent - By Benno Hartwig Date 2017-01-07 19:15

> Das Problem dabei ist halt, dass es gar nicht SO leicht ist stärkere Gegner für Stockfish, Houdini und Komodo zu finden.


Was man von "der stärksten Egnine" erwartet, ist halt auch Geschmackssache.

Angenommen A und B sind allen anderen Engines mehr oder weniger deutlich überlegen
A gewinnt gegen B mit 55%-Quote (A ist also jedem(!) Gegner überlegen)
aber A holt gegen alle Gegner nur durchschnittlich eine 70%-Quote
während B eine 80%-Quote gelingt.

Welche Engine soll dann den Titel "stärkste Engine" tragen?

Benno
Up Topic Hauptforen / CSS-Forum / CEGT 40/4 update 2017/01/06 online

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill