Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / FCP: Erster Test-Run gegen 59 Gegner ...
- - By Frank Quisinsky Date 2016-02-19 20:47
Hallo zusammen,

nachdem ich in den letzten Monaten meine Rating Liste auf nunmehr 60 Gegner ausgebaut habe folgen nun die Früchte ...
Ich habe mehr Gegner und mithin sollte ein Rating schneller stabil werden.
Soweit die Theorie, ob sich das in der Praxis bewahrheitet und ich mit meinen Statistik Thesen dann vielleicht doch falsch liege wird sich in der Zukunft zeigen, auch wenn ich mir nach dem ganzen Aufbau der Ratingliste sehr sicher bin, dass durch mehr Gegner ein Rating deutlich früher (weniger Partien) stabil wird. Aber wer nicht experimentiert der ...

Fizbo 1.6 x64 wird der erste Testkandidat sein der gegen 59 Gegner antreten muss.

Die Vorgehensweise hat mehrere Vorteile:
Ein Test-Run dauert nun 7 Tage wenn 2.950 Partien zu spielen sind.
Ich habe deutlich weniger Arbeit beim updaten der Webseite und aussagekräftigere Resultate.
Dafür wird es für die Besucher meine Seite schnell langweilig, meine wenn ein Test-Run 7 Tage benötigt.

Auch möchte ich nicht mehr so viele Test-Runs starten. Durch die neue FCP Test Rating Liste muss ich auch keine "Fights for Place 1 mehr starten). Habe hier immer nur die aktuelle Version in der Liste (keine doppelten Engines). Zu der neuen FCP Test Rating Liste habe ich eine kleine Agenda Seite angelegt. Die Datenbankstruktur ist das Thema. Bei Engines die oft upgedatet werden (Arasan oder Andscacs) macht sich schon jetzt die Änderung von Dezember bemerkbar. Ich teste nach Tage zwischen den Releases. Oft upgedatete Engines haben also kaum Chancen bevorzugt zu werden, Engine die seltener upgedatet werden erhalten den Vorrang. Muss ein wenig darauf achten oder ich habe wenn das so weiter geht 20x Andscacs / Arasan in der Liste etc..

Innerhalb meiner FCP Test Rating Liste und den TOP 60 sind 1.770 Paarungen bei 50 Partien pro Match möglich (jeder gegen jeden). Das heißt, dass die FCP Test Rating Liste maximal 88.500 Partien beinhalten könnte. Gespielt sind derzeit 1.428 Paarungen bei 50 Partien = 71.400 Partien (80.68%). Ich versuche hier in den kommenden Monaten auf 90% zu kommen um die Zuverlässigkeit der Ratings weiter zu steigern, wobei 80,68% ist schon ein Wahnsinn. Es macht keinen Sinn wenn z. B. die TOP-Engines in meiner Liste gegen die letzten Platze spielen, daher sind 90% und nicht 100% angestrebt.

An dieser Stelle mal von meiner Seite an Kompliment an Gerhard Sonnabend.
Er erstellt glaube ich die CEGT 5+3 Ponder = On Ratingliste und hat hier schon 1.700 Partien pro Engine bei 35 aufgenommen Programmen. Das ist im Grunde (wenn ich ehrlich bin) die Ratingliste die meinen Ansprüchen gerecht wird und von hoher Genauigkeit ist. Wobei auch alle anderen Arbeiten Ihren Reiz haben.

Mag ferner besonders die ACCC Ratingliste von Arnaud LOHEAC ... da ist meine Arbeit an den Webseiten ein Pups gegen.
Also, es muss nicht immer so genau sein wenn die Umsetzung einer Information gut ist wie die angesprochene Arbeit von Arnaud deutlich aufzeigt.

So, wer nun den Fizbo Test-Run beobachten möchte ...
Werde ca. die ersten Auswertung machen wenn 20% durch sind, also nach 590 der zu spielenden 2.950 Partien.

Gruß
Frank
Parent - - By GS Date 2016-02-20 10:04 Upvotes 2
Frank Quisinsky schrieb:

[...snip...]
An dieser Stelle mal von meiner Seite an Kompliment an Gerhard Sonnabend.
Er erstellt glaube ich die CEGT 5+3 Ponder = On Ratingliste und hat hier schon 1.700 Partien pro Engine bei 35 aufgenommen Programmen. Das ist im Grunde (wenn ich ehrlich bin) die Ratingliste die meinen Ansprüchen gerecht wird und von hoher Genauigkeit ist. Wobei auch alle anderen Arbeiten Ihren Reiz haben.
[...snip...]


Vielen Dank !

Ich muss da etwas genauer berichten:
die CEGT 5'+3" pb=on wird von Wolfgang Battig, Werner Schüle und mir geführt.
Wolfgang lässt das Gros der Partien spielen, mehr als 50% !
Werner und ich steuern den Rest bei.
Das erzeugen und online stellen der Liste(n) ist dann mein Job, das gilt auch für
die CEGT 40/4, die CEGT 40/120 und früher die CEGT 40/20 pb=on und auch
für unsere download Sektion.
Parent - By Frank Quisinsky Date 2016-02-20 12:16 Edited 2016-02-20 12:34
Hallo Gerhard,

ich habe zwar auch einen Helfer auf meinen Seiten der hier und da beim Updaten hilft (möchte unerwähnt bleiben) aber ich würde mir auch wünschen ich hätte Helfer die Partiematerial beisteuern auf einer vergleichbaren Intel 4, 5 oder 6 Generation Hardware. Die ganze Geschichte würde dann etwas aufregender für mich sein. Wobei das in meinem Fall sehr schwierig ist weil meine Ratingliste eine fortlaufende ist bzw. immer wieder auf älteren Ergebnissen aufbaut. Auch bei den LIVE Einblendungen geht dann weniger wenn von verschiedenen Seiten die Ergebnisse ermittelt werden. Also eher als Einzeltherapie (im wahrsten Sinne des Wortes) aufgebaut und nicht wie die CEGT als Gruppenarbeit.

Euch dann weiterhin viel Spaß mit der CEGT und bleibt bitte an der 5+3 Ratingliste dran.
So kann ich hier und da mit meinen Ergebnissen vergleichen.

Mal ein Hinweis wie ich CEGT nutze:
Schaue auf die Blitz Ratingliste wenn es für mich komplett neue Engines sind, dann auch auf die 40 in 20.
Schaue immer nur auf einen Core (mich interessieren mehrere Cores einfach nicht bei Ratinglisten).
Schaue jetzt verstärkt auf die 5+3 weil sie mir einfach am besten von allen gefällt.
Die 40 in 120 interessiert mich weniger weil ich selbst niemals mehr solche Zeitkontrollen nutzen würde.

Bin also sehr egoistisch unterwegs. Schaue mir das an woran ich selbst ein Interesse habe. Es ist zwar gut zu sehen wie sich mit unterschiedlichen Zeiten auch die Ratings verändern aber das sehe ich schon allein aufgrund der Hardwareentwicklung die ja zwar langsam aber beständig schneller wird. Muss ja nur mit meinen ganzen Ratinglisten aus der Vergangenheit Vergleiche anstellen und weiß was ich wissen will bzw. Thema abgeschlossen für mich.

Aber selbst wenn ich ausblende was mich nicht interessiert habe ich in den ganzen Jahren immer genug bei der CEGT gefunden was mich interessiert. Das ist der Vorteil der CEGT, denn es wird für alle Gemüter etwas angeboten was meines Erachtens aufgrund der Vielfalt auch ausreichend ist.

Wenn sich jemand auf eine Testkonstellation einlässt ... und das dann auch durchzieht wäre das immer eine gute Ergänzung zu Gruppenarbeiten. Davon haben wir ja einiges bzw. steuere ich ja selbst etwas bei.

Vajolet wird interessant, so einen richtigen Vorteil konnte CEGT nicht ermitteln.
Bei mir hatte die Vorgängerversion 59 Gegner und wird wieder 59 Gegner erhalten.
Das Ergebnis was dabei heraus kommt wird sehr genau vergleichbar sein.

Schauen wir mal was Andscacs bei Euch zaubert. Schaue natürlich darauf weil nach Vajolet kommt bei mir Andscacs.

Viele Grüße
Frank

Heute bleibt nichts verborgen.
Wir sind den Ratings auf der Spur ... die Wissensjäger ... vielleicht hat der Historie Channel mal ein Interesse über uns einen Film zu drehen. Aber ich glaube bei den Dreharbeiten würden wir uns alle untereinander die Rübe einschlagen und dann wird es doch nur eine weitere Folge von "Das Krankenhaus am Rande der Stadt".
Parent - - By Frank Quisinsky Date 2016-02-20 12:58 Edited 2016-02-20 13:01
Hallo Gerhard,

noch ein Hinweis:
Habe meine Ratingliste nach CEGT 40 in 20 aufgebaut hinsichtlich eingepickter Engines.

Mit der Maßgabe:
- keine privaten Engines (will die nicht)
- nur verfügbare Programme (Loop und Onno sind nicht mehr verfügbar).
- Fruit Clones vermeiden (Cyclone, Grapefruit, Fruit selbst ... habe ja Senpai).

Bin dabei jetzt bei 60 angelangt und habe die Grenze gezogen bei 2600 Elo.

- BlackMamba hätte ich noch aufgenommen aber zu viele Zeitüberschreitungen. Den Test musste ich leider abbrechen und auch hier ... wie in so vielen anderen Fällen ... bei den Clones kommt wenig. Wenn plötzlich andere Sourcen besser werden konzentrieren sich die Clone Programmierer auf diese. So waren es zunächst die IPP Sourcen mit unzähligen Clones und nun sind es die Stockfish und GullChess Sourcen.

- Fire habe ich drin, klar denn Houdini basiert zu 99% auf der Arbeit von Norman und Fire hat in Version 4 weniger zu tun mit den klassischen IPPs. Das Endspiel wurde verbessert und taktisch spielt Fire ansprechender als alle mir bekannten IPPs, Houdini selbst ... geht aus meinen Statistiken auch schön hervor.

Also mit den eigenen Maßgaben immer wieder auf CEGT geschaut und dort die Informationen gesucht und natürlich in meiner alten SWCR bei der ich ja auch fast 200 Engine Versionen drin hatte. Nur war mein Buch bei der SWCR nicht so perfektioniert wie das was ich heute einsetze. Auch hatte ich zu viele IPPs drin.

Gegen Ponder entschieden ...
Ja, weil ich einfach immer wieder Mails an die Programmierer geschrieben habe weil bei Ponder = On das Zeitmanagement nicht gut war und es oft zu Zeitüberschreitungen kam. Einige konnte auch kein Ponder = on. Siehst Du ja selbst heute wie ein Hannibal Programmierer auf eine Fehlermeldung reagiert wenn Ponder nicht funktioniert. Natürlich mag ich Ponder = on auch lieber aber ich habe einfach keine Lust mehr Mails zu schreiben. Nicht zuletzt auch ein Grund warum ich keine privaten Engines mehr teste. Da bekommst Du dann mal eine private und es kommt keine Rückmeldung nach einem Test. Kommen neue Versionen der privaten Engines und Du musst den wieder nachlaufen und betteln gehen und oftmals wurde in der Vergangenheit festgestellt das die privaten Engines im Grunde auch wieder nur Clones sind. Von diesen Erfahrungen hatte ich einige und möchte mir die einfach ersparen. Daher auch heute die Statistiken, es ist einfacher zu erkennen ohne zu wissen was programmiert wurde wenn es sich um ein Clone oder eine derivative Engine handelt.

Genug ...

Dir ein schönes WE.

Gruß
Frank
Parent - - By GS Date 2016-02-20 13:03
Ja stimmt !
Wer einen Tester wie Wolfgang Battig in seinen Reihen hat, der hat schon gewonnen.
Was der Wolfgang Woche für Woche abliefert ist einfach grandios.

Ich persönlich arbeite ähnlich wie du, mein erster Blick fällt auch immer auf unsere CEGT 40/4,
einfach weil es die Liste ist, in welcher die grösste Anzahl an Engines mit der grössten
Anzahl an Spielen ist. Und fast alle neuen Engines/Versionen werden sehr schnell eingebunden.
Und die Zeitkontrolle ist nicht gar so gering wie bei manch anderen Listen, welche auch bereits
eine sehr grosse Anzahl an Spielen bieten.
Allerdings werfe ich auch immer einen Blick auf unsere 40/20 und natürlich auch auf die IPON.

h.a.n.d.
Parent - - By Frank Quisinsky Date 2016-02-20 13:23 Edited 2016-02-20 13:33
Hallo Gerhard,

Ingo hat immer sehr eigenwillige Vorgehensweisen (denkt er wahrscheinlich von mir auch).

Auch wenn ich es nie schreiben würde, ist natürlich auch an seinen Thesen etwas dran. Er macht es ja vergleichbar lange wie wir und hat daher einen breiten Erfahrungsschatz. Es macht keinen Sinn den zu untergraben auch wenn wie gesagt zwischen mir und Ingo Meinungen auseinandergehen. Liegt wahrscheinlich auch dran das ich mehr experimentiere als er um vielleicht auch mal etwas in Frage zu stellen was eigentlich gar nicht in Frage gestellt werden kann. Aber nur so kommen meines Erachtens weitere Erkenntnisse hinzu. Liegt ferner daran weil die Interessen innerhalb des Themas unterschiedlicher sind. Blenden wir mal verschiedene Fragen zur Elo Berechnung aus gibt es sicherlich gar nicht so viele unterschiedlichen Meinungen nur unterschiedliche Vorgehensweise die aber nicht schlecht oder schlechter sein müssen (Eröffnungsvorgabe als Beispiel). Ferner hat Ingo ein gutes technisches Verständnis. Was mir an IPON nicht gefällt ist die Hardware, bin einfach kein AMD Fan aus beruflicher Erfahrung heraus. Aber ich verurteile auch niemanden der AMD nutzt, warum auch nicht ... würde es selbst nur nicht tun.

Schaue natürlich auch auf IPON, denn Ingo hat sehr schnell ein Ergebnis.
Nur persönlich interessieren mich die aufstrebende Programme immer mehr als die besten Programme. Ich will sehen wie ein Programm nach oben stürmt. Ist es oben suche ich mir andere Opfer aus die ich beobachte und das Programm verliert ein wenig an Interesse, es sei denn es ist eine taktische Bombe.

Die von Dir angesprochenen Zeitkontrollen sind alle in etwa vergleichbar.
Auch wenn ich mit 40 in 10 bei 4Ghz Hardware sehr nahe an CCRL komme (wäre vergleichbar 40 in 13 zu mir) liegen wir alle im Schnellschachbereich wenn wir die Blitz Listen mal ausblenden. Es gibt nur wenige Engines die vielleicht auch ein wenig zufällig durch minimal höhere Zeitkontrollen auf die entscheidende Tiefe mehr kommen und dadurch stärker werden (Junior oder Zappa als Beispiel).

Ich glaube nicht das ...
Die kleinen Unterschiede zwischen den Ratinglisten zu Stande kommen durch ...

- Eröffnungsvorgaben oder Bücher wenn diese ausgeglichen sind.
- AMD / Intel macht nur im Einzelfall etwas aus und hier auch nur sehr gering.
- Die eingesetzten Bedenkzeiten sind vergleichbar und auch hier gibt es nur wenige Fälle wo es sich bemerkbar macht
- Ponder on/off ... ist das Zeitmanagement OK ist Ponder auch nur eine Zeitverlängerung. Wir haben 35-60% Ponder Treffer, geben also 35-60% mehr Zeit bei Ponder = on. Grob gesagt weil es Engines gibt die mit Ponder Treffern rechnen und sich dann wundern wenn es keine gibt da Ponder = off und in Zeitnot geraten. Nur das kann ich bei Ponder = off nun auch nicht mehr beobachten was ich gerade geschrieben habe und früher eine bekannte These war. Es gibt Engines die haben einfach bei Ponder = on oder Ponder = off eine miserable Zeiteinteilung ... Alfil als Beispiel.

Viele Beeinflussungsfaktoren die in Kombination dann mal hier und da leicht unterschiedliche Ergebnisse erklären.
Ich denke eher das Geheimnis ist zu finden in gleichen Gegnern und vor allem viele Gegner. Würden die Ratinglisten Betreiber alle mehr Gegner und vor allem gleiche Gegner einsetzen wären die Ergebnisse noch näher beisammen.

Nur ...
Entscheidend ist immer das Ergebnis bei den eingesetzten Gegner. Es ist nicht falsch nur weil weniger Gegner eingesetzt werden. Es ist das Ergebnis unter den eingesetzten Bedingungen.

Gruß
Frank
Parent - By Frank Quisinsky Date 2016-02-20 13:52 Edited 2016-02-20 13:55
Ah vergessen ...

Elo = Aussage über die Spielstärke!
Die Frage ist was wir daraus basteln.

Beispiel:
Kasparow hatte mal ca. 2.840 Elo. In dieses Rating sind unzählige WM Partien gegen Karpow eingeflossen.
So wie wir teilweise in der Vergangenheit aufeinander los gegangen sind hätten wir genauso auf das Rating von Kasparow losgehen können.

Hätte Kasparow gegen seinen Angstgegner Gulko so viele Partien gespielt wie gegen Karpow wäre sicherlich hinten keine 2840 rausgekommen. Nur war Gulko nicht sonderlich beliebt weil er seinen Mund aufgemacht hat. Gulko hatte demnach auch nicht die Möglichkeit gegen so viele starke Gegner zu spielen. Er wurde geschickt verbannt wie so viele starke Schachspieler in Russland und Elo von den beliebten Spielern wurde oftmals künstlich nach vorn getrieben.

Bin ja selbst Kasparow Fan und habe seine Spielweise bewundert.
Nicht abfällig gegen Kasparow aber Elo ist nicht immer Elo.

Wir selbst schauten aber immer nur auf das Rating von Kasparow und nicht wie es zu Stande gekommen ist. Hätte Kasparow mehr gegen Iwantschuk gespielt und mehr gegen Gulko gespielt ... hätte Iwantschuk nicht laufend seine Hänger gehabt und Gulko mehr Möglichkeiten gehabt würden heute die Geschichtsbücher etwas anders ausschauen. Gleiches bei der Ehefrau von Gulko ... wo wäre die gelandet wenn nicht so erfolgreich unterdrückt.

Elo = Aussage über die Spielstärke und die wird genauer mit mehr Gegnern bzw. werden weniger Partien erforderlich sein.

So, genug!

Gruß
Frank
Parent - By Frank Quisinsky Date 2016-02-20 13:36
Wolfgang war immer schon ein Fuchs ...

Glaube das ganze Team harmoniert gut.
Zeigt ja wie lange ihr das schon macht.

Nur irgend wann lässt auch mal das Interesse nach.
Zumindest mir geht es immer so.
Gibt auch noch andere Hobbys.

Viele Grüße
Frank
Parent - - By GS Date 2016-02-20 13:06
Frank Quisinsky schrieb:

[...snip...]
- BlackMamba hätte ich noch aufgenommen aber zu viele Zeitüberschreitungen.
[...snip...]


War bei uns für die CEGT 5'+3" pb=on genauso mit der Mamba 2.0.
Die 1.4 hat noch einigermassen funktioniert, die 2.0 ist diesbezüglich
ein Scheissteil.

h.a.n.d.
Parent - - By Frank Quisinsky Date 2016-02-20 13:09
Hallo Gerhard,

dass wusste ich nicht mit der Version 1.4.
Wenn ich mehr Zeit und mal nichts zum testen ist werde ich dann die 1.4 ausprobieren.

Danke für den Hinweis.

Gruß
Frank
Up Topic Hauptforen / CSS-Forum / FCP: Erster Test-Run gegen 59 Gegner ...

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill