Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Rollier-Modus für Rating Listen ... werde das ausprobieren!?
- - By Frank Qy. Date 2015-11-28 22:12
Hallo zusammen,

seit einiger Zeit beschäftigt mich die folgende Idee?!
Nicht weil ich denke, dass meine Liste ungenau ist. Ganz im Gegenteil, durch die vielen Gegner (42 per Test-Run) werden die Ergebnisse früher genauer. Bei meinen statistischen Prüfungen und Vergleichen bin ich stets zufrieden was Abweichungen betrifft die durch mehr Partien zu Stande kommen (halten sich deutlich geringer als ErrorBar).

Nun versuche ich ja Programme zu vermeiden, die auf andere bekannte Sourcen beruhen. Wenn ich daran denke was da nicht schon alles verfügbar ist könnte ich sicher schnell 25-50 von diesen Engines zusammentreiben. Das ist nun nicht der Aufhänger der Idee aber es gibt verschiedene dieser "Based on ..." Programme deren weitere Entwicklung in eigene "vielleicht" Richtungen gehen. Dann interessant wenn die Engines sich in den Stats auffällig von anderen unterscheidet.

Nur möchte ich nicht, dass meine Liste dann irgend wann voll ist von diesen Engines. Muss da ein wenig aufpassen da einige Programmierer die Liste mit Begeisterung verfolgen und ich mit einigen auch auf Fehlersuche mit den produzierten Partien gehe (die Arbeit geht weit über die hinaus die ich eigentlich vor hatte zu tun).

Also könnte folgende einfache Idee das Problem lösen?!

Beispiel:
In meiner Liste findet sich z. B. Sting. Die Engine basiert auf eine ältere Stockfish Version. Der Sting Programmierer probierte einige Dinge aus (eigentlich eher für Analysen). Sting belegt einen festen Platz der 21 möglichen Plätze in meinem Liga System, hier dann in Liga 1. Interesse habe ich z. B. BlackMamba zu testen aber zu viele "Based on ..." Programme macht auf Dauer die Liste nicht attraktiver (siehe meine ehemalige Arbeit mit der SWCR Rating Liste und den vielen Ivanhoes etc..). Wenn ich einen Ivanhoe testete meldeten sich 3 andere IvanHoe Programmierer ich sollte auch diese testen um dann wieder nach einem Test zu schreiben ... bitte die Ergebnisse wieder alle entfernen.

Denke mit Schrecken daran zurück.
Die Ivanhoe Herren waren alles andere als echte Ivanhoe's.

Also Sting raus und BlackMamba rein bei den laufenden Test-runs. Kommt eine neue Sting Version dann BlackMamba raus und Sting rein. So spielen die anderen entweder gegen BlackMamba oder gegen Sting. Wobei jetzt BlackMamba IPP basierend ist aber da unterscheide ich nicht, weil andere IPP basierende, die sich einen festen Platz durch unterschiedliche Spielstile erarbeitet haben (meine persönliche Meinung) aufgenommen wurden (z. B. Equinox oder Houdini basiert auf den ersten lesbaren IPP code den der Fire Programmierer ins Netz stellte ... Robbolite). Wobei mir der Houdini Herr mit seinen vielen Äußerungen (alles ist von mir) nicht  gerade sehr geheuer war ... aber Fans hat er ja gefunden.

So könnte ich z. B. Toga testen und wenn Daniel mit Fruit Reloaded fertig ist dann wechseln zu Fruit Reloaded. Wobei Toga wahrscheinlich kaum noch etwas mit Fruit zu tun hat (Clone Detector Tool). Könnte dann BlackMamba killen und durch Mars ersetzen oder mal diese oder jene Engine von denen aufnehmen. Nur es dürfen nicht zu viele werden weil ja im Grunde dennoch zunächst 2050 Partien gespielt werden müssen. Aber wie gesagt meine Liste ist durch viele unterschiedliche Gegner stark genug dafür, es wird hierdurch keine auffälligen statistischen Ausreißer geben. Habe ich natürlich schon längst ausgetestet so im stillen Kämmerlein ohne das mir jemand über die Schulter ...

Gruß
Frank

Mal hören wie die Idee ankommt ...
Denke das ist die Lösung wenn es darum geht mal einen interessanten Clone zu testen bzw. auch diesen Engines mal etwas Aufmerksamkeit zu geben (wenn es angemessen ist). Kandidaten wären Mars (wobei ich nicht weiß wer der Programmierer ist und insofern scheidet Mars auch wieder aus). Aber BlackMamba wäre z. B. ein Kandidat und könnte dann wie beschrieben Sting ersetzen. Und kein hart erkämpfter Ratinglisten Platz geht für andere Programmierer dabei verloren. Die sind wirklich geil darauf zu sehen wenn sich eine Engine von Platz x auf x verbessert hat und fiebern richtig mit, was mich natürlich dann auch wieder motiviert.
Parent - By Frank Qy. Date 2015-11-28 22:57
Wobei:
Es gibt natürlich Spielstile die sich gleichen aber das auch eher rein zufällig oder auch nicht. Ein bekanntes Beispiel ist Rybka / Naum wobei schon zu sehen ist das Naum aggressiver zu Werke geht als Rybka aber im Endspiel dann nachlässt. Dennoch sind die statistischen Auswertungen sehr vergleichbar ohne jetzt das ich jetzt mit Clone Dectector geprüft habe. Equinox war lange vergleichbar zu den IvanHoe Versionen urplötzlich mit dem gewaltigen Sprung von 2.700 auf 2.900 Elo. Nun Übergang zum Endspiel und im Endspiel selbst sehen die Analysen aber heute komplett unterschiedlich aus und wenn ich auf hier auf Clone Detector achte (habe sämtliche Versionen verglichen) wurden die Unterschiede von Equinox zu Equinox immer größer. Houdini 1.0 ist zu 99% Robolite 0.in den neunzigern. Aber heute kaum noch vergleichbar durch die vielen Änderungen im Endspiel. Die Eröffnung ist zwar genauso passiv wie bei Ivenhoe aber dann mit weniger Figuren auf dem Brett wird der Stil ein anderer. Deswegen auch der hohe Contemp der ziemlich extrem ist wie meine Stats klar aufzeigen.

Nur durch Contemp entsteht auch kein neuer Spielstil.

Was aber auffällig bei Equinox ist ... und das ist selten ... das bei dem 200 Elo Sprung plötzlich der Stil ein komplett anderer war. Das ist eher ungewohnt bei den Verbesserungen durch die Engine Updates. Schönes Beispiel ist der neue Protector der im Endspiel unverändert spielt aber im Übergang zum Endspiel zulegte und genau das brachte kürzlich dann ca. 15 Elo die messbar waren.

Also ...
Spielstärke ist nicht der Punkt der für mich interessant ist wenn die Basic Spielstärke vorhanden ist und eine Engine in die Gruppe anderer passt. Viel wichtiger ist der Spielstil damit es zu Unterschieden kommt und dann das messbare ... messbarer ... wird. Sonst macht die Erstellung einer Liste keinen Sinn wenn es zu einseitig wird ... ist eine solche Liste nicht mehr mit anderen zu vergleichen.

Daher suche ich ja immer nach Möglichkeiten das ein oder andere einzubauen oder auszutesten.
Finde den Rollier-Modus eigentlich gar nicht so schlecht und löst im Grunde auch ein wesentliches Probleme für die Ersteller der Listen die sich oft nicht sicher sind Engine A oder B zu testen.

Gruß
Frank
Parent - By Clemens Keck Date 2015-11-29 09:03
HAllo Frank

ein sehr interessanter Ansatz, das mit den "based on" engines. Bedauerlicherweise gibt es da unglaublich viele Versionen und noch meht ständige updates dieser versionen.

Interessant finde ich Sugar Pro
Auch gibt es Stockfish atomic welche mit dll#s arbeitet. Die scheint mir sehr stark.
Besonders interessant finde ich Synapse

schönen Sonntag noch, Clemens
Up Topic Hauptforen / CSS-Forum / Rollier-Modus für Rating Listen ... werde das ausprobieren!?

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill