Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Stellungstest mit UHO
- - By Peter Martan Date 2023-01-05 09:50 Edited 2023-01-05 10:06 Upvotes 2
Ich hoffe, Stefan Pohl hat nichts dagegen, dass ich sein Eröffnungsset auch mal dazu missbrauche, aber so schön, wie er das hier

https://www.sp-cc.de/uho_2022.htm

zum Download anbietet, und vor allem auch in den Sets mit Quellenangaben und Evals dokumentiert (danke bei der Gelegenheit mal wieder herzlich dafür!) hab' ich mir gedacht, eigentlich wären solche unbalancierte Eröffnungsstellungen doch in einen Mix einer Stellungstest- Suite erst recht gut integrierbar, wenn man die multiplen "Lösungen", die Eröffnungsstellungen ja in aller Regel haben, mit dem MEA- Tool und der dazu notwendigen Punkte- Vergabe pro Stellung und Lösung versähe, so wie's Ferdinand Mosca mit Ed Schröder ja auch schon für den alten STS gemacht hat.

Davon (der Strategic Test Suite von Swaminathan und Corbit revised von Schröder und Mosca) aber nur den 594 "schwersten" daraus (allzu viele allzu leichte kosten selbst bei VSTC Hardware- Zeit und relativ dazu auch Diskrimination, zuviele Lösungen relativ zur Gesamtzahl stellen praktisch zuviele Remis dar im Vergleich zu eng-eng-matches), dazu taktischen Stellungen aus Eret und Arasan- Suiten (die für die besten Engines nur mehr für single thread und 1"/Stellung schwer genug sind) und jetzt mal versuchsweise 140 UHO- Stellungen aus dem 6Züge- Set, haben alle von mir neue Punkte pro Lösung in der MEA- Syntax bekommen.

Hab's Ed Schröder in seinem eigenen Forum auch schon geschildert, dieses mein Vorhaben

https://prodeo.actieforum.com/t989-sts-re-re-re-re-re-visited#11519

aber vorläufig keine Antwort bekommen, ich hätte vielleicht nicht auch noch gleich von EloStatTS anfangen sollen, aber könnte man damit auch kürzere als 1" pro Stellung - TCs ablaufen lassen und multiple Lösungen verschieden gut bewerten lassen, das wäre vielleicht noch eine Nummer besser (für Eröffnungen wohl unumgänglich, die graduierte Bewertung mehrerer Lösungen, single best move macht die Auswahl zu klein und oder zu leicht, und einfach mehrere Lösungen als gleichwertig zu adjudizieren durch's GUI, macht die Schwierigkeit dieser Stellungen noch geringer).

Hier mal ein erster Probeballon mit dieser Suite, die jetzt 1024 Stellungen beinhaltet, hier kann man sie alle gemeinsam runterladen:

https://www.dropbox.com/s/s0k2b9u21t1dm68/MEA1K.epd?dl=0

, die UHOs sind am Ende der Sammlung leicht erkennbar an den langen Partie- Namen,
erste MEA- Ergebnisse mit einem bunten Mix an Engines und Hardware- TCs (die Vergleichbarkeit zwischen SF und LC0 beginnt bei 500msec für LC0 mit der 3070ti GPU und 200msec für SF auf 8 Threads der 16x3.5GHz CPU:



Ich finde, dass der Brückenschlag zu eng-eng-game playing schon irgendwie besser und besser gelingt, natürlich stehen die Ergebnisse nach wie vor für sich allein, aber als Verlaufskontrolle von Engine- Versionen, Branches und Netzen (LC0 vor allem) ist das relativ zum Hardware- Zeitaufwand schon wieder ein weiteres gutes Tool für mich. Auf 2048 (mit zusätzlich noch früheren balancierten Eröffnungsstellungen und dem kompletten STS) werde ich noch gehen, dann wird der Hardware- Zeitaufwand ohnehin auch wieder einer am Limit des sinnvollen sein, schätze ich. Das sind jetzt mal 931, die mit einem Maximum von 500msec/Stellung (LC0) eine Viertelstunde zum Durchlaufen brauchen.
Auch davon hab' ich schon erste runs mit wenigen Engines:

Parent - - By Stefan Pohl Date 2023-01-05 14:28 Upvotes 2
Ergänzend kann ich sagen, daß auch die Rohdaten in dem Uho 2022 Download enthalten sind. Also alle analysierten Linien mit einem Eval Bereich von -1.99 bis +1.99.
Dort kann man sich dann Linien mit allen gewünschten Evalwerten/Intervallen selbst herausfiltern.
Falls man experimentieren will...
Parent - - By Peter Martan Date 2023-01-05 14:57 Edited 2023-01-05 15:08 Upvotes 1
Ja, sehr praktisch. Mir kommt's ja immer nur auf alle diejenigen ersten Folgezüge an, die ähnlich stark sind, die bekommen dann, wie du vielleicht schon gesehen hast in der .epd- Sammlung, eine ihrer Relation zu "Schwierigkeit" und der Qualität der alternativen Kandidaten entsprechend hohe oder niedrige Punktezahl in der MEA- Syntax. Ausgelassen habe ich von den ersten 140, die ich jetzt mal verwendet hab', nur 5, deren erster Zug zu eindeutig (zu "leicht") für einen Stellungstest wäre.

Bei den Eröffnungsstellungen der ganzen Suite hab' ich prinzipiell versucht, je Grundstellungs- näher sie sind, umso relativ höher zu bewerten bei gleicher Wahrscheinlichkeit, dass sie gewählt werden und gleicher Eval- Relation, weil ja auch Engine- Evals umso mehr zählen (das ist nach wie vor eine Schwachstelle auch der SF- Umrechnung) je weniger Entwicklung schon stattgefunden hat, bzw. die richtige Wahl der Züge für den weiteren Spielverlauf umso mehr Auswirkung hat, je früher in der Partie sie erfolgt.

So bedeutet eine SF- Eval von 1.00 natürlich nach wie vor nicht dasselbe in der Eröffnung, wie sie im Endspiel bedeuten würde oder sollte, dort heißt ja ein 1.00 von SF, wenn schon nur mehr wenig Material am Brett ist, eher dass es ziemlich sicher Remis ausgehen wird, weil ansonsten schon eine sichere Gewinn- Eval ausgerechnet werden könnte gemeinsam mit den tbs, als das, was sich die Entwickler jetzt an 50%- Wahrscheinlichkeit zwischen Remis und Gewinn von einem 1.00 wünschen würden.

Danke nochmals für deine schönen Sets und ihre tolle Dokumentation.
Parent - - By Peter Martan Date 2023-01-06 22:52 Edited 2023-01-06 22:59 Upvotes 1
Zitat:

Bei den Eröffnungsstellungen der ganzen Suite hab' ich prinzipiell versucht, je Grundstellungs- näher sie sind, umso relativ höher zu bewerten bei gleicher Wahrscheinlichkeit, dass sie gewählt werden und gleicher Eval- Relation,

Ja, das hab' ich aber übertrieben quantitativ und daher die Punktewerte der Eröffnungsstellungen wieder etwas reduziert. Das hat ansonsten die Ergebnisse wieder zu sehr in Richtung Eröffnungsstärke nivelliert, kommt damit zwar den Ergebnissen vom eng-eng-match näher, aber es soll ja kein Ersatz für solche sein, sondern eine Ergänzung. Mit der neuen Fassung hoffe ich ein noch besseres Mittelding  zwischen eng-eng und vorwiegend taktischen Stellungstests zu haben, für die man, wenn sie etwas schwerere Stellungen enthalten, längere TCs braucht, für das hier ist nach wie vor eine von 200-500msec/Stellung auf moderner Hardware von single thread bis SMP gedacht:

https://www.dropbox.com/s/5vyr60lb499xyba/MEA1K.epd?dl=0

So sehen dann die Ergebnisse aus:



Ein Set von 2048 Stellungen hab' ich zwar auch fertig und hochgeladen,

https://www.dropbox.com/s/n25gc61wn1411f2/2048.epd?dl=0

, damit bin ich aber gar nicht zufrieden, erstens sind die Eröffnungs- Punkte noch die vom alten 1024er, das ließe sich ändern, aber zweitens macht der darin komplett enthaltene STS mit Moscas automatisiert durch SF- Evals gewonnenen Punkten erst recht wieder weniger Diskrimination relativ zum statistischen Error. Und wenn man dann noch den größeren Hardware- Zeit Aufwand einrechnet, ist das 1024er Set für mich das beste bisher für very short TC und MEA.
Parent - By Peter Martan Date 2023-01-07 10:43 Edited 2023-01-07 10:48 Upvotes 1
Zitat:

damit bin ich aber gar nicht zufrieden, erstens sind die Eröffnungs- Punkte noch die vom alten 1024er, das ließe sich ändern

und zweitens lässt es einen natürlich sowieso nicht ruhen

Die Neufassung vom 2048er Set:

https://www.dropbox.com/s/5eqjhca2e7zi1xd/MEA2K.epd?dl=0

Die Punkte für die Eröffnungsstellungen hab' ich angepasst, erste Ergebnisse siehe hier:



Man muss es einfach, um die Diskrimination und die Hardwarezeit zu verbessern, mit 100-300msec durchlaufen lassen statt mit 200-500 beim 1024er. Natürlich leiden darunter die größeren Netze bei LC0 relativ zu den kleineren, aber das tun sie ja im STC auf mittelstarker bis schwacher Hardware auch im game playing dieser Engine. Und es ist bei SF ebenso, SF15 mit dem kleineren Netz schneidet  besser ab als SF 230101 (wenn auch nur marginal, für mich einfach ein schöner Beweis, dass die Sache gut reproduzierbar ist, sogar SMP, so gering, wie die Unterschiede einzelner Runs nahe beisammen liegender Engines sind, schließlich sind's ja im game playing auch nur ein paar Elo zwischen SF15 und SF15.1, beachtlich finde ich vor allem, dass es bei 200msec single thread sogar aufs Elo- Pünktchen genau gleich ist, Nr. 7 und 8 in der Liste, obwohl bzw. weil SF dev. ein paar Stellungen mehr löst, die Punkte aber ein paar weniger sind. Das spricht mir auch irgendwie für die Wirksamkeit der Punktevergabe in Hinblick auf den statistischen Irrtum.)

200msec und single thread wäre vermutlich (weil determiniert) besser als SMP und 100, vor allem für die Versions- und Netzvergleiche intern, für ein breiteres Spektrum an Engines ist's vermutlich ziemlich egal.
Up Topic Hauptforen / CSS-Forum / Stellungstest mit UHO

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill