Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Drawkiller Openings Project
- - By Stefan Pohl Date 2018-11-23 13:04 Upvotes 3
Das Drawkiller-Eröffnungs Projekt – die Zukunft des Computerschachs

Warum ist es so wichtig, die Remisqouten im Computerschach zu senken?
Dazu muß man zunächst einmal feststellen, daß die Remisqouten im Computerschach immer weiter ansteigen, je schneller die Hardwaregeschwindigkeit ist und/oder je länger die Bedenkzeit gewählt wird. Dieser Zusammenhang ist in allen Ranglisten, die mit unterschiedlichen Bedenkzeiten unter sonst vergleichbaren Bedingungen, erstellt wurden, klar zu sehen. Und auch in Andreas Strangmüllers hervorragenden Experiment, wo Komodo im Selfplay mit vielen verschiedenen Bedenkzeiten mit jeder höheren Stufe deutlich mehr Remisen produziert hat:
http://www.fastgm.de/time-control4.html
Dies zeigt klar, daß das Computerschach unaufhaltsam dem Remistod entgegensteuert, da die Hardware immer leistungsfähiger wird, was längeren Bedenkzeiten auf gleicher Hardware logischerweise entspricht – entscheidend ist ja, wieviele Knoten pro Brettstellung von einer Engine berechnet werden können, insofern sind steigende Hardwareleistung und Bedenkzeit-Verlängerung letzlich dasselbe.
Leider ist es nun aber so, daß steigende Remisqouten das Computerschach nicht nur immer langweiliger machen – das wäre ja letzlich Ansichts- oder Geschmackssache – sondern mehr Remisen bedeuten leider auch eine immer weiter sinkende statistische Ergebnisqualität. Denn eine steigende Remisqoute drückt alle Head-to-Head Erfolgsscores in Engine-Zweikämpfen immer weiter Richtung der 50%-Marke und damit auch alle Eloabstände in einer Engine-Rangliste immer weiter zusammen. Auch das kann man sehr gut in diversen Ranglisten beobachten und es ist ja auch vollkommen logisch: Ein Remis ist ein 50%-Ergebnis. Gibt es mehr Remisen, so gibt es mehr 50%-Ergebnisse und damit wird ein Gesamtergebnis immer näher an 50% herangedrückt. Soweit ganz simpel und logisch. Warum ist das ein Problem?
Interessant ist doch bei Engineturnieren und auch Ranglisten immer die Frage, ob eine Engine A besser ist als eine Engine B. Das festzustellen wird nun zunehmend schwieriger, denn das Problem ist, daß mit den immer weiter steigenden Remisquoten und den damit zusammenrückenden Elowerten in Ranglisten und Turnieren, die Ergebnissicherheit und somit auch die Ergebnisqualität leidet. Denn: Die Errorbars in Turnieren und Ranglisten bleiben immer etwa gleich, da sie primär von der Zahl der gespielten Partien abhängen. Je weiter nun aber die Erfolgsscores und damit die Elozahlen von Engines in Ranglisten und Turnieren aufgrund steigender Remisqouten zusammengestaucht werden, desto mehr Partien müßten logischerweise gespielt werden, um die Platzierungen von Engines in diesen Ranglisten/Turnieren aus den Errorbar-Intervallen herauszubekommen, weil man nur mit mehr gespielten Partien die Errorbars verschmälern kann.

Deshalb ist es so wichtig, den steigenden Remisqouten im Computerschach irgendwie beizukommen. Sonst sind in Zukunft keine Ranglisten und Turniere mehr möglich, da man dann selbst mit kürzeren Bedenkzeiten nicht mehr genug Partien (in halbwegs vertretbaren Zeiträumen) spielen lassen kann, um Ergebnisse zu bekommen, die wirklich noch außerhalb der Errorbars liegen. Mit sich verbessernden Engines und sich immer weiter beschleunigender Hardware ist diese Entwicklung zwangsläufig und unaufhaltsam. Noch kann man mit vertretbarem Aufwand statistisch brauchbare Ergebnisse produzieren. Aber nur, weil die Hardware des normalen Testers (noch) nicht so monströs ist, wie im TCEC. Wollte man mit dem TCEC-Rechner eine Rangliste von Engines erstellen (und die Engines könnten immer alle Cores für eine Partie nutzen) und dies mit einer mittleren Bedenkzeit von vielleicht 5'+3'', dann wäre es m.E. schon heute mit Standard-Eröffnungsvorgaben (Stockfish Framework 8 moves oder FEOBOS oder das HERT-Set etc.) gar nicht mehr möglich in realem Zeitrahmen eine solche Rangliste zu erstellen, bei der die Elozahlen und Eloabstände der Engines außerhalb der Errorbar lägen.
Da diese - fürs Computerschach desaströse - Entwicklung - wie schon erwähnt - logischerweise unaufhaltsam Richtung "normale" Hardware und "kürzere" Bedenkzeit nach unten fortschreiten wird, da die Computer immer schneller werden, bin ich so bemüht, jetzt schon Eröffnungsvorgaben zu entwickeln, die die Remisqouten so weit wie möglich absenken, ohne dabei die Ergebnisspreizung Richtung 50%-Marke zusammenzudrücken. (Es wäre ja simpel, einfach einer Farbe immer einen Turm vorzugeben. Dann hat man sicher so gut wie 0% Remisen, aber eben auch immer 50%-Ergebnisse in allen Engine-Zweikämpfen, da sich dieser extreme Vorteil für eine Farbe bei zufälliger Eröffnungs- und Seitenwahl logischerweise dann auf beide Engines gleichverteilt. Die Kunst besteht also darin, mit Eröffnungsvorgaben die Remisqouten zu senken, ohne einer Farbe extremen Vorteil einzuräumen und das ist gar nicht so einfach!).

Glücklicherweise habe ich nach meinen SALC-Stellungen, welche ja bzgl. niedrigerer Remisqouten schon ein großer Erfolg waren, nun mein neues Drawkiller-Projekt erfolgreich abgeschlossen. Die Drawkiller-Eröffnungsvorgaben bringen eine weitere sehr, sehr deutliche Reduzierung der Remisqouten. In meinen Testruns (5'+3'' singelcore) waren die Remisqouten mit den Drawkiller-Vorgabelinien nur noch etwas mehr als halb so hoch, wie die Remisqouten mit Standard-Eröffnungsvorgaben (Stockfish Framework 8 moves, FEOBOS)!!
Damit sollte die Zukunft des Computerschachs für die absehbare Zukunft gesichert sein und auch in 20 Jahren kann man mit den Drawkiller-Eröffnungsn noch Ranglisten und Turniere mit statistisch brauchbaren Ergebnissen erstellen.


Was sind nun die Drawkiller-Eröffnungen?

Vor einiger Zeit hatte Hauke Lutz die sehr gute Idee, Eröffnungsvorgaben zu erstellen, die nur aus (wenigen) Bauernzügen von Weiß und Schwarz bestehen, und in denen alle anderen Figuren nicht ziehen. Dies hat den Vorteil, daß die Stellungen total unentwickelt bleiben und die Engines alle Figuren selbstständig entwickeln müssen. Er hatte Sets mit 4 pawn-plies, 6 pawn-plies und 8 pawn-plies erstellt, also 2, 3 oder 4 Vollzüge nur mit Bauernzügen. Ohne Schlagzüge und ohne „komische“ Bauernzüge (also kein a4, b4, g4, h4 (bzw. a5, b5, g5,h5 von Schwarz)). Ich hatte dann zunächst die Idee, vor diese Bauernzügen einige Züge vorzusetzen, die die Rochaden nach einer Seite für Weiß und Schwarz sperren, sodaß man nur noch Rochaden zuläßt, die auf gegenüberliegende Brettseiten zeigen. Also die pawn-plies Stellungen gewissermaßen zu „verSALCen“. Dies geht mit (als Beispiel für Weiß:)1.Sa3 2.Tb1 3.Ta1 4.Sb1, was für Weiß die lange Rochade „löscht“), entsprechendes für Schwarz und die kurzen Rochaden. Leider mußten wir feststellen, daß selbst die besten Engines in Testpartien oft lieber gar nicht rochierten, als lang zu rochieren, sodaß gar keine echte SALC-Stellung entstand. Zudem stellten wir fest, daß die ShredderGUI einen schweren Bug enthält, der Eröffungsbuch-Stellungen mit anderen Rochaderechten fälschlicherweise als gleich erkennt. Ich hatte Stefan Meyer-Kahlen per mail kontaktiert und er hat diesen Bug bestätigt. Leider ohne mitzuteilen, ob und wann es da mal ein Bugfix geben wird.
Nach diesen etwas ernüchternden Erkenntnissen, hatte ich dann den brillanten (R)einfall, daß es möglich ist, mit einer (allerdings erheblich lägeren) Zugfolge, die Könige direkt in eine Brettecke wandern zu lassen. Dazu mußte ich nur einen Bauernzug machen, damit Dame und Läufer aus dem Weg ziehen können, der König in die Brettecke wandert und danach Dame, Läufer (und Springer) wieder zurückziehen. Diesen einen Bauernzug (1. e3 oder 1.d3, je nachdem, auf welche Seite der König wandern soll) mußte ich nun nur noch aus den pawn-plies Stellungen herausfiltern, damit er in einer Vorgabelinien nicht zweimal vorkommt (was  natürlich illegal wäre). Und dann konnte ich diese Zugfolgen mit den pawn-plies Linien kombinieren. Zusätzlich kam mir noch die Idee, daß ich nur bei der Farbe, wo der König auf die h-Linie wandert, den Turm auf die e-Linie stelle und bei der Farbe, wo der König auf die a-Linie wandert, den Turm auf die d-Linie stelle und die Dame dafür auf die e-Linie. Dies hat den großen Vorteil, daß sich dann die beiden Damen nie direkt auf derselben Linie gegenüberstehen, was es viel unwahrscheinlicher macht, daß die Damen sich schnell gegenseitig schlagen. Hier nun die beiden Zugfolgen, die ich vor die pawn-plies Züge gesetzt habe:

1. e3 d6 2. Nh3 Na6 3. Bc4 Bf5 4. Ke2 Qd7 5. Na3 Qe6 6. Nb1 Kd7 7. Re1 Rd8 8. Kf1 Kc8 9. Kg1 Kb8 10. Kh1 Ka8 11. Ng1 Nb8 12. Bf1 Qd7 13. Nh3 Qe8 14. Ng1 Bc8

1. d3 e6 2. Na3 Nh6 3. Bf4 Bc5 4. Qd2 Qf6 5. Qe3 Na6 6. Kd2 Nb8 7. Rd1 Ke7 8. Kc1 Re8 9. Kb1 Kf8 10. Ka1 Kg8 11. Qd2 Kh8 12. Qe1 Qd8 13. Nb1 Ng8 14. Bc1 Bf8

Eine komplette Drawkiller-Eröffnungslinie mit 4 pawn-plies Zügen sieht dann z.B. so aus:
1. e3 d6 2. Nh3 Na6 3. Bc4 Bf5 4. Ke2 Qd7 5. Na3 Qe6 6. Nb1 Kd7 7. Re1 Rd8 8. Kf1 Kc8 9. Kg1 Kb8 10. Kh1 Ka8 11. Ng1 Nb8 12. Bf1 Qd7 13. Nh3 Qe8 14. Ng1 Bc8 15. e4 e6 16. d3 d5

Die Länge der Zugfolge ist kein Problem, spielt man Partien mit Inkrement, muß man nur diese Länge mit berücksichtigen, also einkalkulieren, daß z.B. die FritzGUI 16x das Inkrement auf die Basiszeit aufschlägt, bevor die Engines anfangen zu rechnen.Bei x Zügen in y Minuten berücksichtigt man ebenfalls, daß die Vorgabelinie so lang ist, und dann ist alles OK.

Ganz wichtig ist, und das betone ich deshalb hier ausdrücklich: Die Drawkiller-Eröffnungen sind normales Schach. Kein Chess960, ShuffleChess oder sonst eine Schach-Variation! Alle Linien beginnen mit der normalen Schach-Grundstellung und dann folgen nur normale, legale Züge. Weswegen es auch möglich ist, aus den Drawkiller-Eröffnungen ein ganz normales GUI-Eröffnungsbuch für Fritz, Shredder und Arena zu erstellen, was ich auch getan habe.

Die Drawkiller-Eröffnungen haben in meinen Testruns (s.u.) geradezu überragend niedrige Remisqouten erreicht, und zwar ohne die Erfolgsscores der Engines Richtung 50% zu stauchen, ganz im Gegenteil. Denn die Drawkiller-Eröffnungen verknüpfen drei Maßnahmen, die Remisqouten meßbar senken:
1) es sind SALC-Stellungen: Die Könige von Weiß und Schwarz stehen in den gegenüberliegenden Brettecken
2) die Stellungen sind extrem unentwickelt, alle nicht-Bauern-Figuren stehen noch auf der Grundlinie! (Zudem stehen nur 5 der 16 nicht-Bauern-Figuren nicht mehr auf den Feldern der normalen Grundstellung, alle anderen 11 stehen noch dort).
3) Früher Damentausch ist sehr unwahrscheinlich, da die Damen nie auf der gleichen Linie stehen.

Hier nun meine gesammelten Testergebnisse.

(asmFish 170426 vs. Komodo 10.4, 5'+3'', singlecore, no ponder, no endgame-bases, LittleBlitzerGUI, 1000 Partien pro testrun(!) außer bei den Noomen Gambit-lines (nur 246 Stellungen, also wurden 492 Partien gespielt) and Noomen TCEC Superfinal Stellungen (nur 100 Stellungen, also wurden 200 Partien gespielt)):
Stockfish Framework standard 8 move openings: Score 60.3% – 39.7%, draws: 63.4%
FEOBOS v20 contempt 5 top 500 openings: Score 58.7% - 41.3%, draws: 64.1%
HERT 500 set: Score: 60.6% - 39.4%, draws: 60.4%
Noomen Gambit-Lines: Score 59.1% - 40.9%, draws: 59.3%
4 GM-moves short book: Score 60.5% - 39.5%, draws: 57.1%
Noomen TCEC Superfinal (Season 9+10): Score: 62.5% - 37.5%, draws: 50.0%
SALC V5 half-closed: Score 61.6% - 38.4%, draws: 49.2%
SALC V5 full-closed 500 positions: Score 66.5% - 33.5%, draws: 47.7%

NEU:

Drawkiller (Big set): Score 63.8% - 36.2%, draws: 39.5%

Drawkiller (Normal set): Score: 65.3% - 34.7%, draws: 33.5%
Drawkiller (Tournament set): Score: 65.3% - 34.7%, draws: 33.5%

Man sieht, daß die Drawkiller-Eröffnungen nicht nur eine deutliche Verbesserung bzgl. sinkender Remisqouten sind, sondern der Durchbruch in eine neue Dimension! Im Vergleich zu den Standard-Eröffnungsvorgaben wie FEOBOS und den Stockfish Framework 8move Eröffnungsstellungen, hat sich die Remisqoute fast halbiert (!). Selbst im Vergleich mit meinen SALC V5 Eröffnungen und den TCEC-Superfinal Eröffnungen von J.Noomen sind die Remisqouten mit Drawkiller um Längen niedriger. Und die Ergebnisspreizung ist zudem sogar nochmals höher, nicht etwa niedriger. Dies verbessert die statistische Ergebnisqualität um Welten!
Ganz nebenbei sind die viele Partien extrem spannend und spektakulär. Und LC0 hat in einigen Schnelltests bei mir mit den Drawkiller-Eröffnungen sehr gute Ergebnisse erzielt, das Neuralnetz scheint trotz der ungewöhnlich aussehenden Stellungen, dennoch sehr gut mit diesen zurechtzukommen. Vermutlich weil die Stellungen so extrem unentwickelt sind.
Ich kann jedem nur raten, Drawkiller selbst auszuprobieren. Es ist Computerschach, wie es das noch nie zuvor gab. So wenig Remisen und soviel Spektakel gab es noch nie. Nicht mal annähernd!

Die Drawkiller-Eröffnungen können ab sofort auf meiner Website heruntergeladen werden. Es gibt eine eigene Drawkiller-Unterseite, wo der Download zu finden ist. Ebenso der Download aller Testpartien.

Viel Spaß mit Drawkiller-Computerschach – die Zukunft hat begonnen!

https://www.sp-cc.de/
Parent - - By Thomas Müller Date 2018-11-23 15:48
Ach du schei...   viel Text...ich lese es dann nochmal in Ruhe
Danke jedenfalls für das bereitstellen und die ganze Arbeit.....download folgt dann auch

Merci
Thomas
Parent - By Stefan Pohl Date 2018-11-23 16:10
Tja, könnte man vorher schon absehen, wieviel Arbeits- und Rechnerzeit man in so ein Projekt investiert, bis es wirklich release-tauglich ist, würde man gar nicht erst damit beginnen... das hab ich schon bei meinen SALC-Eröffnungen lernen müssen: Egal, wieviel Zeit und Aufwand man kalkuliert, es ist immer mindestens doppelt so viel. Meistens noch viel mehr. In diesem Fall waren aber schon die Ergebnisse der ersten Vorab-Tests derartig überragend gut, daß ich einfach weitermachen mußte!
Parent - By Lothar Jung Date 2018-11-23 16:34
Ein beeindruckendes Projekt mit einem hervorragenden Ergebnis.
Herzlichen Dank für Deine Mühe!
Parent - - By Peter Martan Date 2018-11-23 17:00
Klingt logisch.
Zweifel, dass es nicht den gewünschten Effekt erbringen könnte, hast du ja schon statistisch ausgeräumt, dass die Ratings und die Relationen zu deinen früheren Eröffnungssets vergleichbar sind, auch, bleibt nur ein Einwand für mich:
SALC hat ja schon auf dem Prinzip der ungleichen Rochadeseiten beruht, nun könnte man vermuten, dass die Ergebnisse, die du mit Drawkiller hast, in dieselbe Richtung speziell sind, und sich genau aus diesem einen Grund die Ergebnisse zwischen den beiden Sets im Wesentlichen nur durch die niedrigere Remisquote unterscheiden.

Mit anderen Worten, dass du den Sonderfall einer Rangliste der eigenen Art sowohl mit SALC als auch mit Drawkiller erstellst.

Ist für mich aber völlig in Ordnung, weil jedes Eröffnungsset auf seine bestimmte Art einen ausgespielten Stellungstest darstellt (wohlgemerkt, keinen taktischen_single
_best _move_Suite_Stellungstest, um Verwechslungen mit dem häufigsten Stellungstest auszuschließen) aber einen Stellungstest, halt einen ausgespielten positionellen.

Daher finde ich Drawkiller eine interessante Variante eines Eröffnungssets, die Ergebnisse werden reproduzierbar und vergleichbar mit anderen sein, und wenn es so ist, wie du schreibst, woran zu zweifeln, ich keinen Grund habe, müsste es Partiezahlen und Hardware- Zeit sparen, was ja wohl der Sinn ist.

Gratuliere zum Projekt und danke für die viele gute Arbeit!
Parent - - By Stefan Pohl Date 2018-11-23 17:22 Edited 2018-11-23 17:42
Peter Martan schrieb:

Klingt logisch.
Zweifel, dass es nicht den gewünschten Effekt erbringen könnte, hast du ja schon statistisch ausgeräumt, dass die Ratings und die Relationen zu deinen früheren Eröffnungssets vergleichbar sind, auch, bleibt nur ein Einwand für mich:
SALC hat ja schon auf dem Prinzip der ungleichen Rochadeseiten beruht, nun könnte man vermuten, dass die Ergebnisse, die du mit Drawkiller hast, in dieselbe Richtung speziell sind, und sich genau aus diesem einen Grund die Ergebnisse zwischen den beiden Sets im Wesentlichen nur durch die niedrigere Remisquote unterscheiden.

Mit anderen Worten, dass du den Sonderfall einer Rangliste der eigenen Art sowohl mit SALC als auch mit Drawkiller erstellst.


Das würde ich so nicht sagen. Die Drawkiller Eröffnungen sind ja extrem unentwickelt, während die SALC V5-Eröffnungen aus Menschpartien gefiltert wurden und voll entwickelte Stellungen sind. Bei den Drawkiller Eröffnungen stehen alle nicht-Bauern Figuren auf der Grundlinie und nur 5 von 16 dieser nicht-Bauern stehen nicht mehr auf den klassichen Ursprungsfeldern. Und es sind immer noch alle 32 Figuren auf dem Brett. Insofern unterscheiden sich nicht nur SALC- und Drawkiller-Stellungen und daher auch die Partieverläufe aus diesen Vorgaben ganz wesentlich, ich kann sogar behaupten, daß die Drawkiller-Eröffnungen sich weniger von der normalen Schachgrundstellung unterscheiden, als klassische Eröffnungsvorgaben, die um die 8 Vollzüge tief sind, weil sich dort viel mehr Figuren nicht mehr auf den Ursprungsfeldern befinden und auf den Grundreihe schon gar nicht. Als Advocatus diaboli könnte man also eher im Gegenteil konstatieren, daß klassiche Eröffnungsbücher und Vorgaben viel eher Sonderfälle/Abweichungen vom klassischen Schach darstellen, als die Drawkiller Eröffnungen, weil letztere viel näher an der Grundstellung bleiben... 

Wenn man sich das mal ausrechnet sieht es so aus: Beim Drawkiller Normal und Tournament Set gibt es je 3 Bauernzüge für Weiß und Schwarz und ggf. einen oder zwei weitere Bauern-Luftlochzüge, um die Wege für Dame und Läufer frei zu machen. Rechnen wir hier also mit dem Mittelwert von 3.5 Bauernzügen für Weiß und Schwarz, also 7 Bauern-plies. Dazu stehen 5 der 16 nicht-Bauern Figuren an anderen Positionen. Insgesamt also 12 Abweichungen  (von allen 32 Figuren) für Weiß und Schwarz von der Schach-Grundstellung - und das immer ohne jeden Schlagzug. Dies würde umgerechnet bedeuten, daß nach 6 Vollzügen einer klassischen Eröffnungsvariante es auch schon 12 Abweichungen von der Schachgrundstellung gibt und bei längeren Varianten entsprechend mehr. Von Schlagzügen und der Tatsache, daß die nicht-Bauern-Figuren  nicht mehr auf der Grundreihe stehen, ganz zu schweigen. Ergo, jede Vorgabevariante aus klassischen Eröffnungsvorgaben oder Büchern, die länger als 6 Vollzüge ist, hinterläßt den Engines Stellungen, die der Grundstellung unähnlicher sind, als die Drawkiller-Eröffnungen (!)

Und daß das SALC-Kriterium keine verzerrten Ergebnisse produziert, hatte ich ja schon statistisch absolut zweifelsfrei nachgewiesen 2x15000 gespielte Partien lassen hier einfach keinen Raum mehr für irgendeinen Zweifel. Aber ich kann es ja nochmal hier posten:

Das ist eine These, die bisher nicht belegt wurde. Im Gegenteil. Die einzigen Spielstärkestärkeunterschiede durch Eröffnungsvorgaben, die gemessen werden, hängen immer umgekehrt proportional mit der erspielten Remisquote zusammenn, also je höher die Remisqoute, desto geringer die gemessenen Spielstärkeunterschiede.
Daß bestimme Arten, also andere Stellungstypen, von Eröffnungen wirklich andere Ergebnisse produzeren (also eine Verschiebung von Rangfolgen der Engines in Ranglisten), ist ein unbelegter Mythos. Als ich seinerzeit meine Stockfish-Testruns von meinen SALC-Vorgaben auf das HERT-Eröffnungsset umgestellt habe, war ich gezwungen, meine Datenbank mit den seinerzeit aktuellen Engines neu auszuspielen unter ansonsten identischen Bedingungen. Und meine SALC-Stellungen sind nun mit Sicherheit ein anderer Stellungstyp, als die HERT-Stellungen von Thomas Zipproth, der ja sehr breit gefächerte Eröffungslinien aus Menschen- und Computerschach beinhaltet. Das Ergebnis war eindeutig. Ich kopiere es mal von meiner Website hier rein. 2x15000 Partien, also statitisch relevant. Exakt identische Bedingunen, bis auf das unterschiedliche Eröffnungsset. Und die Rangfolge der Engines in dieser kleinen Rangliste änderte sich nicht. Lediglich die Eloabstände waren mit den SALC-Stellungen größer, weil eben die Remsiqoute mit SALC geringer ist.

Hier der Text:

And, finally, a lot of people said, that SALC-positions are only a small part of all possible chess-openings (thats true), and that using SALC-openings for engine-play will lead to distorted results – and that is not true. Here the proof:

Using the new HERT openings-set (by Thomas Zipproth) for my Stockfish-testing was a great opportunity to compare the gamebases played with HERT (contains positions selected from the most played variations in Engine and Human tournaments) and played with my SALC openings So, here the results. Both gamebases were played with 3'+1'', singlecore, 512 MB Hash. The only difference was the opening-set (HERT / SALC)... 2x 15000 games (!)

HERT:


Program                    Elo + - Games Score Av.Op. Draws

1 Stockfish 170526 bmi2 : 3346 7 7 5000 71.3 % 3171 45.6 %
2 Komodo 11.2.2 x64     : 3314 6 6 5000 66.9 % 3177 45.8 %
3 Houdini 5 pext        : 3299 6 6 5000 64.7 % 3180 48.5 %
4 Shredder 13 x64       : 3119 6 6 5000 37.8 % 3216 43.7 %
5 Fizbo 1.9 bmi2        : 3096 6 6 5000 34.4 % 3221 38.2 %
6 Andscacs 0.91b bmi2   : 3026 7 7 5000 24.9 % 3235 34.9 %


Elo-differences:
1-6: 320 (overall)

1-2: 32
2-3: 15
3-4: 180
4-5: 23
5-6: 70

Games: 15000 (finished)

average game length: +13.7% compared to SALC games (moves), +10% compared to SALC games (time)
White Wins: 5129 (34.2 %)
Black Wins: 3455 (23.0 %)
Draws: 6416 (42.8 %)

SALC V3:


Program                    Elo + - Games Score Av.Op. Draws

1 Stockfish 170526 bmi2 : 3359 7 7 5000 72.7 % 3168 39.9 %
2 Komodo 11.2.2 x64     : 3327 7 7 5000 68.3 % 3175 38.5 %
3 Houdini 5 pext        : 3298 6 6 5000 64.4 % 3180 42.2 %
4 Shredder 13 x64       : 3108 6 6 5000 36.4 % 3218 35.4 %
5 Fizbo 1.9 bmi2        : 3097 7 7 5000 34.8 % 3221 31.1 %
6 Andscacs 0.91b bmi2   : 3012 7 7 5000 23.5 % 3238 27.7 %


Elo-differences:
1-6: 347 (overall)

1-2: 32
2-3: 29
3-4: 190
4-5: 11
5-6: 85

Games: 15000 (finished)
White Wins: 5476 (36.5 %)
Black Wins: 4154 (27.7 %)
Draws: 5370 (35.8 %)

Conclusions:

1) SALC lowers the draw-rate a lot (35.8%) , compared to the HERT openings-set (42.8%) - mention, that the HERT-set was optimized for a low draw-rate. Thomas Zipproth has chosen only lines, which were not too drawish. Using other "classical" openings-sets should lead to a higher draw-rate, than using HERT.
2) The order of rank is the same for all engines in both gamebases = no distorted results playing SALC.
3) The scores of the engines are not getting closer to 50%, using SALC. The Elo-differences are not getting smaller (in fact, they are getting higher! (Elo-differences rank 1 to 6: 320 Elo using HERT, but 347 Elo using SALC), which proofs, that SALC does not contain a lot of lines, which are leading to a clear advantage (and easy wins) for white or black. And bigger Elo-differences make the results statistical more reliable.
4) SALC lowers the average game duration around 10%. That means, that in the same time, +10% more games can be played, which leads to statistical more valuable results in the same time.
Parent - - By Peter Martan Date 2018-11-23 17:54 Edited 2018-11-23 18:02
Ich sehe sehr wohl die Unterschiede, die du beschreibst, und ich bin auch sicher, dass sich das schachlich in deine Richtung auswirkt, Stefan.
Weshalb ich die Gemeinsamkeiten zwischen SALC und Drawkiller auch wichtig fand: du vergleichst jetzt die Ergebnisse der Liste, die du mit Drawkiller erstellst, mit denen der vorigen, mit SALC erstellten, das heißt, die Ratings selbst sind in absoluter Höhe und Relation zueinander durch die vorige Liste geeicht.
Gäbe es keine Gemeinsamkeiten zwischen SALC und Drawkiller, hättest du einen statistisch abgesicherten Grund weniger, anzunehmen, dass die Daten nach wie vor gleiche Spielstärkenverhältnisse innerhalb deines Engine- Pools abbilden.

Und wenn du jetzt noch einmal so deutliche Senkung der Remisquoten hast, bleiben die Unterschiede in den Stellungen trotzdem im selben Rating- Ergebnisbereich, was sonst schon auch noch eines zusätzlichen Versuches zum Beweis bedürfte.
So hast du den schon in der SALC- Liste im Vergleich zu den Listen Anderer erbracht, wichtig ist ja auch, dass es ein gleicher oder wenigstens sehr ähnlicher Engine- Pool ist und sehr ähnliche Hardware- TCs.

Nein, ich find's einfach nur clever, kein Einwand meinerseits, passt alles.

Overall_playing_strength_Puristen könnten Vorbehalte haben, dass sich so ermittelte Ergebnisse noch weiter von dem entfernen, was Menschen spielen, aber der Zug ist ohnehin längst abgefahren.
Wie weit da jetzt dann mit deinem Drawkiller- Set verschiedene Engines in verschiedenen Spielstärke- Kategorien verschiedenen Ergebnisse erspielen würden, bleibt abzuwarten, interessiert aber ohnehin auch weniger und weniger, weil da dieselbe Notwendigkeit zur Relativierung mit anderen Eröffnungssets ja auch mehr und mehr besteht.
Parent - - By Stefan Pohl Date 2018-11-23 17:58 Edited 2018-11-23 18:03
Peter Martan schrieb:

Ich sehe sehr wohl die Unterschiede, die du beschreibst, und ich bin auch sicher, dass sich das schachlich in deine Richtung auswirkt, Stefan.
Weshalb ich die Gemeinsamkeiten zwischen SALC und Drawkiller auch wichtig fand: du vergleichst jetzt die Ergebnisse der Liste, die du mit Drawkiller erstellst, mit denen der vorigen, mit SALC erstellten, das heißt, die Ratings selbst sind in absoluter Höhe und Relation zueinander durch die vorige Liste geeicht.


Äh nein. Eben nicht. Die beiden kleinen Ranglisten mit je 15000 Partien, die ich hier eben gepostet habe, basieren einmal auf einer älteren Version (V3) von SALC und einmal auf dem HERT-Set von Thomas Zipproth, das einen breiten Querschnitt aus klassischen Eröffnungsstellungen beinhaltet und mit SALC und Drawkiller absolut nichts zu tun hat!
Eine Rangliste mit Drawkiller-Eröffnungen zu erstellen, plane ich derzeit noch nicht.
Parent - By Peter Martan Date 2018-11-23 18:06
Ah ja, na aber eigentlich umso besser, ich hab's gerade erst in meinem vorigen Posting noch einmal editiert:
Zitat:

bleiben die Unterschiede in den Stellungen trotzdem im selben Rating- Ergebnisbereich, was sonst schon auch noch eines zusätzlichen Versuches zum Beweis bedürfte.
So hast du den schon in der SALC- Liste im Vergleich zu den Listen Anderer erbracht

Es kommt darauf an, dass du eben sowohl Vergleiche zwischen den alten und den neuen, als auch Vergleiche mit anderen Eröffnungsstellungen hast.
Parent - By Stefan Pohl Date 2018-11-23 18:12 Edited 2018-11-23 18:18
Peter Martan schrieb:

Overall_playing_strength_Puristen könnten Vorbehalte haben, dass sich so ermittelte Ergebnisse noch weiter von dem entfernen, was Menschen spielen


Das stimmt natürlich und ich bin überzeugt, daß solche Einwände kommen.
Aber, wie weiter oben gerade dargelegt und vorgerechnet: Dafür sind die Drawkiller Eröffnungen näher an der Schachgrundstellung als die allermeisten auf Menschpartien basierenden Eröffnungsvorgaben und Bücher. Und das halte ich für das moderne Computerschach im Top-Bereich für weit wichtiger. Insbesondere, wenn man die neuen NeuralNetz-Engines berücksichtigt, welche nahe der Grundstellung so überragend und innovativ spielen.
Parent - - By Michael Scheidl Date 2018-11-23 19:00
Weißquote 64%...65% 
Parent - - By Stefan Pohl Date 2018-11-23 19:55 Edited 2018-11-23 20:08
Michael Scheidl schrieb:

Weißquote 64%...65% 


Wie kommst du denn darauf?

Das sind die Erfolgsscores von asmFish gegen Komodo... nicht die Farbscores! Denn es interessiert ja die Ergebnisspreizung, ich dachte, das wäre klar.

Aber hier noch mal an einem der Testruns erläutert:
Drawkiller (Normal set): Score: 65.3% - 34.7%, draws: 33.5%
Meint: aus den 1000 gespielten Partien holte asmfish insgesamt 65.3% der Punkte und Komodo 34.7%. Und die Remisquote war 33.5%.

Die Weißscores sind bei Drawkiller ganz normal (um 54%, was in etwa bei allen halbwegs ausgewogenen Eröffnungsvorgaben rauskommt). Daher nicht erwähnenswert. Wers genau wissen will, kann die Testgames ja herunterladen und durch ORDO oder Elostat etc. jagen. Ich hatte das zwar gemacht, aber diese Werte waren wie gesagt, normal und daher nicht weiter erwähnenswert.Ich wollte die Leute nicht mit mehr Zahlen zuballern als nötig und relevant...
Parent - - By Michael Scheidl Date 2018-11-23 20:55
Zitat:
aus den 1000 gespielten Partien holte asmfish insgesamt 65.3% der Punkte und Komodo 34.7%.

Ach was, irgendwelche Versionen?
Parent - By Stefan Pohl Date 2018-11-23 21:02
Michael Scheidl schrieb:

Zitat:
aus den 1000 gespielten Partien holte asmfish insgesamt 65.3% der Punkte und Komodo 34.7%.

Ach was, irgendwelche Versionen?


Das steht doch nun im Eingangsposting:
(asmFish 170426 vs. Komodo 10.4, 5'+3'', singlecore, no ponder, no endgame-bases, LittleBlitzerGUI, 1000 Partien pro testrun(!) außer bei den Noomen Gambit-lines (nur 246 Stellungen, also wurden 492 Partien gespielt) and Noomen TCEC Superfinal Stellungen (nur 100 Stellungen, also wurden 200 Partien gespielt)):

Die Engine-Versionen sind so alt, weil ich diese Testbedingungen schon seit meinen ersten SALC-Versionen so nutze. Um die Vergleichbarkeit der Ergebnisse zu gewährleisten, habe ich diese Engineversionen seitdem natürlich weiterverwendet (ebenso das Notebook, auf dem die Tests laufen). Damit der einzige Parameter, der sich ändert, das benutze Eröffnungsset ist.
Parent - - By Guenter Stertenbrink Date 2018-11-24 13:10 Edited 2018-11-24 13:34
ich hab das jetzt nicht alles gelesen, ist etwas lang.

> draws: 33.5%


das hoert sich ertsunlich gut an
Ich werde dann mal testen ...  zunaechst 10s pro Partie auf Tablets

gibt's auch Statistik zu "Ergebnisspreizung" ? Prozent der 1-1 Ergebnisse aus 2 Partien
mit gleicher Eroeffnung und vertauschten Farben

> Ende der Fahnenstange


wieso das ? Gerade erst angefangen, erster Schritt in diese Richtung, andere werden
es aufgreifen. Wer weiss was noch alles geht. Ich hab mich mit aehnlichen
"Ende der Fahnenstange" Prognosen in der Vergangenheit mehrfach geirrt.
Stockfish = Ende der Fahnenstange ? Dann kam alpha0 ...

------------------------------

Sind die entstehenden Partien eher taktisch ? Was sagt LC0 dazu ?
Geht das auch in Menschen-Partien ? Wer blitzt mal 'n paar ?
Parent - - By Stefan Pohl Date 2018-11-24 14:39
In der “Drawkiller openings“ Sektion meiner Website hast du gleich oben den Downloadlink zu den Partien der ganzen Testruns. Dort sind auch alle 3000 Partien der 3 verschiedenen Drawkiller Testruns dabei. Da kannst du dir alles anschauen, mit den Testruns von SALC, FEOBOS, HERT vergleichen und Auswertungen aller Art machen. Ergebnisse würden sicher nicht nur mich interessieren.
Die allgemeine Ergebnisspreizung ergibt sich ja aus den Erfolgsscores, die ich ja gepostet habe. Da hat asmFish gegen Komodo mit Drawkiller Normal und Drawkiller Tournament ja, wie angegeben, 65.3% gescored, was deutlich besser ist, als die Standard Eröffnungssets, wo der Score von asmFish immer bei ca. 60% liegt.
Parent - - By Guenter Stertenbrink Date 2018-11-24 18:38 Edited 2018-11-24 18:47
Code:

-tourn, 1000 , 1.079 , 1.305 , .335 , .312
normal, 1000 , 1.073 , 1.307 , .335 , .320
   big, 1000 , 1.055 , 1.275 , .395 , .340
    fc, 1000 , 1.103 , 1.329 , .477 , .348
  tcec,  200 , 1.230 , 1.250 , .500 , .420
   4gm, 1000 , 1.115 , 1.211 , .571 , .430
   noo,  492 , 1.048 , 1.182 , .593 , .442
  hert, 1000 , 1.128 , 1.212 , .604 , .444
feobos, 1000 , 1.129 , 1.173 , .641 , .478
----------------------------------------------



set
games
white-score
asmfish-score
drawrate
rate of 1-1s

ich musste die Partien zuerst nach FENs sortieren, da ungeordnet 
(wieso ?)

hc  rausgenommen : keine Rueckrunden
Parent - - By Stefan Pohl Date 2018-11-25 10:47 Edited 2018-11-25 10:50
Guenter Stertenbrink schrieb:

Code:

-tourn, 1000 , 1.079 , 1.305 , .335 , .312
normal, 1000 , 1.073 , 1.307 , .335 , .320
   big, 1000 , 1.055 , 1.275 , .395 , .340
    fc, 1000 , 1.103 , 1.329 , .477 , .348
  tcec,  200 , 1.230 , 1.250 , .500 , .420
   4gm, 1000 , 1.115 , 1.211 , .571 , .430
   noo,  492 , 1.048 , 1.182 , .593 , .442
  hert, 1000 , 1.128 , 1.212 , .604 , .444
feobos, 1000 , 1.129 , 1.173 , .641 , .478
----------------------------------------------



set
games
white-score
asmfish-score
drawrate
rate of 1-1s

ich musste die Partien zuerst nach FENs sortieren, da ungeordnet 
(wieso ?)

hc  rausgenommen : keine Rueckrunden


Hallo Günter,

sorry, in der LittleBlitzerGUI laufen bei meinen Testruns mehrere Partien parallel ab und die LBG schreibt die Partien so in das result.pgn, wie die Ergebnisse nun mal einlaufen...

Zunächst mal, vielen Dank für deine Mühe!

ich hab Fragen zu der rechten Spalte (1:1):

- meinst du mit 1:1, daß asmFish eine Partie gewonnen hat und Komodo eine (bei gleicher Eröffnungsvorgabe-Stellung)? Falls ja, wäre ein niedriger 1:1-Wert wünschenswert, denn ein 1:1 hieße dann, daß zweimal dieselbe Farbe eine Stellung gewonnen hat (das will man ja nicht, denn das deutet auf einen deutlichen Vorteil für eine Farbe, aus der Eröffnungsstellung heraus, hin). Oder heißt 1:1, daß eine Eröffnungsstellung einmal mit Weiß und einmal mit Schwarz gewonnen wurde, dann wäre ein hoher 1:1- Wert wünschenswert. Bitte erkläre mir das...
- wie ist der Zahlenwert an sich zu verstehen? Drawkiller tournament hat z.B. .312 als Wert. Heißt das, 31.2% aller nicht-Remispartien waren 1:1-Paare? oder 31.2% alle Partiepaarungen einer Vorgabestellung, in denen es keinerlei Remis gab, waren 1:1 (und dementsprechend 68.8% ein 2:0)? Auch das ist mir nicht klar.

Danke im voraus - Stefan
Parent - - By Guenter Stertenbrink Date 2018-11-25 10:58 Edited 2018-11-25 11:33
1-1 ist entweder 2 Weiss-Siege oder 2 Schwarzsiege oder 2 Remis , asmfish=1 , komodo=1

das ist es, was wir minimieren wollen

Minusrekord bei mir bisher : Frankenstein-Drakula - Gambit  (asmfish gegen asmfish)
Dann Najdorf mit 7.a3  , 12.Sxe6 Figurenopfer

Danach 'ne Luecke ... dann TCEC-11 , salc-hc3396 , Igel , ...

(120+1, x86-Tablet , 4threads , 1700 kn/s in der Startstellung)

ich kann die 500-er pgns hochladen, falls jemand testen will auf seiner Hardware

ich kopiere nochmal eine alte Tabelle aus dem Remistod-Thread
---------------------------------------------------------------------------------------
schneller geht es aufwaerts mit der Remisquote wenn man die engines gegen
sich selbst spielen laesst, wie es die Engine-Entwickler meistens machen,
um neue Ideen zu testen. Da sind die Bewertungen aehnlich und es gibt
nicht diese "Meinungsverschiedenheiten" bezueglich einer Stellung.

Remisquote in % in je 1000 Partien asmFish - asmFish auf
Tablets mit 1900kn/s in der Startstellung (35000 Partien insgesamt)

Code:

Bedenkzeit,no book, HERT-500,topGM-500,SALC-500,opcas-1,noo16-50,feobos-500,average

Remisquoten , drawrates in %

TC     none,hert,GM  ,salc,sahc,opca,noom,feob,zuf , av.
-----------------------------------------------------
0+0.5 :73.0,66.9,66.6,52.8,50.5,57.9,56.5,60.9,57.7 , 60.3
000+1 :76.6,71.3,71.7,55.8,53.1,62.2,63.2,63.9,64.8 , 64.7
000+5 :85.1,78.6,77.9,65.3,60.9,80.5,67.7,74.4,73.7 , 73.8
120+1 :87.4,83.0,79.8,66.9,66.8,79.8,70.3,76.9,77.6 , 76.5
240+2 :88.5,82.6,81.4,65.8,67.9,84.7,73.9,78.4,77.9 , 77.9



Code:

Ergebnisspreizung , decisive pairs in %

TC     none,hert,GM  ,salc,sahc,opca,noom,feob,zuf  , av.    +dr
----------------------------------------------------------------
0+0.5 :38.6,47.2,45.6,50.0,61.0,57.6,51.6,50.2,54.4 , 50.7   1108  
000+1 :35.2,40.6,39.4,52.0,57.2,52.6,49.2,46.4,48.6 , 46.8   1115
000+5 :25.4,31.8,31.2,38.2,48.8,34.2,43.2,35.6,36.2 , 36.1   1099
120+1 :22.6,29.0,29.0,40.5,45.8,33.4,40.4,34.5,35.8 , 34.6   1111
240+2 :20.2,27.8,28.0,40.6,39.6,27.6,37.2,31.0,32.5 , 31.6   1095



AMD Ryzen 1700x , 13 threads, 14800 kn/s

Remisquoten , drawrates:
010+0.5 :
040+1.0 :92.0
045+0.25:
090+0.5 :90.5
180+1.0 :95.7 (500 games only)
360+2.0 :94.0 (748 games only)

526.5,513,512,5,sa-hc500  , 0.5s ,C01, i-Oct03,m4,  37,103,178,134,48    ,13,120,223,117,27 , 13
538.5,569,516.5,sa-hc500  , 1.0s ,C01,i-Nov07,i-Oct03,t4,  33.86,200,133,48 , 9,100,256,119,16 , 16
545.5,661,502.5,sa-hc500  , 5.0s ,C01,i-Nov07,i-Oct03,v5,  21,68,241,139,31 , 4,107,279,100,10 , 31
540.5,679,527.5,sa-hc500  , 120+1,C01, i-Oct03,o1,  20,071,240,146,23    ,03,084,274,133,06 , 20
540.0,720,511.0,sa-hc500  , 300+5,C01, i-Oct03,s0,  17,058,288,102,35    ,01,075,332,085,07 , 42

557.5,609,537.5,salc5-5h  , 5.0s ,T25,an,i-Nov07h,i-Oct03, 18,87,205,142,48 , 02,88,256,141,13 , 16
               ,salc5-5h  , 120+1,T25,  ,i-Nov07h,i-Oct03,
533.5,679,527.5,salc5-5h  , 240+2,T25,au,i-Nov07h,i-Oct03, 23,74,251,117,35 , 02,071,302,120,05 , 19

552.5,584,531.0,sa-sic    , 0.5s ,T30, i-Oct03,n6,  20,085,206,148,41    ,10,097,236,136,21 , 20 , 3628 games

------------------------------------------------------------------------------------------
--------------------------------------------------------------------------------
Parent - By Stefan Pohl Date 2018-11-25 11:43
“1-1 ist entweder 2 Weiss-Siege oder 2 Schwarzsiege oder 2 Remis , asmfish=1 , komodo=1
das ist es, was wir minimieren wollen“

Alles klar, danke für die Info.
Dann sag ich mal, wir haben einen Gewinner... Drawkiller auf Rang 1-3 !
Parent - - By Guenter Stertenbrink Date 2018-11-27 06:40
ein erster Test mit 10000 Partien mit 10s pro Partie ergab 29.5% Remisquote und 41% 1-1-Paare.
Mit SALC oder Zuf hatte ich hier 46% Remisquote und 40%  1-1-Paare
Parent - - By Stefan Pohl Date 2018-11-27 07:39 Edited 2018-11-27 07:52
10“ pro Partie?! Das ist wirklich extrem kurz. Aber OK, jeder, wie er mag. Trotzdem noch ein sehr schönes Ergebnis für Drawkiller: Viel weniger Remisen und praktisch gleich viele (+1% ist nun wirklich vernachlässigbar) 1:1 Paare.
Darf ich fragen, welche der 3 Drawkiller openings du benutzt hast (Big, Normal oder Tournament)?
Bei dieser Gelegenheit möchte ich nochmal betonen, man möge im Zweifelsfall immer Tournament nehmen, sofern knapp 6848 verschiedene Eröffnungsstelllungen reichen, was in 99% aller Turniere und Tests der Fall sein sollte. In einem Head-to-Head reicht das ja für 13696 Partien (Wiederholung mit vertauschten Farben). Das Normal-Set ist bzgl. Remisqoute genauso gut, nur bzgl. der 1:1 Paare etwas schlechter (nur minimal). Das kann man bedenkenlos nutzen und das hat schon über 13000 verschiedene Endstellungen.
Das Big-Set hingegen ist auch bei der Remisqoute in meinen Tests leicht schlechter und sollte nur von Engine-Entwicklern genutzt werden, die.(wie im SF-Framework) auch mal 40000 oder mehr Partien für eine Test eines Patches spielen lassen müssen. Alle anderen sollten das Big-Set nicht benutzen!
Parent - - By Guenter Stertenbrink Date 2018-11-27 08:36 Edited 2018-11-27 09:06
erste Partie mit ...17.b3 c6 , ich hab die umbenannt , abgebrochen nach den ersten ca. 11000 Partien
ich glaube es war "normal" mit ~27000 E.

10+0 gibt bei mir meist aehnliche Ergebnisse wie 0+.5,0+1,0+5,30+0,120+1
bin ganz gut zufrieden damit
nur steigt die Remisquote dann an bei hoeherer Bedenkzeit , s.o.

Standard fuer diese "Buch-Tests" bei mir ist 120+1  (ca. je 200 Partien auf 4 Tablets bisher beendet)
ausserdem 12000 Partien von 147456  10+0
3800 von 13696 mit 0+0.5
etc.

meist teste ich Engine und Buch in einem, aber zur Zeit hab ich keine aktuellen asmFishe
warten auf asmFish-10 ...
Parent - - By Guenter Stertenbrink Date 2018-11-27 17:20 Edited 2018-11-27 17:43
die ersten 716 Partien (von 2000) im tournament-drawkiller set mit 120+1
ergaben bei mir nichts besonderes. Etwa so wie SALC
drawrate=56.8% , 48% 1-1er
auffallend, dass Weiss nur 48.7% holte und die ca. 5 Elo schwaechere Version
war 10 Elo staerker

Partien : http://magictour.free.fr/tourex.7z
Parent - - By Guenter Stertenbrink Date 2018-12-01 10:51
ich teste jetzt hauptsaechlich "dk1h.pgn" , 500 zufaellig ausgewaehlt aus dem 29700er-set.
Mit verschiedenen Bedenkzeiten. (10+0,0+0.5,30+0,0+1,0+5,120+1,240+1)
Das sieht ganz gut aus , z.B.  49.5% Remisquote und 44.8% 1-1er bei 120+1

Beim Vergleich mit obiger Liste muss man bedenken, dass asmFish nun ca 60 Elo besser ist
und contempt hat.

Die beiden 14-Zug-Grundvarianten ergaben  50.2% und 53.9% Remisquote
und 48.8% und 48.0%  1-1er bei 120+1,
Weiss hat hier grossen Vorteil mit 70.3% Weiss-Score.

30000 von 150000 Partien mit 10+0 in "big" sind durch
Parent - - By Stefan Pohl Date 2018-12-01 12:28
Guenter Stertenbrink schrieb:


30000 von 150000 Partien mit 10+0 in "big" sind durch


Was soll das denn werden? Das Drawkiller-Big File enthält 29677 Eröffnungslinien. Man kann also in einem Engine head-to-head maximal 29677 x 2 = 59354 Partien spielen, wenn man wirklich jede Stellung abspielt und mit vertauschten Farben wiederholt. Danach gibt es zwangsläufig Doubletten.
Parent - - By Guenter Stertenbrink Date 2018-12-01 15:29
eins von den Files hatte 73728 FENs
Parent - - By Stefan Pohl Date 2018-12-02 07:14
Guenter Stertenbrink schrieb:

eins von den Files hatte 73728 FENs


NEIN !!!

Das Big-epd-File hat genau 29766 Zeilen mit je einem FEN-Code. Hab es gerade nochmals kontrolliert.

Das Normal-epd-file hat 13318 Zeilen mit je einem FEN-Code

Das Tournament-epd-file hat 6848 Zeilen mit je einem FEN-Code

Guck es dir selbst mit einem Editor mit Zeilenzahlanzeige an (Windows-Editor geht auch), dann siehst du es selbst.
Parent - By Stefan Pohl Date 2018-12-02 10:27 Edited 2018-12-02 10:29
Nur das Roh-Daten file hat 73728 Linien.
Allerdings steht sowohl auf meiner Website, als auch in der beigefügten html-Datei, die Drawkiller erläutert, als auch noch mal als ReadMe-File in den beiden raw-data Ordnern (für alle, die nicht wissen,was Roh-Daten heißt), also insgesamt 4x im Download-Paket (!!!):

Zitat aus dem ReadMe-File:

"The raw data is included, to rebuild the drawkiller openings in the future, based on evaluations of
newer engines and better hardware.
NEVER USE THE RAW DATA sets for engine-play. The lines/endpositions are unchecked and some of them are
very bad for white or black !!!"


(Zitatende)

Zudem heißt das Roh-Daten File mit den 73728 Linien noch 8pp_unchecked.pgn...

Parent - - By Stefan Pohl Date 2018-12-01 12:34 Edited 2018-12-01 12:44
Guenter Stertenbrink schrieb:


Die beiden 14-Zug-Grundvarianten ergaben  50.2% und 53.9% Remisquote
und 48.8% und 48.0%  1-1er bei 120+1,
Weiss hat hier grossen Vorteil mit 70.3% Weiss-Score.



Die beiden 14-Zug-Grundvarianten ohne die angehängten pawn-plies sehen so aus:





Komodo und asmFish zeigen in beiden Endstellungen weniger als +0.20 Vorteil für Weiß. Was auch sonst? Die Stellungen sind total ausgeglichen. Das sieht doch nun wirklich jeder.

Glaubt wirklich irgend jemand, Weiß würde hier so großen Anzugsvorteil haben, daß er 70% der Punkte holt? Lächerlich! Wenn sowas wirklich bei deinen Tests rauskommt, dann sind deine Tests total daneben.
Parent - - By Guenter Stertenbrink Date 2018-12-01 15:35 Edited 2018-12-01 15:39
kann natuerlich immer sein, dass irgendwo ein Fehler ist, aber ich seh' noch keinen,
und das Turnier lief normal durch wie meine vielen anderen Turniere.

ich lad' mal die Partien hoch :  http://magictour.free.fr/tourgaa.7z
Parent - By Stefan Pohl Date 2018-12-02 07:27
Ich kann nur sagen, das Ergebnis (70.3% Weiß-Score) ist offensichtlich absurd. Das sieht jeder, der sich die Stellungen ansieht.
Zudem hat eines meiner Drawkiller-epd-files laut dir angeblich 73278 FEN-Codes (siehe Posting weiter oben), was ebenfalls völlig absurd ist. Das sieht jeder, der sich Drawkiller herunterlädt und die epd-Files ansieht.

"Tests" auf diesem Niveau werde ich nicht weiter diskutieren. Dafür ist mir meine Zeit zu schade. Daher klinke ich mich an dieser Stelle aus.
Parent - - By Stefan Pohl Date 2018-12-01 11:54
Guenter Stertenbrink schrieb:

die ersten 716 Partien (von 2000) im tournament-drawkiller set mit 120+1
ergaben bei mir nichts besonderes. Etwa so wie SALC
drawrate=56.8% , 48% 1-1er
auffallend, dass Weiss nur 48.7% holte und die ca. 5 Elo schwaechere Version
war 10 Elo staerker

Partien : <a class='ura' href='http://magictour.free.fr/tourex.7z'>http://magictour.free.fr/tourex.7z</a>


Da stimmt irgendwas nicht. Die Remisqoute müßte erheblich niedriger sein, als beim klassischen SALC.
Beim kurzen drüberschauen über die Partien, hab ich gesehen, daß nur ein Teil der Vorgabestellungen doppelt abgespielt wurden (mit vertauschten Farben wiederholt), wie man es erwarten würde. Viele Stellungen wurden aber 4fach-abgespielt ??? Gleich Partie 3-6 enthält 4x dieselbe Vorgabestellung.
Da ist also ganz schwer der Wurm drin. Es ist klar, daß kein valides Ergebnis rauskommen kann, wenn man Stellungen doppelt oder 4fach ausspielt. Entweder man spielt jede Stellung 1x aus (wie bei einem Eröffnungsbuch), oder doppelt (wiederholt mit vertauschten Farben). Das wäre OK. Aber doppelt und 4fach wild gemixt, da kann nichts Brauchbares bei rauskommen.
Beispiel Partie 25-29: 4x Remis mit einer Vorgabestellung. Das muß ja das Ergebnis verfälschen.
Parent - By Guenter Stertenbrink Date 2018-12-01 15:26 Edited 2018-12-01 16:25
es sind just die Eroeffnungen aus Deinem Turnier, unsortiert (als ich das Turnier startete hatte ich noch nicht nach FENs sortiert)
Da Du bereits doppelt gespielt hattest, werden also insgesamt 4 mal die Eroeffnungen bei mir gespielt,
2000 Partien.

Drawkiller_tournament.pgn  aus testruns_salc_feobos.zip

mittlerweile sind 1289 Partien durch. Er war zwischendurch abgestuerzt mit aufgeblaehter Batterie,
Das passiert leider ziemlich oft und es gibt keine Ersatzbatterien.
Aber das Turnier wird dadurch normalerweise nicht gestoert, nur unterbrochen.

-------------------
Weissscore = 51.9% , Remisquote = 53.7% , 1-1er = 47.6%    merkwuerdig
- - By Frank Quisinsky Date 2018-11-23 17:34
Hallo Stefan,

schön, dass Du weiter optimierst an Deinen Eröffnungsideen.
Wünsche Dir viel Spaß und Erfolg und im Urlaub schaue ich mir dann auch alles in Ruhe an.

Viele Grüße
Frank
Parent - - By Stefan Pohl Date 2018-11-23 18:49 Edited 2018-11-23 18:53
Die Drawkiller Eröffnungen sollten nun das Ende der Fahnenstange sein, was Senkung der Remisqouten angeht. Ich denke, mehr geht einfach nicht. Denn aus meiner nun schon seit Jahren andauernden Beschäftigung mit diesem Thema, habe ich abgeleitet, daß es nur 4 Kriterien für Eröffnungsvorgabestellungen gibt, die die Remisqouten wirklich meßbar senken, ohne eine Farbe zu stark zu bevorteilen:

1) SALC-Stellungen, also Könige auf gegenüberliegenden Brett-Flügeln
2) Möglichst wenig entwickelte Stellungen, also möglichst viele Figuren noch auf ihren Ursprungspositionen bzw. auf der Grundreihe und möglichst wenig offene Linien.
3) Möglichst geringe Wahrscheinlichkeit für frühen Damentausch
4) Gambit-Stellungen

Meine Drawkiller Eröffnungen beinhalten nun Punkt 1-3 m.E. nach bestmöglich, wenn nicht sogar optimal. Punkt 4 ist für größere Eröffnungssets unpraktikabel, da es einfach viel zu wenige Gambits gibt, erst recht solche, die eine Farbe nicht zu stark bevorteilen (s.o.). J.Noomen hat nur 246 Eröffnungslinien in seinem Gambit-Buch und Set, die er als spielbar erachtet. Also lächerlich wenig. Drawkiller Normal enthält über 13000 Linien, Drawkiller Big sogar fast 30000...

Daher denke ich, mit Drawkiller ist das Thema Remisqoutensenkung ohne Zerstörung der Ergebnisspreizung ausgereizt. Weswegen ich auch die unevaluierten Rohdaten in den Download gepackt habe. Damit wird es in Zukunft möglich sein, die Drawkiller-Linien mit besseren Engines und/oder schnelleren Rechnern neu durchzukalkulieren und zu filtern. Also ist das Drawkiller-Konzept auch zukunftssicher. Eben weil ich glaube, daß das Konzept an sich nicht mehr zu verbessern ist.
Parent - - By Reinhold Stibi Date 2018-11-24 11:01
Das neue Projekt finde ich prima.

Außerdem ist Deine Webseite sehr gut.

Nur verstehe ich nicht, warum in englischer Sprache.
Bist Du Engländer oder wohnst Du im Ausland ?

Auch wenn englisch eine internationale Sprache ist sollte die Heimatsprache
an erster Stelle kommen.
Parent - - By Stefan Pohl Date 2018-11-24 11:07 Upvotes 2
Mit einer deutschsprachigen Website erreicht man 99% aller Computerschach-Interessierten weltweit nicht. Insofern ist Englisch diesbzgl. alternativlos. Und für eine zweisprachige Website fehlt mir wirklich die Zeit.
Aber, wie jetzt hier wieder bei Drawkiller zu sehen: Zu wichtigen Projekten mache ich hier im Forum ausführliche, deutschsprachige Postings.
Parent - - By Reinhold Stibi Date 2018-11-30 13:21
Wollte gerade eine Testreihe mit Stefan Pohls Drawkiller Openings
mit Lc0 und Stockfish auf ChessBase 15 machen, funktioniert aber leider nicht.
Bei Engines Machtes wird das Buch nicht angesprochen. Die Engines rechnen von der Grundstellung.

Warum nicht ? , Stefan Pohls Buch Vorgabe 4 Eröffnungszüge hat doch funktioniert.
Parent - - By Stefan Pohl Date 2018-11-30 13:30 Edited 2018-11-30 13:38
Reinhold Stibi schrieb:

Wollte gerade eine Testreihe mit Stefan Pohls Drawkiller Openings
mit Lc0 und Stockfish auf ChessBase 15 machen, funktioniert aber leider nicht.
Bei Engines Machtes wird das Buch nicht angesprochen. Die Engines rechnen von der Grundstellung.

Warum nicht ? , Stefan Pohls Buch Vorgabe 4 Eröffnungszüge hat doch funktioniert.


Das FritzBuch muß in den Buch-Optionen mit Partienminimum=0 gesetzt werden, wie auch im beigefügten .jpd-Bild in den Fritz-Buch Ordnern zu sehen, sonst geht es nicht.
Denn die FritzGUI erstellt nur absolut identische Ausspielwahrscheinlichkeiten, wenn man in den importierten Partien bei der Buchgenerierung alle Ergebnisse löscht und auf "*" setzt. Dann muß man aber eben in den Buchoptionen Partienminimum auf 0 setzen, nicht 1 oder so.
Ergo: Alles so einstellen, wie in dem .jpg-Bild zu sehen, dann funktioniert es auch! Zumindest bei mir in der Fritz13 und Fritz16 GUI.
Parent - - By Stefan Pohl Date 2018-11-30 13:52
Da ich ChessBase nicht besitze, bitte ich um Rückmeldung, ob es funktioniert, wenn die Buchoptionen exakt so eingestellt wurden, wie im .jpg-Bild angegeben...
In der FritzGUI geht es definitiv, sollte es (wider Erwarten) in Chessbase nicht klappen, wäre das ein Bug in Chessbase... dann könnte ich die FritzBücher auch nochmal erstellen und zwar so, daß sie auch mit Partienminimum=1 funktionieren.
Parent - - By Reinhold Stibi Date 2018-11-30 14:04
Vielen Dank !,

habe mich falsch ausgedrückt, muss nicht ChessBase 15 sondern natürlich Fritz 15 heißen.

Funktioniert jetzt einwandfrei. Musste auch den Haken bei Fritz Buch entfernen.
Parent - By Stefan Pohl Date 2018-11-30 14:24
Schön. Dann wünsche ich viel Spaß mit Drawkiller...
Im Zweifelsfall das tournament-Buch benutzen, das reicht von der Größe her völlig aus. Aus diesem und aus dem Normal-Buch müssen immer genau 17 Vollzüge ausgespielt werden (Big: 18), und dann müssen die Engines losrechnen.
- - By Guenter Stertenbrink Date 2018-12-09 07:34
7000 games , x86 tablet , Cfa (chess for android) , TC=120+1 ,
4cores , 1700 kn/s in the startposition ,
asmFish 2018/06/16 - asmFish 2018/09/24
"drawkiller" openings

whitescore=52.43%
drawrate=51.5%
Elo=+4.8 for Sep24
1-1 pairs = 44.4%  (2 whitewins or 2 blackwins or 2 draws in 2 games with reversed colors)

games: http://magictour.free.fr/dk7000.7z

looks very good for engine  tests to reduce the drawrate and
1-1-pairs, while keeping the normal Elo-differences

----------edit 2018/12/09--------------

1000 games at 240+2 :
whitescore=53.55%
drawrate=53.3%
Elo=+5.0 for Jun16
1-1 pairs = 48.8%

to compare : best so far (500-opening-sets) at 240+2 was
SALC with 65.8% drawrate and 59.4% 1-1-pairs
Parent - By Stefan Pohl Date 2018-12-09 11:12
Dieses Ergebnis sieht realistisch aus. Im Selfplay von Stockfishen hat man immer hohe Remisquoten, aber sie ist mit Drawkiller signifikant niedriger als bei SALC. Was allen meinen Messungen entspricht (und ich habe während der Entwicklung von Drawkiller weit mehr Testruns gemacht, als ich veröffentlicht habe und in allen hatten die Drawkiller-Betas signifikant weniger Remisen als SALC (und natürlich noch viel weniger als normale Eröffnungsvorgaben, das versteht sich von selbst)).
- - By 2phil4u Date 2020-05-24 09:53 Edited 2020-05-24 10:13
Sinkende statistische Ergebnisqualitaet.
So ein Quatsch. Viele Remis reduzieren sie
Standardabweichung deutlich und
man sieht viel schneller korrekte Ergebnisse.
Beispiel
Engine a holt im Schnitt 45 Prozent der Punkte.
Wenn nun zu 80 % Remis gespielt wird gewinnt Engine a 5 % und verliert 15 %.
Varianz = 0.8 * 0,05 hoch 2 + 0.05 * 0,55 hoch2 + 0,15 *  * 0,45 hoch 2. = 0,0475
Die Wurzel 0,218.
Ohne Remis Abweichung etwa 0,5.
Bei noch stärkerer Hardware gibt es noch mehr Remis, gewinnen tut fast nur die stärkere Seite und man braucht viel weniger Spiele um die Elos gut zu schätzen.
Ich habe mich gerade damit beschäftigt und bei sehr hoher Remis Quote und niedriger Standardabweichung hat man Bsp nach 1000Spielen eine Standardabweichung von siehe oben insgesamt weniger als 7 bei erwarteten 550 zu 450.
Selbst die 3 fache Abweichung bedeutet nur 530 zu 470 während ohne Remis die Abweichung 17 ist.
Die Mathematik muss man verstehen, aber die Logik sollte klar sein.
Wenn eine engine zu 96 Prozent Remis spielt und zu 4 Prozent gewinnt muss man nicht so viel spielen um genaue Ergebnisse zu haben.
Nur wenn der Elo Unterschied groesser wird sieht es anders aus, aber das waere wiederum sehr unlogisch.
Die schwächere Seite wird auch oft gewinnen.
So gesehen musste der Elo Unterschied enorm ansteigen, um wie oben die 0,25 Standardabweichung Richtung 0,5 zu steigern.
In jedem Fall dürfte der grosse Unterschied zwischen verlorenen und gewonnen Partien statistisch immer aussagekräftiger sein.
Parent - - By Walter Eigenmann Date 2020-05-24 10:11
2phil4u schrieb:

Sinkende statistische Erlebnisqualitaet.

Genau, Statistik hat wenig Erlebnisqualität, und damit sinkt meist auch die Ergebnisqualität...

.
Parent - - By Volker Pittlik Date 2020-06-06 16:25
Walter Eigenmann schrieb:

...Genau, Statistik hat wenig Erlebnisqualität, und damit sinkt meist auch die Ergebnisqualität...



Aber nur im Durchschnitt!
Parent - By Walter Eigenmann Date 2020-06-06 16:30
- By 2phil4u Date 2020-05-24 10:14 Edited 2020-05-24 10:21 Upvotes 1
Smartphone Autokorrektur.
Was hat das mit der Aussage zu tun?
Ich habe Mathematik studiert, wenn du es nicht glaubst frage in Matheforen nach bezüglich der geringeren Varianz zumindest bei gleichem Eloabstand.
Der riesige Vorteil bei der Frage welche Instanz besser  ist duerfte riesen Vorteile bringen bei sehr starker Hardware
Zb Alpha zero gegen Stockfish. Alles Remis ausser
Gewinne Fuer die eine Seite.
Ob die Elo Unterschiede bei weniger Remis groesster werden ist eine Frage und selbst dann kann eine enorme Remis Quote genauer sein.
Up Topic Hauptforen / CSS-Forum / Drawkiller Openings Project

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill