Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Großes Experiment mit 8 Eröffnungs-Sets
- - By Stefan Pohl Date 2019-01-06 13:06 Edited 2019-01-06 13:23 Upvotes 3
Lohnt, da mal reinzuschauen. Ich habe mit 8 verschiedenen Eröffnungs-Sets (Drawkiller tournament, SALC V5, Noomen (TCEC openings Season 9-13 Superfinal and Gambit-openings), Stockfish Framework 2-moves and 8-moves openings, 4 GM moves (out of MegaBase 2018, checked with Komodo), the HERT set by Thomas Zipproth and FEOBOS v20.1 contempt 3 ) jeweils ein 2100 Partien RoundRobin mit den Top7- Engines spielen lassen. Also 16800 Partien insgesamt.

https://www.sp-cc.de/experiments.htm

Die Ergebnisse sind interessant und aufschlußreich. Und in mancherlei Hinsicht auch desillusionierend. Letzteres ist ja eigentlich positiv, aber mach einer hängt ja gerne Illusionen nach. Dann wird es wohl eher ernüchternd wirken.

Es ist viel zu viel Text und vor allem Daten, um das jetzt hier alles reinzukopieren und auf Deutsch zu übersetzen. Das sehe man mir bitte nach.
Parent - - By Peter Martan Date 2019-01-06 13:24
Stefan Pohl schrieb:

Lohnt, da mal reinzuschauen.

In der Tat, nun kann man erst recht gespannt sein, wie sich das verhält, wenn NN- Engines mitspielen.
Parent - - By Stefan Pohl Date 2019-01-06 13:29 Edited 2019-01-06 13:51 Upvotes 1
Peter Martan schrieb:

Stefan Pohl schrieb:

Lohnt, da mal reinzuschauen.

In der Tat, nun kann man erst recht gespannt sein, wie sich das verhält, wenn NN- Engines mitspielen.


Stimmt. Aber mit NN-Engine hätte das Ganze 3x so lange gedauert, weil ich dann keine 3 Partien hätte parallel laufen lassen können... Aber das kann ja in der Zukunft noch anders werden... Daher mußte es jetzt mit den klassischen AB-Engines gehen. Die Ergebnisse sind trotzdem sehr interessant.
Ganz besonders aufschlußreich war die Tatsache, daß die 8 Mini-Ranglisten, die aus den jeweils 2100 Partien generiert wurden, exakt die gleiche Rangfolge der Engines ergaben. Und diese war gleichfalls identisch zu der Rangfolge der entsprechenden Engines in der CEGT und der CCRL-Rangliste. Das bestätigt das, was ich schon immer postuliert habe: Ob viele (FEOBOS, SF Framework openings), wenige (SALC) oder gar keine (Drawkiller) ECO-Codes von einem Vorgabeset abgedeckt werden, ist für die Ergebnisse ohne nennenswerten Belang. Ebenso, ob sehr viele Gegner (CEGT, CCRL) oder wenige (nur 6, in meinen Experimenten hier) pro Engine gespielt werden. Spielt statistisch und für die Rangfolge der Engines in einer Rangliste alles keine Rolle, sofern man genügend Partien spielt um die Zufallsfluktuationen klein zu halten. Dennoch, daß die Rangfolge in allen 8 Mini-Ranglisten und in CEGT und CCRL komplett zu 100% identisch war, das hat mich schon etwas überrascht. Gerade bzgl. Ethereal 11.12, Komodo 12.2.2 MCTS und Shredder 13, welche ja recht eng beieinander liegen.
Für die Zukunft des Computerschachs sind ganz andere Dinge wichtig, nämlich niedrige Remisqouten und hohe Elo-Spreizung. Und diesbzgl. waren die Testergebnisse sehr unterschiedlich!
Parent - - By Frank Quisinsky Date 2019-01-06 14:11 Edited 2019-01-06 14:15
Hi Stefan,

beim FEOBOS Projekt sollte man immer eines berücksichtigen!
Alle 500 ECO Codes wurden berücksichtigt, dass heißt die Prio lag darin die komplette Theorie abzudecken.
Es ist bekannt, dass viele Eröffnungen sehr remislastig sind.

Die sind alle drin und genau das war das Ziel.
Alles abdecken!

Wir haben unzählige Dinge bei FEOBOS entwickelt.
Wie z. B. Test-Set Optionen.

Wir haben die Stellungen durch ein Bewertungssystem gejagd bzw. ein Bewertungssystem entwickelt.
Wenn wir z. B. nur die TOPs aus der Bewertungsrangliste nehmen würde wir bei solchen Vergleichen ganz anders abschneiden.

Aber das war nicht das Ziel.
Das Ziel, nochmal ... das war, das alles aus der Theorie was ausgeglichen ist drin sein sollte.
Bei 3Züge nach ECO Code Bildung. Wären es vier gewesen hätte die Analysen 4 Jahre laufen müssen bei 5 ca. 46 Jahre.

FEOBOS kann heute natürlich jeder so einsetzen wie er es möchte.
Wir haben eine fehlerfreie Datenbank mit ausgeglichenen Eröffnungs-Vorgabe-Stellungen, die durch das Bewertungssystem strukturiert sind.
Jeder kann also Hand anlegen und sich das rausziehen was benötigt wird. Das ist sehr einfach mit den ganzen Statistik Informationen zu jeder Postionen innerhalb der Excel.

Dafür wurde viele Analysen gemacht und über 16 Millionen Formeln generiert.
Das mit wenigen Worten platt zu reden, auf einen Anwendungszweck bezogen, der nicht Ziel von unserem Projekt war, ist so eine Geschichte.

Die Zeile vom Projekt stehen in der 60-Seiten Projekt Doku!

Aber egal ...
Jeder so wie er möchte, das ist uns heute nicht wichtig.
Was wir gemacht haben ist ausreichend dokumentiert.

Eine solche Arbeit hatte es so ausgefeilt vorher nicht gegeben und Klaus und auch ich sind natürlich stolz das dieses Projekt gezielt und gestochen scharf durchgezogen wurde.

Übrigens, wenn ich remislastiges herausnehme fallen 71 ECO Codes weg.
Dann kann ich nach meinen Ergebnissen die Remisquote von den üblichen 44% (Wasp Level Partien mit Elo-Durchschnitt 2.950) auf 22% drücken.
Das wäre dann Dein Ding, ist aber nicht mein Ding.

Remis gehört dazu wie jeder ECO Code aus der Theorie.

Gruß
Frank
Parent - - By Stefan Pohl Date 2019-01-06 16:42 Edited 2019-01-06 17:17
Du drehst dir die Welt doch zurecht, wie es gerade passend ist. Jetzt heißt es:

"Alle 500 ECO Codes wurden berücksichtigt, dass heißt die Prio lag darin die komplette Theorie abzudecken.
Es ist bekannt, dass viele Eröffnungen sehr remislastig sind."

In deiner Doku steht das:
Zitat:
"33.009 Stellungen sind es bei Contempt = 3 geworden, die wir als Vorgabe zum Engine Test verwenden können. Wir können uns also sicher sein, dass FEOBOS eine fantastische Plattform für ausbalancierte Eröffnungsstellungen ist, bei denen dennoch die Vermeidung von zu schnellem Remis eine maßgebliche Rolle spielt."
Zitatende.

Und diese Bemühungen ("maßgebliche Rolle"), zur Vermeidung von Kurzremisen sind einfach nicht meßbar. Bis Zug 10 nach Ende der Eröffnungslinie hat FEOBOS zwar 0 Remisen, das ist schön und gut. Allerdings hat das 0815-Standard Eröffnungsset (Stockfish Framework 8 moves) dort auch nur 6 Remisen produziert. Aus 2100 Partien. Und bis Zug 20 und 30 ist FEOBOS hier schon nicht mehr besser bei den Kurzremisen, als das Stockfish Framework 8moves (sogar minimal schlechter, aber das kann auch eine statistische Schwankung sein). Und ganze 6 Kurzremisen bis Zug 10 auf 2100 Partien zu vermeiden, ist nun mal beim besten Willen einfach nicht nennenswert. Insbesondere dann nicht, wenn bis Zug 20 und 30 die Werte bei Kurzremisen eben schon nicht mehr besser sind, als bei einem Standard Eröffnungs-Set. Das ist ein Fakt. Kann ich auch nicht ändern.

Und im Vergleich mit den 4 GM-moves -Kurzbuch und auch dem HERT Set von Thomas Zipproth sieht es bzgl. der Kurzremisen auch nicht besser aus. Im Gegenteil. Bis Zug 20 und 30 nach Vorgabe-Ende ist FEOBOS hier sogar schlechter. Obwohl die Gesamt-Remisqoute gerade beim HERT-Set kaum niedriger als bei FEOBOS ist. Und bis Zug 20 produzierte FEOBOS 3x mehr Kurzremisen als das 4 GM-moves Set.

Was in diesem Zusammenhang für mich überraschend war, ist, daß die Noomen Stellungen (Gambits und Superfinal Vorgaben) bei den Kurzremisen relativ schlecht abschneiden. Ebenso wie meine SALC-Stellungen. Letzteres ist wenig überraschend, da es bei SALC oft zu Königsangriffen kommt, und da kann es eben vermehrt zu Dauerschachremisen kommen. Aber die Noomen-Stellungen, da hatte ich das eigentlich nicht erwartet. Zumal die Gesamt-Remisqoute ganz ordentlich war (wenn auch nicht berauschend) und die Remisqouten in den TCEC Superfinals ja dank dieser Stellungen von 90% auf gut 75% absackten.
Parent - By Thorsten Czub Date 2019-01-06 16:47
Darin bin ich auch gut.
Ich behaupte mal das die remis
Lastigkeit im Computer Schach
Daher kommt das die Programme
Planlos spielen. Im Grunde spielen
Sie kein Schach sondern lösen
Stellungstests
Parent - - By Frank Quisinsky Date 2019-01-06 17:22
Hi Stefan,

immer unter der Berücksichtigung das alle 500 ECO Codes berücksichtigt wurden.
Würde ich remis lastige Eröffnungen ausklammern (geht teilweise auch aus der entwickelten Excel hervor, natürlich besser mit Partiematerial) gehen die Remisquoten um bis zu 50% runter. Aber wie gesagt, dass war nie unser Thema, das ist Dein Thema.

Es kann kein besseres Resultat erzielt werden Stefan!
Wir haben 10 starke Engines, jede analysierte alles durch.
Wir haben automatisiert mit Excel aussortiert.

Alles was es in der Theorie gibt wurde berücksichtigt.
Steht alles in der Doku.

Das kann man jetzt natürlich mit wenigen Worten angreifen aber es steht mir fern darüber zu urteilen, auch wenn wir die Daten erschaffen haben.

Wenn Du jetzt z. B. niedrige Remisquoten mit FEOBOS erzielen möchtest brauchst Du stats aus engine-engine Vergleiche und die Excel bzw. unser Bewertungssystem.
Ich hatte nach FEOBOS damit experimentiert und aus den 33.003 Stellungen vom Contempt 3 Buch 24.500 gezogen.

Einfach nach Stichproblem der Ratinglisten Remislastige ECO Codes gesammelt und die Varianten alle aus dem Buch gestrichen.
Die Remisquoten gingen auf 22% zurück bei Wasp - 20 Engines auf ca. gleichem Level.

FEOBOS enthält eine perfekte Datenbasis, die jeder so wie er es haben möchte leicht weiterbearbeiten kann.
Aus FEOBOS lässt sich alles formen, ob Test-Set oder neue Bücher oder lassen sich die FEOBOS Daten auch zu bestehenden Büchern leicht hinzukopieren, vielleicht um zu bewirken das bestehende Bücher um fehlendes an ECO Codes ergänzt werden.

Da gibt es auch nichts mehr zu verbessern.
Das Ding ist Geschichte und gegessen.

Einzig noch Positionen aus Contempt 3 Datenbank finden, die dann dennoch zu schnellem Remis enden (andere Engines die anders abwickeln produzieren dann leider wieder die dreifache).

Viele Grüße
Frank

Also, rede nicht schön, sondern biete die Fakten an und zwar genau das bis ins letzte Detail.
Das war noch nie anders bei Dingen die ich machte, was geht versuche ich.
Und ohne Klaus wäre gar nichts gegangen, dann wäre das ganze komplexe Thema nur dahingedümpelt ohne Fakten.
Parent - - By Stefan Pohl Date 2019-01-06 17:35 Edited 2019-01-06 17:38
Frank Quisinsky schrieb:


Wenn Du jetzt z. B. niedrige Remisquoten mit FEOBOS erzielen möchtest brauchst Du stats aus engine-engine Vergleiche und die Excel bzw. unser Bewertungssystem.
Ich hatte nach FEOBOS damit experimentiert und aus den 33.003 Stellungen vom Contempt 3 Buch 24.500 gezogen.

Einfach nach Stichproblem der Ratinglisten Remislastige ECO Codes gesammelt und die Varianten alle aus dem Buch gestrichen.
Die Remisquoten gingen auf 22% zurück bei Wasp - 20 Engines auf ca. gleichem Level


Na, dann mach das doch mal öffentlich. Ich würde so ein Eröffnungsset sehr gerne dann unter den exakt gleichen Testbedingungen mal durchlaufen lassen. Denn Remisqouten zu senken ist nicht "mein Ding", sondern schlicht alternativlos, wenn das Spitzen-Computerschach in der Zukunt nicht den Remistod sterben soll. Insofern fände ich jeden Ansatz, der wirklich meßbar niedrigere Remisqouten produziert, super und zukunftsweisend. Ich habe nie (und werde nie) behauptet, daß meine Ansätze (SALC und jetzt Drawkiller) diesbzgl. allein seligmachend sind. Jeder alternative Ansatz, sofern er wirklich meßbar etwas bringt, wäre toll! Und wenn die Stellungen noch dazu "normaler" aussehen, als meine Drawkiller Eröffnungen, wäre das nur umso besser, weil das beim normalen Computerschächer sicher eine höhere Akzeptanz hätte.
Behaupten, man könne die Remisqouten senken, kann nämlich jeder. Aber machen nicht. Das ist nämlich schwieriger, als die meisten Leute glauben.
Parent - - By Frank Quisinsky Date 2019-01-06 17:50 Edited 2019-01-06 17:55
Hi Stefan,

was Du dir jetzt wünscht wäre Detailarbeit.
Wenn wir solche Dinge nach einem solchen Projekt nachgehen würden, dann wäre das eine Kette ohne Ende.
Kommt der Nächste um die Ecke und bildet einen anderen Wunsch.

Computerschach stirbt keinen Remistod.
Remis gehört dazu wie 1:0 oder 0:1.

Wenn bei immer mehr ELO immer mehr Gleiches porduziert wird steigt die Remisquote.
Wenn IPP gegen IPP spielt hatten wir früher Remisquoten von 70-80%.
Da hat keiner geschriehen das Computerschach den Remistod stirbt.
Die hohen Remisquoten liegen nicht an der Wahl der Eröffnung sondern an der gleichen Stärke beim Übergang ins Endspiel.

Ich sehe das also keinesfalls so.
Remistod ist ein weiteres Märchen, davon haben wir Computerschach schon so viele gebildet.
Klar, Leute glauben daran was so geschrieben steht.

Erzeugen viele Engines unterschiedliches gibt es weniger Remise.
Erzeugen wenige Engines gleiches gibt es mehr Remise.

Ich behaupte nicht, ich stelle fest.
Und jedes Detail ist bei FEOBOS dokumentiert.

Du kannst kein Datenbank die auf 50 oder 100 oder 200 ECO Codes beruht mit einer vergleichen die auf 500 beruht.
Das bei den 500 ECO Codes remisträchtige Linien drin sind ist keine Behauptung sondern Fakt und kann in der kompletten Theorie zu den Schacheröffnungen nachgelesen werden.

Wenn FEOBOS jetzt bei Deinem Vergleich um die 50% bei der Remisquote liegt, ist das in Anbetracht der verwendeten Engines und Gegner bei dem Ausspielverhalten aller ECO Codes ein super Ergebnis. Es muss natürlich auch richtig dargestellt werden.

Wie viele Stellungen enthalten die anderen Datenbanken.
Wie viele verschiedene ECO Codes sind drin.

Das fehlt ...
Hatte jetzt auf Deiner Seite das Experiment aber nur kurz überflogen.

Klar kann ich das dann immer weiter treiben.
Sortiere mir alle ECO Codes aus die aggressiver sind.
Das ist leicht anhand von GM-Datenbanken zu simulieren.

Wie gesagt, jedem das seine.
Du willst mit Gewalt niedrige Remisquoten bei gleich spielenden Engines (gleiche Stärken) und sagst gleichzeitig aus ... der Remistod ist Nahe.

Diese Betrachtungsweise kann ich einfach nicht bilden.
Weil mich das ganze Zeug von gleichspielenden Engines schon nicht mehr interessiert.

Was kann FEOBOS dafür (3-Züge nach ECO-Code Bildung) wenn Partien von gleichspielenden Engines einen Zügedurchschnitt bis zum Matt von weit über 80 Züge haben. Für die Remisquote verantwortlich ist ganz sicher nicht die Vorgabestellung des ECO Codes, es sein denn der ECO Code gilt allgemein als Remisträchtig. Klar, wenn ich Engines mit 0,75 Vorteil starten lasse, dass dann die Remisquote zurück geht.

Du kannst jedes Buch dahingehend optimieren, das ist doch nun wirklich nichts besonderes!

Gruß
Frank
Parent - - By Stefan Pohl Date 2019-01-06 17:55
Hätte ich mir denken können, daß außer (zu) vielen Worten mal wieder nichts kommt.
Parent - By Frank Quisinsky Date 2019-01-06 17:58 Edited 2019-01-06 18:03
Also ich sehe nur Provokationen.
"Nichts" ist so nicht richtig.
16 Millionen Formeln, 4 Jahre Arbeit, 60 Seiten Projekt Doku.
Und ein paar Provokationen von Stefan Pohl, der irgend etwas eigenes als besser darstellen möchte und das am Remistod Aufhänger hochziehen möchte.
Stefan, Du bist oft sehr aggressiv unterwegs. Ich habe damit kein Problem ... weißt Du warum?
Weil ich sehe das Du dich bemühst und ich Deine Arbeiten gut finde weil Du etwas machst und weil auch ein Sinn dahinter zu erkennen ist.
Aber gehe mit anderen entsprechend anders um.
Ob Beiträge von Dir in TalkChess oder hier.
Es ist schon fast frech diese Excel Arbeit um Feobos anzugreifen.
Du sagst damit nicht aus Frank hat Scheiße gebaut, sondern Excel ist Scheiße, die Theorie ist Scheiße und was 10 der besten Engines analysierten ist auch Scheiße.
Um es grob auf den Punkt zu bringen.

Wir haben Daten gesammelt, analysieren lassen und über Excel eine Plattform zur Verfügung gestellt die diese Sachen auswerten.

Stefan, wer austeilt muss auch einstecken können.
Wir haben bei FEOBOS alles gemacht was geht ... bringe was vergleichbares und wir diskutieren weiter.

Was Du schreibst haut mich nicht wirklch um.
Ich finde den Aufhänger zwar interessant grundsätzlich Remisquoten zu senken (für Menschen interessanter zuzuschauen bei Eng-Eng) aber bleibe dabei auf dem Teppich.
Du kannst nichts in Frage stellen was in der Theorie schon von hunderten GMs und aberhunderten anderen Autoren festgestellt wurde.
So sehr ich weiß, dass der Computerschächler gerne dazu neigt.

Dennoch vielen Dank für Dein Experiment.
Wie gesagt, würden andere so viel Sachen beisteuern wie Du wäre alles sehr viel spannender.
Nur zweckentfremde nicht das was andere gemacht haben, erst Recht wenn alles dokumentiert ist.
Da geht der Schuss nach hinten los.
Parent - - By Stefan Pohl Date 2019-01-06 20:52
Peter Martan schrieb:

Stefan Pohl schrieb:

Lohnt, da mal reinzuschauen.

In der Tat, nun kann man erst recht gespannt sein, wie sich das verhält, wenn NN- Engines mitspielen.


In meinem long thinking-time Turnier spielt ja Leela mit und es kommen natürlich die Drawkiller Eröffnungen als Buch zur Anwendung. Dort schneidet Leela sehr gut ab (besser als Komodo 12(!)). Das ist durchaus erstaunlich, da das NeuralNetz sicher noch nie eine Drawkiller Stellung gesehen hat. Es scheint hier primär die Tatsache zu zählen, daß die Drawkiller Eröffnungen sehr nah an der Grundstellung bleiben (alle nicht-Bauern-Figuren stehen auf der Grundlinie und 11 der 16 nicht-Bauern-Figuren stehen zudem auf ihren normalen Ausgangspositionen - näher an der Grundstellung kann man kaum sein!) und sich die Engines daher komplett alleine entwickeln müssen. Und das ist Leelas große Stärke, selbst in Stellungen, die etwas ungewöhnlich aussehen...

Dennoch gibt es bei den NN-Engines noch viel zu forschen und zu testen. Keine Frage.
Parent - - By Peter Martan Date 2019-01-06 21:32 Edited 2019-01-06 22:20
Stefan Pohl schrieb:

Dort schneidet Leela sehr gut ab (besser als Komodo 12(!)). Das ist durchaus erstaunlich, da das NeuralNetz sicher noch nie eine Drawkiller Stellung gesehen hat. Es scheint hier primär die Tatsache zu zählen, daß die Drawkiller Eröffnungen sehr nah an der Grundstellung bleiben (alle nicht-Bauern-Figuren stehen auf der Grundlinie und 11 der 16 nicht-Bauern-Figuren stehen zudem auf ihren normalen Ausgangspositionen - näher an der Grundstellung kann man kaum sein!) und sich die Engines daher komplett alleine entwickeln müssen. Und das ist Leelas große Stärke, selbst in Stellungen, die etwas ungewöhnlich aussehen...

Dennoch gibt es bei den NN-Engines noch viel zu forschen und zu testen. Keine Frage.

Und vor allem ist halt die Frage, ob grunstellungsnahe Stellungen, bei denen nur asymmetrische Rochaden möglich sind, für NN- Engines, die, sag ich mal, sowieso von Natur aus auf Streit gebürstet sind, nicht noch zusätzlich ein Grund zur Freude für die NNis sein könnten.

Interessant wäre z.B. auch, ob nicht auch aggressive Settings relativ besser abschitten in deinen Drawkiller Stellungen, weil sich in denen "Aggressivität" einfach auch mehr auszahlen könnte.
Irgendwoher muss die Senkung der Remisquoten ja kommen, mag sein, es ist ausgeglichen zwischen Vorwärts- Marsch- Erfolgen und ebensolchen Selbstfallern, kann aber auch sein, dass nicht, und kann vor allem sein, bei manchen Engines schon, bei anderen weniger.

Oder anders ausgedrückt, es könnte sein, dass man sich bei so grundstellungsnahen Stellungen auf die Evals (der A-B-Engines, von denen der NN- Engines weiß man's einfach noch weniger lang und noch weniger genau) noch weniger verlassen könnte als bei Stellungen, die nach der entsprechenden "normalen" Zugfolge in asymmetrische Rochaden münden, Evals sind bekanntlich umso weniger hoch (relativ zum Partiefortschritt), je früher in der Partie sie abgegeben werden.
Auf die Art könnten die Drawkiller- Eröffnungsstellungen mehr Evaldynamik, als numerische Eval anzeigt wird, haben.

Oder noch einfacher: sie könnten noch mehr als andere Eröffnungsstellungen bestimmte Engines begünstigen, und man würde es vielleicht noch weniger als bei anderen Eröffnungsstellungen an den Evals merken, weil sie einerseits nahe an der Grundstellung sind und andererseits doch schon mehr Partiefortschritt in sich tragen, als man den Stellungen selbst ansieht, wenn man bedenkt, dass die "normale" Rochade beider Seiten unmöglich gemacht ist.

Logisch wäre, dass der Anzugsvorteil einfach mehr zählen könnte, weil dass Schwarz nicht mehr symmetrisch rochieren kann, könnte ein größerer Nachteil sein als für Weiß, die Seite, die sowieso die Initiative hat.

Und weil die Engines das aber so früh in der Eröffnung nicht "sehen", drücken sie den größeren Vorteil für den Anziehenden in relativ (zu) niedrigen Evals aus.
Wäre eine einfache logische Erklärung für eine Senkung der Remisquoten, wenn man keine andere, kompliziertere für wahrscheinlicher hält.

Müsste man dann aber eigentlich auch an der Verteilung der ganzen Punkte zwischen Weiß und Schwarz sehen, wenn's hauptsächlich um den vergrößerten Anzugsvorteil ginge.
Parent - - By Stefan Pohl Date 2019-01-06 22:46 Edited 2019-01-06 22:50
Peter Martan schrieb:

Stefan Pohl schrieb:

Dort schneidet Leela sehr gut ab (besser als Komodo 12(!)). Das ist durchaus erstaunlich, da das NeuralNetz sicher noch nie eine Drawkiller Stellung gesehen hat. Es scheint hier primär die Tatsache zu zählen, daß die Drawkiller Eröffnungen sehr nah an der Grundstellung bleiben (alle nicht-Bauern-Figuren stehen auf der Grundlinie und 11 der 16 nicht-Bauern-Figuren stehen zudem auf ihren normalen Ausgangspositionen - näher an der Grundstellung kann man kaum sein!) und sich die Engines daher komplett alleine entwickeln müssen. Und das ist Leelas große Stärke, selbst in Stellungen, die etwas ungewöhnlich aussehen...

Dennoch gibt es bei den NN-Engines noch viel zu forschen und zu testen. Keine Frage.

Und vor allem ist halt die Frage, ob grunstellungsnahe Stellungen, bei denen nur asymmetrische Rochaden möglich sind, für NN- Engines, die, sag ich mal, sowieso von Natur aus auf Streit gebürstet sind, nicht noch zusätzlich ein Grund zur Freude für die NNis sein könnten.

Interessant wäre z.B. auch, ob nicht auch aggressive Settings relativ besser abschitten in deinen Drawkiller Stellungen, weil sich in denen "Aggressivität" einfach auch mehr auszahlen könnte.
Irgendwoher muss die Senkung der Remisquoten ja kommen, mag sein, es ist ausgeglichen zwischen Vorwärts- Marsch- Erfolgen und ebensolchen Selbstfallern, kann aber auch sein, dass nicht, und kann vor allem sein, bei manchen Engines schon, bei anderen weniger.

Oder anders ausgedrückt, es könnte sein, dass man sich bei so grundstellungsnahen Stellungen auf die Evals (der A-B-Engines, von denen der NN- Engines weiß man's einfach noch weniger lang und noch weniger genau) noch weniger verlassen könnte als bei Stellungen, die nach der entsprechenden "normalen" Zugfolge in asymmetrische Rochaden münden, Evals sind bekanntlich umso weniger hoch (relativ zum Partiefortschritt), je früher in der Partie sie abgegeben werden.
Auf die Art könnten die Drawkiller- Eröffnungsstellungen mehr Evaldynamik, als numerische Eval anzeigt wird, haben.

Oder noch einfacher: sie könnten noch mehr als andere Eröffnungsstellungen bestimmte Engines begünstigen, und man würde es vielleicht noch weniger als bei anderen Eröffnungsstellungen an den Evals merken, weil sie einerseits nahe an der Grundstellung sind und andererseits doch schon mehr Partiefortschritt in sich tragen, als man den Stellungen selbst ansieht, wenn man bedenkt, dass die "normale" Rochade beider Seiten unmöglich gemacht ist.

Logisch wäre, dass der Anzugsvorteil einfach mehr zählen könnte, weil dass Schwarz nicht mehr symmetrisch rochieren kann, könnte ein größerer Nachteil sein als für Weiß, die Seite, die sowieso die Initiative hat.

Und weil die Engines das aber so früh in der Eröffnung nicht "sehen", drücken sie den größeren Vorteil für den Anziehenden in relativ (zu) niedrigen Evals aus.
Wäre eine einfache logische Erklärung für eine Senkung der Remisquoten, wenn man keine andere, kompliziertere für wahrscheinlicher hält.

Müsste man dann aber eigentlich auch an der Verteilung der ganzen Punkte zwischen Weiß und Schwarz sehen, wenn's hauptsächlich um den vergrößerten Anzugsvorteil ginge.


Steht ja alles auf meiner Website:

Der Whitescore in meinem jetzt abgeschlossenen Experiment war bei Drawkiller relativ niedrig:
Draws        : 566 (27.0 %)
White Score  : 52.6 %
Black Score  : 47.4 %

In meinem long thinking-time Turnier ist er hingegen relativ hoch:
Draws        : 421 (31.0 %)
White Score  : 58.6 %
Black Score  : 41.4 %

Da in beiden Fällen Drawkiller Tournament zum Einsatz kam und auch die Gegner (bis auf Leela) sehr ähnlich sind, kann man wohl den Mittelwert bilden und dieser ist dann völlig normal, nämlich 55.6%.
Wäre der Anzugsvorteil wirklich größer bei Drawkiller als bei anderen Eröffnungssets, dann wäre der Whitescore bei den 2100 Partien des jetzigen Experimental-Testlaufs kaum bei nur 52.6%. Das ist nämlich wirklich recht wenig. Als normaler Wert gilt ca. 55% (also ca. +35 Elo Anzugsvorteil).
Parent - - By Peter Martan Date 2019-01-07 00:41 Edited 2019-01-07 00:54
Stefan Pohl schrieb:

Wäre der Anzugsvorteil wirklich größer bei Drawkiller als bei anderen Eröffnungssets, dann wäre der Whitescore bei den 2100 Partien des jetzigen Experimental-Testlaufs kaum bei nur 52.6%. Das ist nämlich wirklich recht wenig. Als normaler Wert gilt ca. 55% (also ca. +35 Elo Anzugsvorteil).

Das widerlegt diese meine erste Theorie.
Trotzdem muss es wohl eine im Wesen der Stellungen immanente Besonderheit sein.
Und ist der weiße Score niedriger als sonst, bleibt ja wohl nur ein höherer schwarzer als Grund für weniger Remis. Und wenn sich das Verhältnis bei verschiedenen Bedenkzeiten ändert, ist's wohl bei der einen TC mehr das Eine und bei der anderen mehr das Andere.

Das Bilden eines Mittelwertes verschiedener Scores bei verschiedenen Bedenkzeiten ist jedenfalls keine Erklärung dafür, dass es bei längeren signifikant (?) anders ist als bei kürzeren.

Hätte ich alles so nicht erwartet, hätte ich auch selber herausfinden können, ändert aber nichts daran, dass die Wahrscheinlichkeit, dass verschiedene Engines (bei verschiedenen TCs und verschiedenen Gegnern) damit verschieden gut zurecht kommen, was auch immer es ist, ebenso groß bleibt.

Eigentlich wäre es ein gewaltiger Zufall, wenn eine Senkung der Remisquote durch Eröffnungsstellungen sich wirklich völlig gleich auf alle möglichen Teilnehmer eines Matches auswirkte. Eine völlig gleichmäßige "Spreizung" der Ergebnisse ohne irgendwelche Verschiebungen kann eigentlich nicht sein, und das zeigt sich ja auch in veränderten Relationen deines Experimentes bei den verschiedenen Testsets, das Experiment selbst finde ich trotzdem und erst recht sehr aufschlussreich.

Und um diesbezüglich möglichst sicher nicht missverstanden zu werden, für mich ist ein bestimmtes Ergebnis einer bestimmten Testumgebung und eines bestimmten Pools an Probanden immer für sich zu betrachten und nicht als besser oder schlechter als ein anderes, man muss nur immer wissen, was genau man untersucht und die Ergebnisse nur genau dafür schlüssig sehen.
Parent - - By Stefan Pohl Date 2019-01-07 05:20 Edited 2019-01-07 05:25
Peter Martan schrieb:


Eigentlich wäre es ein gewaltiger Zufall, wenn eine Senkung der Remisquote durch Eröffnungsstellungen sich wirklich völlig gleich auf alle möglichen Teilnehmer eines Matches auswirkte. Eine völlig gleichmäßige "Spreizung" der Ergebnisse ohne irgendwelche Verschiebungen kann eigentlich nicht sein, und das zeigt sich ja auch in veränderten Relationen deines Experimentes bei den verschiedenen Testsets, das Experiment selbst finde ich trotzdem und erst recht sehr aufschlussreich.

Und um diesbezüglich möglichst sicher nicht missverstanden zu werden, für mich ist ein bestimmtes Ergebnis einer bestimmten Testumgebung und eines bestimmten Pools an Probanden immer für sich zu betrachten und nicht als besser oder schlechter als ein anderes, man muss nur immer wissen, was genau man untersucht und die Ergebnisse nur genau dafür schlüssig sehen.


Ich wüßte nicht, wie man das mißverstehen könnte. Und das ist auch völlig korrekt. Verändert man die Testbedingungen, ist es vollkommen klar, daß sich Ergebnisse verschieben. Eine völlig gleichmäßige Spreizung der Elo-Ratings ohne gewisse Verschiebungen und Schwankungen ist nicht möglich, das ist völlig klar. Elo-Ratings sind generell sowieso anfällig für jedwede Veränderung der Testbedingungen, nicht nur bei der Verwendung anderer Eröffnungsvorgaben. Auch andere Hardware, andere Zeitkontrollen, Tablebases etc. verschieben die Ratings. Weswegen für mich - wie ich hier schon vor kurzem mal ausgeführt hatte - auch der viel wesentlichere Punkt ist: wie sind die Rankings, also die Reihenfolge der Engines in einer Rangliste bzw. einem Turnier. Denn diese Rankings sind gegenüber Änderungen in den Testbedingungen weit robuster. Was man ja sehr schön in meinem Experiment sieht, in welchem alle 8 Mini-Ranglisten trotz unterschiedlichster Eröffnungsvorgaben und trotz der Verschiebungen der Ratings das exakt gleiche Ranking hatten. Welches zudem auch in der CEGT und der CCRL-Rangliste so auftrat, wo gegen viel mehr Gegner getestet wurde und sich auch Zeitkontrolle und Hardware unterscheidet.
Letzlich kommt es daher nur darauf an, die Ratings durch weniger Remisen möglichst weit zu spreizen, damit dadurch die Rankings stabiler und zuverlässiger werden, weil sie mit höherer Wahrscheinlichkeit außerhalb der Errorbars liegen. Ob einzelne Ratings sich dabei etwas weiter spreizen als andere ist dagegen belanglos (und, wie du richtig festgestellt hast, auch nicht vermeidbar).
Parent - By Peter Martan Date 2019-01-07 07:50
Stefan Pohl schrieb:

- auch der viel wesentlichere Punkt ist: wie sind die Rankings, also die Reihenfolge der Engines in einer Rangliste bzw. einem Turnier. Denn diese Rankings sind gegenüber Änderungen in den Testbedingungen weit robuster. Was man ja sehr schön in meinem Experiment sieht, in welchem alle 8 Mini-Ranglisten trotz unterschiedlichster Eröffnungsvorgaben und trotz der Verschiebungen der Ratings das exakt gleiche Ranking hatten. Welches zudem auch in der CEGT und der CCRL-Rangliste so auftrat, wo gegen viel mehr Gegner getestet wurde und sich auch Zeitkontrolle und Hardware unterscheidet.

Wir drehen uns ein bisschen im Kreis, weil wir uns vermutlich eh einfach einig sind, die Frage, die halt nach wie vor überall im Raum steht, betrifft LC0 und demnächst vielleicht noch andere NN- Engines.
Stefan Pohl schrieb:

In meinem long thinking-time Turnier spielt ja Leela mit und es kommen natürlich die Drawkiller Eröffnungen als Buch zur Anwendung. Dort schneidet Leela sehr gut ab (besser als Komodo 12(!)).

Das kann ein prinzipieller Ranglisten- Ausreißer sein, diese Engine, die kann und wird unter bestimmten Bedingungen mal mehr und mal weniger aus der Reihe tanzen, dass sie in verschiedenen Ranglisten außer von den Eröffnungsstellungen auch ganz stark vom übrigen Teilnehmerfeld abhängt, sieht man jetzt schon verschiedentlich, allein schon bei den CCCC und TCEC- Turnieren, auch wenn die einzeln zu wenig Partien enthalten, mittlerweile summieren sie sich doch schon etwas.

Und dann kommt bei LC0 noch ein quantitativ völlig neuer Aspekt dazu, er sie es lernt ständig weiter, ohne, dass man von Programmiererseite ständig neu Code- Patches einbringt, das kommt bei ihr aber auch noch dazu, weil wie immer man den Zero-Ansatz jetzt mittlerweile definiert, dass nicht ständig Einmischung menschlicher Seite in die Entwicklung genommen würde, so ist's ja auch nicht.

Und dass sie für verschiedene Eröffnungsstellungen sehr verschieden dankbar ist, das ist jetzt auch schon ziemlich klar. Und wie sich das im Lauf der Zeit ändert und ändern wird, das wäre genau das Spannende, ihr Endspiel- "Wissen" und ihre taktische Besonderheit wird sich auch weiter ändern, aber wenn sie weiter immer wieder von der (ganz frühen) Eröffnung anfängt weiterzulernen, wird sich das weiter am meisten ändern.

Nach dem Endspiel- "Modul", dass es schon gibt, werden Eröffnungs- Module dazukommen, und sei's nur von "privater" Seite, bei SF haben wir die vielen Branches, bei Leela werden's über kurz oder lang KID-, Spanier-, Sizilianer- und Slawische Master- Leelas sein, es sei denn, das Ganze wird vom Aufwand- Nutzen her einfach quantitativ zum Stillstand kommen, danach schaut's aber momentan gerade nicht aus.

Brave new world's coming faster and faster, wir Menschen werden immer weniger mitkommen, fürchte ich. Unsere schachlichen Pläne werden immer weniger verwirklichbar sein und immer mehr von Automatismen überrollt werden, die Absicht, da wenigstens in der Entwicklungskontrolle mitzukommen, erfordert sicher neben anderem Aufwand auch immer mehr Manpower, wer wird sich die weiter antun?

Du versuchst es, das ist löblich, ich für mein Teil werde mich wohl noch mehr von der "overall playing strength" als Frage verabschieden, die hätte die Illusion, stellungsunabhängig zu sein, aufrecht zu erhalten, diese Illusion zerbröckelt für mich schon lange immer mehr und jetzt bricht sie bald ganz zusammen, glaube ich halt. Man wird ihr immer wieder neue Namen geben, dass alle diese verschiedenen Einzelillusionen nicht mehr unter einen Hut passen, muss natürlich die Sache als solche nicht unbedingt in Frage stellen, wie wir wissen, ist Vielfalt ja ein Reichtum, der Papst hat's auch gesagt.
Parent - - By Stefan Pohl Date 2019-01-07 12:45 Edited 2019-01-07 12:48
Hier nun nochmal ein Schwung Daten bzgl. Whitescore von Drawkiller:

Ich habe ja insgesamt 4000 Partien (je 1000 mit jedem der 4 Drawkiller-Eröffnungsset (Big, Normal, Tournament und small_500pos)) mit 5'+3'' singlecore mit asmFish 170426 vs. Komodo 10.4 spielen lassen (siehe meine Website, "Drawkiller openings"-Sektion", Testergebnisse). Diese 4000 Partien hab ich mal in eine Datenbank kopiert und ORDO darüberlaufen lassen:

Games        : 4000 (finished)
White Wins   : 1462 (36.5 %)
Black Wins   : 1168 (29.2 %)
Draws        : 1370 (34.3 %)
White Score  : 53.7 %
Black Score  : 46.3 %

4000 Partien mit 5'+3'' sind nun schon sehr aussagekräftig. Und mit 53.7% liegt der Whitescore in einem normalen Bereich (1.3% unter dem Mittelwert von ca. 55% (auch nicht in Stein gemeißelt)).
Also ein Wert, der völlig OK ist und keinesfalls sehr hoch. Eher einen Tick niedrig. Aber auch nur einen Tick.
Das paßt also! Drawkiller räumt also Weiß auf keinen Fall einen großen Anzugsvorteil ein. Hätte mich auch sehr gewundert, weil andernfalls eine so hohe Ergebnisspreizung, wie sie die Drawkiller Openings liefern, auch kaum möglich wäre. Denn viele Weißsiege würden viele 1:1-Paare bedeuten, die genauso auf Elo-Speizungen wirken, wie 2 Remisen, also stauchend. Insofern wäre ein anderes Ergebnis auch sehr überraschend gewesen.
Parent - - By Stefan Pohl Date 2019-01-07 14:40 Edited 2019-01-07 14:47
Ich habe nun auch die Partien meines long-thinking time Turniers nochmal bezgl. Des whitescores angeschaut, indem ich die Partien aufgeteilt habe in Partien mit Leela und Partien ohne Leela. In beiden Fällen war der Whitescore etwas über 58%, also höher als erwartet. Es liegt also nicht an der NN-Engine. Nun bleiben nur noch 2 mögliche Ursachen:
a) die längere Bedenkzeit. Was ich für unwahrscheinlich halte, da, wie eben gepostet, bei 5'+3“ der whitescore eher niedrig war.
b) die Tatsache, daß im long thinking-time Turnier das FritzBuch von Drawkiller Tournament zum Einsatz kommt, während bei allen anderen Testruns, die LittleBlitzerGUI die Drawkiller Stellungen entweder sequentiell aus dem epd-File abgespielt hat, oder für jede Partie eine epd-Stellung rein zufällig gewählt wurde.
Ich vermute b) als Ursache. Denn ich habe zwar das FritzBuch so erstellt, daß alle Züge in einer Stellung mit der exakt gleichen Ausspielwahrscheinlichkeit gespielt werden (der Trick ist dabei, alle Partieegebnisse der Drawkiller-Linien von 1/2-1/2 auf “*“ zu ändern, und dann das Buch zu erzeugen). Aber die pawn-plies Linien, die an die Drawkiller-zugfolgen ja angehängt werden, wurden ja manuell mit einem Texteditor erstellt. Insofern ist der Variantenbaum nicht unbedingt gleichmäßig, es wäre also möglich, daß einige für Weiß günstige Bauernzüge gehäuft ausgespielt werden.
Das werde ich bald genau wissen, denn ich spiele jetzt ein RoundRobin mit nur 2'+3“ Bedenkzeit mit Stockfish 10 und 3 Leelas in der FritzGUI und mit dem Drawkiller Tournament Buch. Sollte auch hier der whitescore erhöht sein, weiß ich, daß es am Buch liegen muß. Andernfalls wäre es wirklich die längere Bedenkzeit im long thinking-time Turnier. Mal abwarten. In 3-4 Tagen sollte ich da klar sehen.
Das blöde ist, daß ich keine Möglichkeit habe, das Buch irgendwie umzubauen. Es ist so, wie die FriitzGUI es erzeugt, da kann man nix machen. Andererseits ist der whitescore ja mit ca. 58.5% keinesfalls so abnorm hoch, daß er die Ergebnisspreizung wirklich stark beschädigt: schaut man sich die Ergebnisse des long thinkingtime-Turniers an, so liegt die Ergebnisspreizung von Stockfish 10 bis Fire 7.1 bei 402 Elo bei der Eloliste mit allen gespielten Partien. Das ist ja immer noch enorm viel bei dieser langen Bedenkzeit. Insofern ist der erhöhte whitescore weit davon entfernt wirklich ein Problem zu sein. Optimal ist er allerdings nicht.

Man muß eben im Hinterkopf haben, daß die Drawkiller Openings etwas grundlegend Neues sind. Nicht nur bzgl. Des Konzeptes und der durchschlagenden Wirkung auf Remisqouten und Ergebnisspreizung, sondern auch bzgl. Der Tatsache, daß sie per Texteditor manuell konstruiert wurden und eben nicht aus Partiedatenbanken herausgefiltert wurden. Daß auf solchem Neuland auch mal unerwartete Effekte auftreten können, ist klar. Aber ich bin dabei, das weiter zu erforschen und werde alle auf dem Laufenden halten.
Dennoch betone ich ausdrücklich, daß auch die von mir angebotenen Drawkiller Bücher bedenkenlos genutzt werden können. Auch wenn der whitescore etwas zu hoch sein sollte, die Ergebnisspreizung und die Remisqoute sind dennoch herausragend.
Parent - By Stefan Pohl Date 2019-01-09 11:47
Stefan Pohl schrieb:

Ich habe nun auch die Partien meines long-thinking time Turniers nochmal bezgl. Des whitescores angeschaut, indem ich die Partien aufgeteilt habe in Partien mit Leela und Partien ohne Leela. In beiden Fällen war der Whitescore etwas über 58%, also höher als erwartet. Es liegt also nicht an der NN-Engine. Nun bleiben nur noch 2 mögliche Ursachen:
a) die längere Bedenkzeit. Was ich für unwahrscheinlich halte, da, wie eben gepostet, bei 5'+3“ der whitescore eher niedrig war.
b) die Tatsache, daß im long thinking-time Turnier das FritzBuch von Drawkiller Tournament zum Einsatz kommt, während bei allen anderen Testruns, die LittleBlitzerGUI die Drawkiller Stellungen entweder sequentiell aus dem epd-File abgespielt hat, oder für jede Partie eine epd-Stellung rein zufällig gewählt wurde.
Ich vermute b) als Ursache. Denn ich habe zwar das FritzBuch so erstellt, daß alle Züge in einer Stellung mit der exakt gleichen Ausspielwahrscheinlichkeit gespielt werden (der Trick ist dabei, alle Partieegebnisse der Drawkiller-Linien von 1/2-1/2 auf “*“ zu ändern, und dann das Buch zu erzeugen). Aber die pawn-plies Linien, die an die Drawkiller-zugfolgen ja angehängt werden, wurden ja manuell mit einem Texteditor erstellt. Insofern ist der Variantenbaum nicht unbedingt gleichmäßig, es wäre also möglich, daß einige für Weiß günstige Bauernzüge gehäuft ausgespielt werden.
Das werde ich bald genau wissen, denn ich spiele jetzt ein RoundRobin mit nur 2'+3“ Bedenkzeit mit Stockfish 10 und 3 Leelas in der FritzGUI und mit dem Drawkiller Tournament Buch. Sollte auch hier der whitescore erhöht sein, weiß ich, daß es am Buch liegen muß. Andernfalls wäre es wirklich die längere Bedenkzeit im long thinking-time Turnier. Mal abwarten. In 3-4 Tagen sollte ich da klar sehen.



So, ich hatte Recht: Es liegt am FritzBuch, daß die whitescores leicht erhöht sind, auch bei dem kleinen Testurnier mit den kurzen Bedenkzeiten (2'+3'')  war der whitescore etwas über 58%. Und da das Arena- und Shredder-Buch ebenso für alle Züge die identische Ausspielwahrscheinlichkeit hat, wird das Verhalten dieser Bücher ebenso sein. Damit muß man nun leben, dies liegt an der "per-Hand"-Konstruktion der Drawkiller-Linien im Editor. Damit war eine exakte Verteilung der Züge im Variantenbaum nicht mit einem vertretbaren Arbeitsaufwand möglich.
Letzlich ist das nicht wirklich schlimm, die sonstigen Statistiken sind auch bei den Partien mit dem FritzBuch hervorragend, insofern kann es bedenkenlos benutzt werden (und ich werde das für mein long thinking-time Turnier auch weiterhin tun). Wer den whitescore partout sehr klein halten will, muß auf die Verwendung der Bücher aus den Drawkiller-Linien eben verzichten. Stattdessen können ja die PGN- oder EPD-Files der Drawkiller-Linien (bzw. Endstellungen) als Vorgabe für Turniere aller Art benutzt werden.
Parent - - By Guenter Stertenbrink Date 2019-01-07 16:31

> Denn viele Weißsiege würden viele 1:1-Paare bedeuten, die genauso auf Elo-Speizungen wirken,


> wie 2 Remisen, also stauchend. Insofern wäre ein anderes Ergebnis auch sehr überraschend gewesen.

bis etwa 75% whitescore sollte das kein Problem sein.
Nimm z.B. Stellungen die zu 50% fuer Weiss gewonnen und zu 50% remis sind.

Super drawrate, super "Spreizung" , ganz ohne drawkiller oder so.
Solche Stellungen kann man immer statistisch leicht rausfiltern, angepasst an die Spielstaerke und Bedenkzeit.
Parent - - By Stefan Pohl Date 2019-01-07 17:03
Guenter Stertenbrink schrieb:

> wie 2 Remisen, also stauchend. Insofern wäre ein anderes Ergebnis auch sehr überraschend gewesen.

bis etwa 75% whitescore sollte das kein Problem sein.
Nimm z.B. Stellungen die zu 50% fuer Weiss gewonnen und zu 50% remis sind.

Super drawrate, super "Spreizung" , ganz ohne drawkiller oder so.
Solche Stellungen kann man immer statistisch leicht rausfiltern, angepasst an die Spielstaerke und Bedenkzeit.


Das stimmt schon. Nur muß man solche Stellungen eben immer wieder herausfiltern, abhängig von Engines, Hardware und Bedenkzeit würde man immer andere Stellungen bekommen.
Das ist ja der große Vorteil von Drawkiller. Diese Eröffnungsstellungen funktionieren unabhängig von solchen Veränderungen mit allen Engines, Bedenkzeiten und Hardware. Zumindest in den nächsten Jahren. Sollte es immense Fortschritte bei der Hardware geben, könnte man natürlich auch Drawkiller noch mal neu filtern. Aber eben erst bei wirklich eklataten Hardwarefortschritten.
Parent - - By Michael Scheidl Date 2019-01-07 21:18
Lieber Stefan, an Deinen Statistiken ist ja nicht zu rütteln, danke dafür. Aber bitte nicht bös sein deine Drawkiller-Varianten und die grotesken Zugfolgen mit denen Du sie einleitest, gefallen mir nicht und verwirren mich eher. Die kannst Du keinem normalen Schachspieler verkaufen, sozusagen. Deine SALC-Eröffnungen gefallen mir besser, egal wie groß die Remisquote ist. Eine niedrige Remisquote alleine sollte kein Fetisch sein.
Parent - By Thomas Plaschke Date 2019-01-07 22:42

>... die grotesken Zugfolgen mit denen Du sie einleitest, gefallen mir nicht ...


So geht's bzw. ging's mir auch. Bis ich seine Vergleiche mit anderen Ranglisten-Eröffnungsbibliotheken gesehen habe.
Die Partien sind nicht zum Nachspielen und zur Erbauung des Publikums gedacht. Der Witz ist, dass sie die Spielstärke der verglichenen Engines genauso zeigen, wie andere Tests, aber mit einer größeren Elo-Spreizung und damit früher oder sicherer als diese. Die relativen Abstände der Programme in den Ranglisten bleiben dabei in etwa erhalten. Die "grotesken Zugfolgen" verfälschen das Ergebnis also nicht.
Wenn man wissen will, welche Eröffnungen den Programmen liegen, kann man immer noch mit FEOBOS testen und ihnen eine Eröffnungsbibliothek mit ästhetischen Varianten maßschneidern.
Viele Grüße
Th. Plaschke
Parent - - By Stefan Pohl Date 2019-01-08 05:27 Edited 2019-01-08 05:32
Diese grotesken Zugfolgen (das sind sie ohne Zweifel) dienen ja nur dazu, die Ausgangsstellung des Schach umzubauen (Könige in gegenüberliegende Brettecken bewegen und Damen auf verschiedene Linien stellen). Das Spiel beginnt ja erst danach. Und das ist dann weit weniger grotesk als z.B. beim Chess960, weil ja 11 der 16 nicht-Bauern-Figuren nachwievor auf den üblichen Positionen stehen. Dies gilt insbesondere für alle Springer und Läufer, so daß, wenn diese von den Engines entwickelt werden, sie auf “gewohnten“ Feldern stehen (Sf3 zum Beispiel). Daher sind die tatsächlich gespielten Partien gar nicht so “unnormal“, wie man aufgrund der grotesken Drawkiller-Vorgabezüge annehmen würde. Das Anschauen bzw. Zuschauen macht daher durchaus viel Spaß, weil die unglaublichsten Angriffe aufs Brett kommen.
Natürlich ist Drawkiller für Computerschach gedacht und für nichts anderes. Erkenntnisgewinn fürs menschliche Schach kann und darf man nicht erwarten. Spaß und Spannung beim Zuschauen hingegen schon!
Parent - - By Guenter Stertenbrink Date 2019-01-08 07:11 Edited 2019-01-08 07:15
na, ich wuerde auch gern mal Menschenturniere mit dk sehen !

Vielleicht mal ein Verein(blitz)sturnier oder so , wer macht's zuerst ?

-------edit------------
und natuerlich Fernschach !  fast vergessen
Parent - - By Stefan Pohl Date 2019-01-08 11:39
Guenter Stertenbrink schrieb:

na, ich wuerde auch gern mal Menschenturniere mit dk sehen !

Vielleicht mal ein Verein(blitz)sturnier oder so , wer macht's zuerst ?

-------edit------------
und natuerlich Fernschach !  fast vergessen


Warum nicht? Denkbar wäre das schon. Immerhin gibt es ja auch Chess960 Turniere. Sogar mit prominenter Besetzung. Und die Partieverläufe aus Chess960-Stellungen sind weit "seltsamer" als die aus Drawkiller-Stellungen, weil beim Chess960 die meisten oder gar alle nicht-Bauern-Figuren auf anderen Feldern stehen und bei Drawkiller sind es nur 5 von 16. Das macht einen großen Unterschied!

Generell würde ich aber Drawkiller doch eher im Computerschach verwenden. Wobei ich Chess960 ebenfalls für Menschen nicht so gut finde.
Parent - By Stefan Pohl Date 2019-01-08 11:42 Edited 2019-01-08 11:46


Hier eine Drawkiller-Stellung aus dem Drawkiller small500 File. Sieht das wirklich soooo ungewöhnlich aus? OK, die Zugfolge, die diese Stellung "erzeugt" ist chaotisch. Das gebe ich gerne zu. Aber darauf kommt es doch nicht an. Die Partie beginnt doch erst mit dieser Endstellung.

Letzlich stehen halt die Könige auf gegenüberliegenden Seiten und die Damen stehen sich nicht mehr auf einer Linie gegenüber. Der weiße Turm auf d1 würde (weißer König ja auf der linken Seite) nach einem 0-0-0 Zug auch dort landen, wo er jetzt steht.

Ansonsten ein paar Bauernzüge und thats it. Auf jeden Fall weniger seltsam als Chess960!
Parent - - By Guenter Stertenbrink Date 2019-01-07 05:53 Edited 2019-01-07 06:22

>   Der Whitescore in meinem jetzt abgeschlossenen Experiment war bei Drawkiller relativ niedrig:


> Draws        : 566 (27.0 %)
> White Score  : 52.6 %
> Black Score  : 47.4 %
>
> In meinem long thinking-time Turnier ist er hingegen relativ hoch:
> Draws        : 421 (31.0 %)
> White Score  : 58.6 %
> Black Score  : 41.4 % }

das erinnert mich an meine Ergebnisse mit den beiden dk-Grundstellungen

dort stieg der Whitescore von ca. 60% ab 120+1 auf ca. 69%
Sowas seh ich zum ersten mal (afair)

Diese beiden hatten auch eine besonders niedrige Quote
(46% bei 240+2 , 1700kn/s in der Grundstellung, asmfish-asmfish)
von 1-1 Paaren, der hohe Whitescore mag dazu beitragen

--------------------------------------------------------

595.5,399,498.5,dk1a500, gr,010+0,T52,cp-1668,cp-2498, 20,094,145,157,84 , 29,140,178,111,42 , 00 , 1000 games
589.0,402,489.0,dk1b500, gr,010+0,T52,cp-1668,cp-2498, 18,079,169,175,59 , 51,131,151,123,44 , 00 , 1000 games
619.0,430,501.0,dk1a500, gr,0+0.5,T52,cp-1668,cp-2498, 13,075,160,165,87 , 28,128,195,112,37 , 00 , 1000 games
606.5,473,482.5,dk1b500, gr,0+0.5,T52,cp-1668,cp-2498, 15,075,158,186,66 , 30,140,187,121,22 , 00 , 1000 games
620.0,498,481.0,dk1a500, gr,000+1,T52,cp-1668,cp-2498, 08,072,173,166,81 , 24,133,219,105,19 , 00 , 1000 games
620.0,472,480.0,dk1b500, gr,000+1,T52,cp-1668,cp-2498, 12,070,160,182,76 , 26,144,198,108,24 , 00 , 1000 games
594.0,478,483.0,dk1a500, gr,030+1,T52,cp-1668,cp-2498, 14,077,175,175,59 , 30,145,186,107,32 , 00 , 1000 games
601.0,498,473.0,dk1b500, gr,030+1,T52,cp-1668,cp-2498, 09,074,184,172,61 , 32,144,196,102,26 , 00 , 1000 games
691.0,504,482.0,dk1a500, gr,120+1,T52,cp-1668,cp-2498, 02,026,158,216,98 , 08,150,231,092,19 , 00 , 1000 games
685.0,520,478.0,dk1b500, gr,120+1,T52,cp-1668,cp-2498, 05,023,162,217,93 , 14,136,238,104,08 , 00 , 1000 games
691.0,516,493.0,dk1a500, gt,240+2,T52,cp-1668,cp-2498, 03,025,147,237,88 , 07,144,218,118,13 , 00 , 1000 games
680.5,559,478.5,dk1b500, gx,240+2,T52,cp-1668,cp-2498, 01,021,171,230,77 , 09,146,232,105,08 , 00 , 1000 games

white points
draws
points for cp-1668
opening
filename
TC
tablet-number
player1 (cp-1668 = asmfish CounterPly 2018/06/16)
player2 (cp-2498 = asmfish CounterPly 2018/09/24)
pairs with 0,0.5,1,1.5,2 points for White
pairs with 0,0.5,1,1.5,2 points for cp-1668
early draws
number of games

--------------------------------

dk1a:
1. e3 d6 2. Nh3 Na6 3. Bc4 Bf5 4. Ke2 Qd7 5. Na3 Qe6
6. Nb1 Kd7 7. Re1 Rd8 8. Kf1 Kc8 9. Kg1 Kb8 10. Kh1 Ka8
11. Ng1 Nb8 12. Bf1 Qd7 13. Nh3 Qe8 14. Ng1 Bc8

dk1b:
1. d3 e6 2. Na3 Nh6 3. Bf4 Bc5 4. Qd2 Qf6 5. Qe3 Na6
6. Kd2 Nb8 7. Rd1 Ke7 8. Kc1 Re8 9. Kb1 Kf8 10. Ka1 Kg8
11. Qd2 Kh8 12. Qe1 Qd8 13. Nb1 Ng8 14. Bc1 Bf8

-------------------------------------

ein weiteres Ziel ist ja auch, die Elos in Turnieren (oder Positionssets) mit moeglichst geringer Bedenkzeit
verlaesslich ermitteln zu koennen. Das scheint hier ganz gut zu klappen.
Und man braucht auch hier wohl keine grosse Vielfalt, eine Eroeffnung reicht.
Parent - - By Peter Martan Date 2019-01-07 08:23 Edited 2019-01-07 08:33
Guenter Stertenbrink schrieb:

dk1a:
1. e3 d6 2. Nh3 Na6 3. Bc4 Bf5 4. Ke2 Qd7 5. Na3 Qe6
6. Nb1 Kd7 7. Re1 Rd8 8. Kf1 Kc8 9. Kg1 Kb8 10. Kh1 Ka8
11. Ng1 Nb8 12. Bf1 Qd7 13. Nh3 Qe8 14. Ng1 Bc8

dk1b:
1. d3 e6 2. Na3 Nh6 3. Bf4 Bc5 4. Qd2 Qf6 5. Qe3 Na6
6. Kd2 Nb8 7. Rd1 Ke7 8. Kc1 Re8 9. Kb1 Kf8 10. Ka1 Kg8
11. Qd2 Kh8 12. Qe1 Qd8 13. Nb1 Ng8 14. Bc1 Bf8

-------------------------------------

ein weiteres Ziel ist ja auch, die Elos in Turnieren (oder Positionssets) mit moeglichst geringer Bedenkzeit
verlaesslich ermitteln zu koennen. Das scheint hier ganz gut zu klappen.
Und man braucht auch hier wohl keine grosse Vielfalt, eine Eroeffnung reicht.

Geh, Günter!
Bei dir weiß ich immer wieder nicht, ob du die Sachen ernst meinst, aber wenn du dir schon die Mühe machst, die vielen Statistiken zu erstellen, kann's doch nicht for fun only sein, oder?

Wir kämpfen hier alle um einen Elobegriff, wie wir ihm immer gehuldigt haben (naja, ich kämpfe vielleicht zeitweise auf der falschen Seite ), und dann bist du mit "Elo" zufrieden, die du aus zwei schon selbst für Chess 960- Begriffe ziemlich eigenartigen Stellungen (oder überhaupt nur einer?) errechnen willst?

Natürlich reicht eine Stellung allein, da hätte dann aber die Grundstellung schon einen gewissen Anspruch auf Besonderheit für sich, und ich hab' auch immer schon gesagt, wenn man das mit der Overall Playing Strength wirklich ernst nimmt, und nur Eng-Eng gelten lässt als einziges Mittel, irgendwelche Punkte zu sammeln, dann gibt's nur das buchlose Match von der Grundstellung aus.

A0 hat das ja auch wieder salonfähig gemacht, dass die "Dubletten" im wörtlichen Sinn gar nicht soo häufig sind, wenn auf der einen Seite eine starke NN- Engine und auf der anderen eine starke A-B- Engine steht, wurde gerade deutlich gezeigt, da geht schon was ab, schau dir mal die tausend Partien alle etwas näher an (), die allein dieses Setting ausgemacht hat, wenn ich mich recht erinnere. Alles andere, die ausgesuchten TCEC- Stellungen und die Proforma- Verwendung von Cerebellum, das waren ja nur Draufgaben, damit man (mehr oder weniger öffentlich dokumentiert, die Brainfish- Partien sind noch ausständig zum Runterladen) sehen sollte, es geht auch so irgendwie.

Und dann hören wir aber endlich auf, uns mit Testsets an Eröffnungsstellungen zu plagen (man wird's mir nicht glauben, ich plage mich damit mehr, als mit Studien und taktischen single best move- Stellungen, auch für meinen bescheidenen Teil, natürlich interessiert mich jeweils nur die Spielstärke im Ausspielen bestimmter Varianten oder die Output- Lines nach Forward- Backward einzelner Eröffnungsstellungen, die gerade in Fernpartien aufs Brett kommen, aber wo, wenn nicht im Detail, soll man denn anfangen, die wahre Stellungsabhänigkeit zu quantifizieren an Performance und Eval- Richtigkeit zweier oder weniger Vergleichsengines, wenn nicht an einzelnen Stellungen? Und wie das für die einzelne Position of Interest, die irgendwo im früheren oder späteren Mittelspiel liegt,  in einem großen Pool von Engines unter verschiedensten Hardware- TC- Bedingungen ausschaut, interessiert doch wirklich keine S...eele. Es gab früher schon Leute, die solche Thementurniere veranstaltet haben, aber von denen hört oder liest man eigentlich gar nichts mehr, wundert das wen?).

Lassen wir's nur mehr von der Grundstellung laufen, entwickeln wir (einen bestimmten) SF auch nur mehr (LC0 sowieso) dafür, und nur mehr im Vergleich zu LC0, und wenn's anders nicht mehr geht, geben wir SF halt auch noch jeweils ein cleveres LC0- Buch mit, das gegen das natürlich buchlos weiterspielende NNi mit seinem gerade aktuellen Netz gegen das gerade aktuelle Buch antritt.

Dann sind das jetzt die einzig wahrhaft gültigen Elo, aus Schnellschach- Matches auf ziviler Hardware (was auch immer das heute bedeuten mag) LC0 buchlos gegen SF mit Anti- Leela- Buch, das natürlich ebenso ständig adaptiert werden und selbst lernen darf, wie die LC0- Netze ja auch.
So what?

Leider werde ich jetzt dann doch endlich auch wieder etwas arbeiten gehen müssen nach einem längeren Urlaub, dafür hört sich vielleicht die Vielschreiberei von mir hier ein bisschen auf.
Entwarnung.
Parent - By Guenter Stertenbrink Date 2019-01-07 16:19
Peter, es ist oft nicht so einfach fuer mich, deinen Gedanken zu folgen bei den langen verschachtelten Saetzen

wenn (fast) dieselbe Elo rauskommt bei 2 verschiedenen Ansaetzen, dann ist es doch egal,
welchen ich nehme

das Problem mit der Grundstellung sind die vielen Remisen
und die langweiligen Partien , frz.Abtauschvariante und so
Parent - By Klaus Wlotzka Date 2019-01-06 18:54
Hallo Stefan,

du kannst das FEOBOS-Projekt überhaupt nicht schlecht reden und interpretierst unsere Intension völlig falsch.

Die maßgebliche Aufgabe bestand darin, ein Eröffnungsbuch aus der bekannten Schachtheorie über alle ECO-Codes zu entwickeln, welches für Schachengines optimiert ist. Hier ging es in erster Linie darum, Positionen, welche eine Seite bevorteilt, zu eliminieren. Es war überraschend für mich, welche völlig normal aussehenden Stellungen von den Topengines brutal aussortiert wurden.

Unser selbst entwickeltes Bewertungssystem legt seinen Fokus auf Stellungen, bei denen die Engines allesamt innerhalb eines bestimmten Bewertungsbereiches nahe der 0.00-Grenze liegen und das zudem möglichst viele Ausspielvarianten gefunden wurden. Es wurden durch die Tests Stellungen gefunden, mit 8 bis 10 unterschiedlichen Fortsetzungen ohne Ausreißer in Bezug auf die Bewertung zu haben. Das waren die interessanten Stellungen für uns. So werden für Engines viele spielbare Zugfortsetzungen geschaffen.

Es blieben also zwangsläufig Stellungen zurück, welche eher nah an der 0.00-Grenze liegen. Selbstverständlich gehört zu einem Top-Buch einfach dazu, dass bei einem so ausbalancierten Eröffnungsbuch auch danach geschaut werden muss, dass keine oder nur wenige Stellungen dabei sind, welche zwangsläufig in ein frühes Remis durch Zugwiederholung enden. Was in 80-100 Zügen mit der jeweiligen Stellung passiert, können wir mit einem Eröffnungsbuch ohnehin nicht beeinflussen. Es hatte für uns nie Priorität, Remise möglichst zu vermeiden. Dann hätten wir nie alle ECO-Codes benutzen können.

Wie ich schon öfter anmerkte, sehe ich überhaupt kein Problem mit den Remisen. Diese gehören zum Schach dazu, erst recht wenn die Gegner gleich stark sind. Das war schon immer so und wird sich auch nie ändern. Mit zunehmender Spielstärke gibt es auch noch kaum Engines, welche wie früher einen riskanten Spielstil an den Tag legen. Einfach weil es bei den heutigen Rechentiefen sofort bestraft wird. Daher sind die Computerpartien heute eher langweilig. Aber dies können und wir mit einem Eröffnungsbuch nicht beeinflussen. Es sei denn, man lässt die Engines auf irgend welche skurrilen Stellungen los, welche für mich nichts mehr mit Schach zu tun haben. Sorry, damit kann ich nun überhaupt nichts anfangen.

Von daher jedem das seine.

Viele Grüße

Klaus
Parent - - By Guenter Stertenbrink Date 2019-01-06 19:40
10x.

ich fasse mal in einem Bildchen zusammen :

http://magictour.free.fr/POHL19A.GIF
Parent - - By Frank Quisinsky Date 2019-01-06 19:57 Edited 2019-01-06 20:02
Hi,

na das ist doch mal eine schöne kleine Statistik zum Experiment.
Die aggressiveren Engines gehen bei Salc leicht hoch, nicht bei FEOBOS.

Fire spielt z. B. von 10 Engines die bei FEOBOS alle Stellungen durchanalysierten mit den niedrigesten Abweichungen bei den Bewertungen. Hat also eine sehr ruhige EVAL. Liegt auch entsprechend bei der Kurve. Für mich sagt die Kurve jetzt aus, das selbst die aggressiven Engines etwas mehr durch aggressive Bücher profitieren, unabhängig von der Remisquote. Die kann wie gesagt nicht verglichen werden mit FEOBOS weil wir alle ECO Codes drin haben, auch die ganzen Remisträchtigen.

Letztendlich werden Statistiken verschoben wenn Eröffnungssystem ausgeklammert werden.
Aussagekräftige Statistiken kann ich immer nur dann erzeugen wenn etwas komplett ist.
Wäre so als wenn ich zur Sizilianischen Eröffnung eine Ratingliste erstelle und das dann finale Ergebnis über alles drüber stülpen möchte.
Das funktioniert nicht!!

Würden jetzt z. B. andere Bücher auch alle ECO Codes enhalten und mindestens gleich viel Material enthalten wäre das wieder interessanter für mich. Nur dann haben wir das Problem, dass wir bei der Ausgangspostion von FEOBOS hatten. In den Büchern wäre wieder bis zu 25% Material drin, welches nicht ausgeglichen ist und beim Engine Kampf immer eine Engine bevorteilt. Es soll aber keine Engine bevorteilt werden wenn es um statische Auswertungen zur Spielstärke geht.

Das ist genau das Problem was mit FEOBOS gelöst werden sollte.
Eine Datenbasis, die ausgeglichene Vorgabestellungen produziert, aus allen 500 ECO Codes, wo keine Engine durch minimale Vorteile in den Kampf zieht.

Mit dieser Datenbasis sind exakte Eng-Eng Auswertungen bzw. Statistiken möglich.
Die sind nicht möglich, wenn die vieles aus der Theorie fehlt.

Da wir alles drin haben in FEOBOS sind Rückschlüsse leicht zu ziehen was bei anderen Datenbanken gemacht wurde.
Das hat aber nichts mehr mit der Realität zu tun, wenn wir gezielte Angriffsmuster / Positionen sammeln und zum Test einsetzen. Dann verschieben sich alle Statistiken und jede Statistik wird zu einem Würfelspiel beim Auslesen der statistischen Ergebnisse. Nehme ich ausschließlich aggressive Systeme werden aggressive Engines bevorteilt.

Remisvermeidung ist bei FEOBOS auch interessant aber nur hinsichtlich schnelles Remis. Aus der Eröffnung heraus dreifache Stellungswiederholung vermeiden.
Daher haben wir den Contempt eingeführt.

Das Experiment zeigt daher z. B. eher auf:
Wir können Eröffnungsbücher durch die Wahl der Eröffnungen manipulieren, um Remisquoten zu senken.
Aber das ist nichts brauchbares an neuem Wissen.
Das ist logisch und klar!

Es ist bekannt welche Eröffnungssystem remislastig sind.
Und die gehören zu unserer Theorie dazu und sind genauso wichtig beim Engine Test wie die aggressiveren Varianten.

Gruß
Frank
Parent - - By Klaus Wlotzka Date 2019-01-06 20:11 Upvotes 1
Frank Quisinsky schrieb:


Das Experiment zeigt daher z. B. eher auf:
Wir können Eröffnungsbücher durch die Wahl der Eröffnungen manipulieren, um Remisquoten zu senken.
Aber das ist nichts brauchbares an neuem Wissen.
Das ist logisch und klar!



Hallo Frank,

mir zeigt das Experiment auch auf, dass durch die ach so vielen Remisen es eben nicht zu unrealistischen Ergebnissen kommt, wie so oft dargestellt.

Grüße

Klaus
Parent - By Frank Quisinsky Date 2019-01-06 20:29 Edited 2019-01-06 20:33
Hi Klaus,

stimmt!

Einzig was bei FEOBOS noch gemacht werden könnte?!

Die Prios zu den 500 Systemen vielleicht besser in einem Verhältnis zum Ausspielverhalten der GMs setzen.
So werden dann die enthaltenen 33.000 Stellungen nach Beliebheit durch Prios ausgespielt bzw. wird das GM Schach in der Eröffnung 1:1 simuliert.
Nun sind Schachprogramme aber keine Menschen und der für Menschen wichtige Punkt ist für Schachprogramme nicht wichtig.
Bin da immer hin- und hergerissen ob das überhaupt notwendig ist.

Gruß
Frank

PS: Bin mir sicher wenn die Prios gesetzt werden wir z. B. die von Stefan angestrebte Remiquote zurück gehen.
Wenn unsere aktuellen GMs selbst Remis durch remisträchtige Eröffnungen vermeiden.
Weißt Du was ich glaube ... eher wird schnelles Remis angestrebt und die remisträchtigen Varianten werden heute eher verstärkt ausgespielt.
Könnte also nach hinten los gehen!

Vielleicht die Prios setzen nach dem Ausspielverhalten der Altmeister?
Aber dann werden einige moderne Systeme nicht angespielt weil viele alten Systeme heute als nicht spielbar gelten.
Parent - - By Stefan Pohl Date 2019-01-06 20:34
Klaus Wlotzka schrieb:

Frank Quisinsky schrieb:


Das Experiment zeigt daher z. B. eher auf:
Wir können Eröffnungsbücher durch die Wahl der Eröffnungen manipulieren, um Remisquoten zu senken.
Aber das ist nichts brauchbares an neuem Wissen.
Das ist logisch und klar!



Hallo Frank,

mir zeigt das Experiment auch auf, dass durch die ach so vielen Remisen es eben nicht zu unrealistischen Ergebnissen kommt, wie so oft dargestellt.

Grüße

Klaus


Das habe ich auch nie behauptet. Viele Remisen stauchen die Ergebnisse nur Richtung 50%-Marke. Dadurch werden die Eloabstände zwischen den Engines kleiner. Und das macht die Ergebnisse statistisch schlechter, weil die Wahrscheinlichkeit steigt, daß sie innerhalb der Errorbars landen. Mit mehr Remisen werden die Ergebnisse also nicht unrealistischer. Nur unsicherer. Und schlechter unterscheidbar.
Parent - By Frank Quisinsky Date 2019-01-06 20:57
Hi Stefan,

jetzt weiß ich auch was hinter Deiner Denke steht.

Das ist aber genau anders herum so.
Je näher die Spielstärke zusammen liegt, desto höher ist die Remisquote.
Schaue Dir mal die vielen KK WM Matches an. Die spielten teils erbittert gegeneinander.
Beim letzten WM Match hatte ich auch nicht das Gefühl das beide auf Remis spielten.

Selbst ein Tal hat nicht nur Glanzpartien produziert!

Hohe Remisquoten zwischen gleichenstarken Gegnern sind absolut normal.
Klar geht es dann zu 50% hin und die Unterschiede werden geringer.

Grundsätzlich kannst Du das bei den TOP-3 Houdini, Komodo und Stockfish kaum messen.
Die sind sich schon beim Stil sehr gleich und haben alle die gleichen Stärken und Schwächen. OK, Komodo ist ein wenig passiver in der Eröffnung (im direkten Vergleich) spielt vielleicht im späten Mittelspiel kontrollierter aber produziert sonst die gleichen Stärken und Schwächen.

Stockfish ist den anderen beiden derzeit überlegen und dann logischer Weise minimal mehr Gewinnpartien oder weniger Verlustpartien.

Nehme zwei Engines aus dem Bereich 2.500 Elo der CEGT die ca. gleichauf liegen und sich auch vom Stil nicht so sehr unterscheiden.
Die Remisquote wird hoch sein.

Das mit Gewalt durch aggressive Eröffnungen zu beeinflussen ist fürs Auge interessant aber nicht hinsichtlich Statistik.
Die wird total verzerrt und wirkt künstlich beeinflusst.

Der Reiz ist es doch nicht beeinflussend vorzugehen!
Es sein denn man möchte mit Gewalt beim Zusehen Fun, Fun, Fun ...
Das ist etwas anderes, dahingehend finde ich die Ideen rund um Deine Bücher wirklich gut.
Aber das hatten wir schon alles x-Mal.

Gruß
Frank
Parent - - By Stefan Pohl Date 2019-01-06 20:24 Edited 2019-01-06 20:43
Sehr schön, zeigt auf, wie die Elo-Werte mit steigender Remisqoute immer weiter zusammenlaufen, natürlich mit leichten Schwankern, bei nur 600 Partien pro Engine und Testrun ist das unvermeidlich. Und man sieht, wie sehr die Drawkiller-Openings "in ihrer eigenen Liga" spielen.
Allerdings ist mir der Fehler unterlaufen, daß ich übersehen habe, daß die CCRL-Elos mit bayeselo generiert wurden. Mit ORDO, so wurde mir freundlicherweise gerade auf talkchess ausgerechnet, wäre die Elo-Spreizung höher (276 Elo statt 229, also ein viel eher erwartbarer Wert). Ich habe dies soeben auf meiner Website ergänzt.
Letzlich ging es bei den CEGT und CCRL-Listenauszügen nur darum, aufzuzeigen, daß die Rangfolge der getesteten Engines auch dort dieselbe ist, wie bei meinen 8 Testruns, daß es also nicht nur egal ist, ob viele, wenige oder gar keine ECO-Codes in einem Eröffnungsset vorkommen, sondern auch, ob man jede Engine nur gegen 6 Engines testet, oder viel mehr (wie eben CEGT und CCRL). Wichtig ist nur, daß die Endstellungen keinen zu großen Vorteil für Weiß oder Schwarz haben, sonst drückt man alle Ergebnisse Richtung 50% und zerstört so die Elospreizung (deine berühmten 1:1-Paare!). Und, daß man genügend Partien spielt, sodaß sich die Ergebnisse halbwegs einpendeln können. Und daß die Remisqoute möglichst niedrig ist, weil hohe Remisqouten logischerweise der Elo-Spreizung und damit der Ergebnissicherheit entgegenwirken. Alle anderen Prämissen bezüglich Eröffnungs-Sets fürs Engine-Testen sind reine Illusion und führen nicht zu besseren, nicht mal zu überhaupt anderen Ergebnissen. Und das hat nicht das geringste mit "Schlechtreden" zu tun, sondern das zeigen die empirischen Daten. Und zwar mit einer Deutlichkeit, die nichts zu wünschen übrig läßt.

Damit lasse ich das Ganze nun auch gut sein. Wer sich seine Meinung anhand von Meßdaten bildet (anstatt auf denjenigen loszugehen, der die Messungen gemacht hat, nur weil ihm die Ergebnisse nicht zusagen (ganz schlechter Stil, übrigens)), findet alles auf meiner Website. Und kann gerne selber auch Messungen machen. Meine Drawkiller und SALC Eröffnungen, sowie das HERT-Set und das 4 GM moves Set kann man bei mir herunterladen. Die 2moves und 8 moves Stockfish Framework-Sets gibt es auf der Stockfish-Website. FEOBOS gibts es auf der Website von Frank Q. Und wenn jemand die Noomen-Stellungen möchte, die ich aus den TCEC Superfinal Sets und dem Gambit-Set zusammengesetzt habe, der kann mich per PM kontakten, dann schicke ich einen Link auf mein Google-Drive, wo man sich das epd-file dann herunterladen kann. Sofern dann genügend Partien gespielt werden (1000 aufwärts pro Test) sehe ich allen Ergebnissen sehr gelassen entgegen.

Jetzt hab ich auch erst mal genug vom Thema Eröffnungen. Habe jetzt in den letzten 6 Monaten praktisch nichts anderes gemacht...wenn ich die Zeit dazurechne, die ich in meine SALC-Stellungen investiert habe, die ja mehrere Evolutionsschritte und Versionen durchlaufen haben, dann habe ich mich nun jahrelang mit diesem Thema beschäftigt.

Zudem denke ich nachwievor, daß mit den Drawkiller Openings das Optimum bzgl. Remisqoute und Ergebnisspreizung erreicht wurde. Zumindest mir fällt momentan kein weiteres Stellungskriterium ein, mit dem man Remisqouten noch weiter senken und/oder Ergebnisse weiter spreizen könnte. Sollte jemand diesbzgl noch eine geniale Idee haben, kann er mich gerne kontakten. Aber ich mach jetzt erst mal eine kleine "Eröffnungs"-Pause.

Bedanken möchte ich mich abschließend nochmal ausdrücklich bei Hauke Lutz, der mich in Frühphase der ersten Version von SALC sehr unterstützt hat und - noch viel wichtiger - der die geniale Idee der reinen pawn-plies Eröffnungsvorgaben hatte (und einige, der von mir bei Drawkiller benutzten pawn-plies Sets auch erstellt hat). Ohne diese schlichte, aber brillante Idee hätte es die Drawkiller Openings nie gegeben. Das kann man gar nicht hoch genug bewerten!
Parent - - By Guenter Stertenbrink Date 2019-01-06 20:48
du selber hattest diese Idee kuerzlich, indem du einfach die "besten" der dk Eroeffnungen rausgefiltert hast.

Mit immer groesseren Datenbanken (77M bei A0) kann man immer besser filtern.

Ein NN koennte entwickelt werden, dass darauf trainiert wird , drawkiller Eroeffnungen zu finden.
Parent - By Stefan Pohl Date 2019-01-06 20:56 Edited 2019-01-06 21:04
Guenter Stertenbrink schrieb:

du selber hattest diese Idee kuerzlich, indem du einfach die "besten" der dk Eroeffnungen rausgefiltert hast.

Mit immer groesseren Datenbanken (77M bei A0) kann man immer besser filtern.

Ein NN koennte entwickelt werden, dass darauf trainiert wird , drawkiller Eroeffnungen zu finden.


Sicher, das wäre vorstellbar. Genau deshalb habe ich ja die unanalysierten Rohdaten in den Drawkiller Download hineingepackt. Damit man in Zukunft nochmal neu filtern kann. Mit mehr Hardwarepower oder auch einer NN-Engine. Letzlich ist das dann aber nur eine neue (und hoffentlich bessere) Filterung aus einem unveränderten Pool aus Eröffnungs-Linien. Das Drawkiller-Konzept an sich bleibt davon also unberührt. Und es wäre eben keine neue Idee dabei. Das meinte ich mit "ausgereizt", nämlich, daß ich momentan keine weitere Idee habe, die Remisqouten senkt und/oder Ergebnisse weiter spreizt. Zudem sind die Ergebnisse, die Drawkiller liefert, so unfaßbar gut, daß ich selbst solche Remisqouten und Meßwerte noch vor 6 Monaten für reine ScienceFiction gehalten hätte. Ich bin eigentlich immer noch verblüfft, wie niedrig die Remisqouten mit Drawkiller sind. Wenn ich allein auf mein long thinkig-time Turnier schaue: Remisqoute dort 31% und das mit 15'+5'' Bedenkzeit, zwar nur singlecore, aber immerhin mit pondern. Das ist doch wirklich kaum zu glauben, wenn man es nicht mit eigenen Augen sehen würde. Und die Partien sind der Knaller. Einfach großartig. Insofern mache ich jetzt sehr zufrieden mal eine Eröffnungs-Pause.
Parent - By Lothar Jung Date 2019-01-07 13:45
Das wäre was für Dich:

https://groups.google.com/forum/m/#!topic/lczero/2f6Pata3AGY

Distilled Network 11248

Lothar
Up Topic Hauptforen / CSS-Forum / Großes Experiment mit 8 Eröffnungs-Sets

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill