Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Die mathematische Antwort auf John Nunn ... Stockfish vs. Komodo, 1000 games
- - By Frank Quisinsky Date 2017-06-14 11:17 Edited 2017-06-14 11:26
Hallo zusammen,

mit der Excel Tabelle von Klaus Wlotzka lässt sich nun also zu jedem der 500 ECO Codes die optimale Test-Set Stellung berechnen.
Mithin haben wir einen FEOBOS v5.0 Test-Set kreiert und möchten den natürlich auch ein wenig testen.
Klar mit den aktuellen Versionen von Stockfish und Komodo.

Mit Farbtausch wären das dann 1.000 Partien, also 1x A00 = 2 Partien, 1x A01, 1x A02 ...

Übrigenes, zwischenzeitlich wurden auch die neuen Eröffnungsbücher für Chessbase und Shredder GUI veröffentlicht.
FEOBOS v5.0 Eröffnungsbücher und FEOBOS v5.0 Test-Set finden sich auf meinen Webseiten.

Wer das Match ein wenig verfolgen möchte:
http://www.amateurschach.de/ftptrigger/feobos%20v5.0%20test-set.html

Da ich hierfür nur eine Maschine einsetze wird es ca. 8-9 Tage dauern.
Gespielt wird unter den älteren FCP Rating List Bedingungen ...
40 Züge in 10 Minuten, 512Mb für Hash-Tables, 4-Steiner Endspieldatenbanken, Intel i7 4.0 Ghz Hardware.

Also, mit Verspätung die mathematische Antwort auf den gut bekannten John Nunn Test, errechnet mit einer 4.7 Millionen Formeln starken Excel Tabelle von Klaus Wlotzka.

Sicherlich kommt nun die Frage auf ...
Was ist die beste Stellung eines jeden ECO-Codes?

FEOBOS basiert ja auf Varianten, 3 Züge nach ECO-Code Bildung die ausgeglichen sein sollen.

Für uns ist die beste Variante die Folgende (Kriterien müssen her):

Kriterium 1:
Es sollten nach der Vorgabestellung viele Züge spielbar sein. Da derzeit 5 Engines die 26.146 starke FEOBOS Datenbank durchgerechnet haben sollen die Varianten für einen Test-Set berücksichtigt werden, die so viele ausgeglichene Fortsetzungen wie möglich zulassen.

Kriterium 2:
Keine der 5 Engines darf eine Test-Set Position mit einer zu hohen Eval bewerten (die roten bad positions in der Tabelle).

Kriterium 3:
Keine der 5 Engines darf eine 0.00 Variante ausgeben (die grünen 0.00 draw positions in der Tabelle).

Kriterium 4:
Betrifft experimentelle Engines, die noch nicht eingepflegt wurden (derzeit nicht interessant).

Kriterium 5:
Haben wir also z. B. noch 35 A00 Varianten übrig, die vorherige Vorgaben erfüllen, qualifiziert sich die Variante für den Test-Set, die sich näher zu 0,00 bewegt. Die 0.00 Stellungsbewertung selbst, ist dann die durchschnittliche der 5 schon eingepflegten FEOBOS Engine Analysen.

Also, nach FEOBOS v5.0 und der hierfür präparierten Excel Tabelle von Klaus kann es mal mit einem leichten Auf Galopp los gehen. Natürlich werden die FEOBOS Daten mit jeder neuen Engine die hinzukommt immer besser und mithin auch der Test-Set. Allerdings will ich sehen wie sich jetzt nach Version 5 der Test-Set so schlägt.

Die Antwort auf John Nunn mit vielen Jahren Verspätung ...
Nun ist / war John Nunn ja auch ein begnadeter Mathematiker und sicherlich waren wir alle froh seinerzeit den Test-Set zu haben. Allerdings können wir heute die Engines selbst einen Test-Set kreieren lassen. Heute sind unsere Programme deutlich stärker, wir haben mehr Möglichkeiten und zuletzt natürlich auch die Arbeit von Klaus Wlotzka. So steht dieser Bereich nicht so ganz und beflügelt zu neuen Errungenschaften. Bin ein John Nunn Fan und schaute mir vor ein paar Tagen noch Nunn Partien über YouTube an (Schach der Großmeister). Z. B. seine Verlustpartie gegen Timman (er stellte einen Läufer ziemlich früh abseits und verlor diese Partien). Glaube das war 1984.

Viel Spaß nun mit Komodo vs. Stockfish ...
Ich denke das ein sehr genaues Resultat herauskommen wird (natürlich nur im direkten Vergleich der beiden Kontrahenten untereinander).

Ach ja:
Contempt für Stockfish ist nicht notwendig. Der Test-Set wird sehr wahrscheinlich keine schnellen Remise produzieren. Genau das wird bei der Entwicklung der FEOBOS Daten berücksichtigt und zeigte sich auch im FEOBOS Buch Test Wasp gegen 20 Gegner (auch auf meiner Webseite zu finden).

Gruß
Frank
Parent - By Frank Quisinsky Date 2017-06-14 13:50
Hallo zusammen,

ah, kann natürlich sein, dass aus einer Vorgabestellung wieder eine Zugumstellung in ein anderes System wird.
Das hatte ich hierbei gar nicht bedacht.

So ist A04 direkt in eine Zugumstellung gelaufen.
Das heißt die Vorgabestellungen müssen eindeutig sein.

Aber solche Sachen fallen beim Test des Test-Sets auf.
Muss also korrigieren, weil ich ja will das zu jedem ECO Code eine Stellung drin ist.

Bin mal gespannt wie viele es werden.
Nach dem Test-Run korrigiere ich dann die Stellungen zu eindeutigen dem ECO Code entsprechende Stellungen und schaue dann hier natürlich auch welche sich dafür nach den bisherigen Analysen am besten eignet.

Wie dem auch ist, nach nur wenigen Partien noch kein Komodo Sieg.
9.5 : 5.5 und schon vier vor.

Gerade mal in die Daten geschaut ... alles Endspielsiege von Stockfish, bei drei der Stellungen wurde der Vorteil ermürbend im späten Mittelspiel eingeleitet. Wenn Stockfish so weiter spielt gibt es ne Klatsche für Komodo. Aber der Kampf hat ja gerade erst begonnen!

Gruß
Frank
Parent - - By Clemens Keck Date 2017-06-15 08:03
Das match finde ich Klasse, Frank.
Bin auch gespannt ob Dein Buch-Projekt in eine finale Version mündet, und wie diese sich dann auf Testergebnisse auswirkt.
Ich persönlich habe auch Interesse an "unbalanced openings", wenn sie mit vertauschten Farben gespielt werden.
Bin auf die remis Quote gespannt.
Dieser thread auf talkchess
http://www.talkchess.com/forum/viewtopic.php?t=64176
führt auch in eine sehr intressannte Diskussion mit Jeroen Noomen über Abspiele bzw. Bücher und Vorgabestellungen in engine matches.
beste Grüße
Clemens
Parent - - By Frank Quisinsky Date 2017-06-15 10:50 Edited 2017-06-15 11:10
Hi Clemens,

wobei ich viel zu früh den Test-Set veröffentlich habe.
Denn es waren noch zu viele Probleme drin und ich hätte das besser vorher prüfen sollen.
Zwar lt. der Excel die besten Positionen aber folgende Probleme treten auf:

Problem 1:
Chessbase GUI und Shredder GUI geben oftmals unterschiedliche ECO Codes aus.
Die ECO Codes im Test-Set müssen eindeutiger sein bzw. der Weg dorthin.
Musste mir zweitbeste oder gar drittbeste Positionen aus der FEOBOS Datenbank herausfischen.
Wichtig ist ... es sollten immer möglichst viele gute Fortsetzungen nach der Vorgabe möglich sein.

Problem 2:
Es waren einige Stellungen ohne Dame auf dem Brett enthalten.
Das ist für einen Test-Set nicht interessant.
E90, E92 und E94 ohne Dame auf dem Brett geht gar nicht (Beispiele).

Problem 3:
Auch nach einer Vorgabestellung zu einem ECO Code (nach der Endposition) kann sich ein ECO Code noch verändern.
Nicht bedacht.

Lösung:
Ich habe alles was ich gesehen haben berichtigt. Also andere Stellungen, die sich eignen von Hand selektiert, überprüft mit Literatur und den Excel Dateien von Klaus. Dabei sind mir noch 2 Fehler in den Excel Dateien aufgefallen die Klaus noch berichtigen muss.

Letztendlich artet der Test des "Test-Sets" in Arbeit aus.
Denn im laufenden Match zwischen Stockfish und Komodo musste ich logischer Weise auch die Partien wiederholen lassen, bei dem die oben genannten Probleme aufgetreten sind.

Wie gesagt, alles berichtigt.
FEOBOS v5.01 Test-Set liegt auf meinen Seiten.
Die Nachholpartien zwischen Komodo und Stockfish laufen bzw. sind schon gelaufen.

In der Readme zum Test-Set habe ich das dokumentiert.

Wichtig ist mir folgendes:
Am Ende vom Komodo - Stockfish Zweikampf haben ich eine Datenbank aus der ersichtlich wird:
2x A00, 2x A01, 2x A02 ... und vor allem das Beste aus allem was ich in der 26.146 Gesamtdatenbank habe bzw. als das Beste erkennen kann.

Mit an Sicherheit grenzender Wahrscheinlichkeit muss ich also den Test-Set während das Match läuft weiter korrigieren.

Tja ...
Da spielt anhand der Teststellung Komodo mit weiß die A53 und Stockfish mit der gleicher Vorgabestellung landet ein paar Züge später in E93 und so Scherze.
Stellungen müssen wie gesagt eindeutig sein.

Schaue mir die von Dir erwähnte Diskussion gerne an.
Bin einfach total ausgelastet mit diesem Projekt, weil es ständig etwas zu verbessern gibt.

Und zum Match selbst ...
Komodo wird wirklich abgezogen!
Viel deutlicher als in meiner FCP Rating Liste seinerzeit.
Klar, es spielt die starke ASM Version von Stockfish und das könnte wirklich deutlich mehr ausmachen als ich selbst nach meiner "FCP Rating List" vermutete.

Positiv fällt auf ... Gott sei Dank gibt es Positives zu vermelden ...

Keine ultra kurzen Remispartien (klar die Datenbank ist ja auch dahingehend schon gut optimiert).
Die Kürzeste Remispartie gab es nach 34 oder 35 Zügen ... glaube ich aus dem Kopf heraus sagen zu können.
Die Remisquote ist völlig normal !!

Bin richtig froh darum aber wenn ich die Arbeit denke, die während des Test-Sets noch auf mich zu kommen wird, bin ich gar nicht froh.
Hätte den Test-Set besser nach dem Buchprojekt erstellt ... nun habe ich ein Ding mehr zu pflegen bis alles abgeschlossen ist.
Egal, brauche das Zeug für Wasp - Wasp ... Test-Klamotten auf einen anderen Rechner.

Na ja, wird der eine oder andere ein wenig Spaß mit dem Zweikampf haben.
Mir geht es allerdings eher um meinen Test-Set ... Mensch



So ganz kann Excel die Arbeit also nicht erledigen was den Test-Set angeht.
Auch hier wird es wahrscheinlich zu 10-15% Änderungen kommen müssen bis es optimal ist.
Aber ohne die Excel Tabelle wären die restlichen 85-90% willkürlich ... und so wird wirklich das beste aus den Codes, in 10-15% dann das zweitbeste - viertbeste herausgeholt.

Mensch Chessbase ... schaut Euch mal in Ruhe E57 an.
Was alles als E57 deklariert wird und gar nicht ist ...
Parent - By Tom Paul Date 2017-06-15 11:20
Frank Quisinsky schrieb:

Tja ...
Da spielt anhand der Teststellung Komodo mit weiß die A53 und Stockfish mit der gleicher Vorgabestellung landet ein paar Züge später in E93 und so Scherze.
Stellungen müssen wie gesagt eindeutig sein.

Und zum Match selbst ...
Komodo wird wirklich abgezogen!
Viel deutlicher als in meiner FCP Rating Liste seinerzeit.
Klar, es spielt die starke ASM Version von Stockfish und das könnte wirklich deutlich mehr ausmachen als ich selbst nach meiner "FCP Rating List" vermutete.

Keine ultra kurzen Remispartien (klar die Datenbank ist ja auch dahingehend schon gut optimiert).
Die Kürzeste Remispartie gab es nach 34 oder 35 Zügen ... glaube ich aus dem Kopf heraus sagen zu können.


1. Ist das überhaupt möglich?
Ich erzähle dir jetzt lieber nicht aus wie vielen As und Es... ich laut IDeA nach einpaar Zügen in der gleichen Brettstellung lande, beim besten spiel beiderseits.

2. Das war doch klar das Komodo früher oder später dauerhaft abgehängt wird.
Und gerade weil die ASM Version so stark ist, sollte man diese auf allen Plattformen zur Verfügung stellen.

3.Das dürfte sich auch in Zukunft weiter verbessern, da die Engines daraufhin optimiert werden bei ausgeglichener Stellung remis zu vermeiden und die ausgeglichene Stellung hält länger an, je stärker die Engines werden.
Parent - - By Peter Martan Date 2017-06-15 11:28
Hallo Frank!

Frank Quisinsky schrieb:

Tja ...
Da spielt anhand der Teststellung Komodo mit weiß die A53 und Stockfish mit der gleicher Vorgabestellung landet ein paar Züge später in E93 und so Scherze.
Stellungen müssen wie gesagt eindeutig sein.


Meiner Meinung nach hängt man bei Thementurnieren, wie sie heutzutage dankenswerter Weise wieder mehr gemacht werden, zu sehr an Namen, was die Eröffnungen angeht, siehe auch hier:

http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=718433&t=64240&sid=759ea72ce35ee0361d38c284aafead35

Etwas inhomogeneres als "KID" gibt's ja wirklich kaum, und das soll "eine Eröffnung" sein?

Das sind mindestens 2 komplette und ziemlich unterschiedliche Systeme, allein schon die geschlossenen und die halboffenen Varianten daraus.
Und da jetzt dann ein gemeinsames Testset draus zu basteln, ist eine heroische Aufgabe, Dann Corbit hat sich der Sache echt fleißig angenommen, darf ich aber mal die Profitester fragen, was das noch mit Elo zu tun hat, wie wir jahrzehntelang von den Ranglisten- Profis darauf gedrillt wurden, sie zu verstehen?

Sollten wir nicht echt langsam anfangen von KID- Celo (nach Corbit- Set z.B.), Spanisch- Celo, Slawisch- Celo usw. zu reden und jeweils aber schon auch gleich das Testset dazu zu sagen, mit dem die jeweils erspielt wurden?

Bin schon gespannt auf deine nächsten Feobos 5.03- Celo- Ergebnisse, Frank!

Meine es aber echt nicht (nur ) ironisch, für mich zählen solche Ergebnisse eh mehr als die "Overall Playing Strength"- Celo allein, man muss sie halt in Relation setzen können, aber das gelingt dir sicher auch noch Frank, weiter so und danke schön!
Parent - - By Frank Quisinsky Date 2017-06-15 14:15 Edited 2017-06-15 14:21
Hallo Peter,

nochmals mit ELO hat FEOBOS nichts zu tun.

- Fehlerfindung in Bewertungen bei den Programmen, durch Vergleich!
- Lernen Programme und deren Bewertungen zu verstehen, durch Vergleich!
- optimale Eröffnungsvorbereitung durch ... was ist ausgeglichen! Es macht mehr Sinn sich zunächst mal mit der Eröffnung zu beschäftigen als zu versuchen die Schwachpunkte zu finden um aggressive drauf los zu spielen.
- Spielstile beurteilen durch Aneinanderreihung von 26.146 Bewertungen je Engine! Daraus kann gelesen werden wie in einem Buch.
- Klar, die Bucherstellung.
- Klar, die Test-Set Erstellung.

Eher der Vergleich schlechthin ... Die Analysen von 13 Programmen können später wie eine Schablone aufeinander gelegt werden.
Das Wissen was allein daraus generiert werden kann ist enorm.

Mich interessiert auch ehrlicher Weise das vorhandene Material nicht besonders Peter. Ich gehe in der Regel eigene Wege wenn mir etwas auf den Keks geht ... selbst ist der Mann. Und das was wir haben an Büchern und wie wir testen geht mir gehörig auf den Keks. Klar wenn ich schon in eigenen Daten zu Ergebnisse komme das mindestens 12% dann doch nicht so sind wie es sein sollte. Insofern bin ich eigentlich immer selbst mein größter Kritiker. Und da das so ist, interessiert mich die Kritik anderer eh erst zweitrangig bevor die eigene Kritik nicht beseitigt ist. Im Eröffnungsbereich lässt sich aber nicht so richtig beseitigen ... eher lässt sich die Optimierung ein wenig voran bringen. Auch wenn ich immer schreibe "optimal" ... in Wirklichkeit gibt es kaum was optimales. Später wenn das Schachspiel ausgerechnet ist, wissen wir was optimal in der Eröffnung ist oder nicht.

Eine optimale Testbasis zu schaffen ist eine größere Aufgabe als eine dumme Ratingliste zu kreieren bzw. irgendwelche Engines aufeinander zu jagen. Klar mache ich das auch gerne aber am liebsten erst dann, wenn die optimale Testbasis steht (also weitestgehend optimale Testbasis ... das was halt gemacht werden kann mit dem Wissen welches vorhanden ist). Vorher macht das einfach keinen Sinn, zumal ich mir nie sicher sein kann das Ergebnisse zu sehr beeinflusst sind.

Noch mehr als Stockfish gegen Komodo interessiert mich Wasp 2.01 gegen Wasp dev.
Wir wissen zwischen 15-20 ELO besser, was würde nun dieser neue Test-Set sagen?
Spielerei ...

Mit einer optimalen Testbasis werden schwächere Engines sich von den stärkeren Engines weiter entfernen. Die vielen geschenkten Remise aus vorteilhafter Stellung heraus gibt es nicht mehr.

Versuche mich in einem Bereich der sich eigentlich aufgrund des ganzen Durcheinanders gar nicht optimieren lässt. Denken wir schon alleine an die vielen Zugumstellungen geben wir lieber auf bevor wir überhaupt anfangen. Die Zugumstellungen habe ich bei FEOBOS im Griff, spiele gar damit ... mache den Abschrecker zum Event.



Und dennoch wenn fertig haben wir auch nur einen Zwischenstand.
In 10 Jahren werden dann die Engines dieser Zeit wieder Remisvarianten finden, schlechte Züge herausfinden ... die für uns heute evtl. noch unsichtbar sind.

Wusste gar nicht das Dann Corbit ein Buchexperte ist. Er sammelt eher Partien aber ein Buch erstellt hat er glaube ich noch nie. Eher so Jäger und Sammler und ein richtig guter Programmierer der sehr viel Wissen mitbringt und ganz sicher mit diesem Wissen auch in der Lage wäre ein gutes Ergebnis bei der Buchfrage abzuliefern.

Gruß
Frank
Parent - - By Peter Martan Date 2017-06-15 17:12 Edited 2017-06-15 17:15 Upvotes 1
Frank Quisinsky schrieb:

Wusste gar nicht das Dann Corbit ein Buchexperte ist.

Dann Corbit ist ein Experte, was das Zusammenstellen von Stellungen gemeinsamer positioneller Kriterien angeht.
Siehe STS (Strategical Test Suite) von Swaminathan und ihm.

Und ich habe immer schon gesagt, Teststellungen sind Teststellungen, egal ob für Stellungstests oder zum ausspielen Lassen, oder anders gesagt, Engine-Engine-Matches zur Elo- Ermittlung kann man immer auch einfach als ausgespielte Stellungstests sehen. Der Unterschied ist nur die Auswahl der Stellungen, also das Testen der Teststellungen.
Wie wir wissen, macht das der Stellungstest.


Freut mich zu lesen, dass du dir mehr Gedanken um die Evals machst als um die Elo.
Aber dass dein Feobos zum Erstellen von Testsets für eng-eng gedacht ist, hab ich schon richtig verstanden, oder?
Parent - By Frank Quisinsky Date 2017-06-15 17:58
Hallo Peter,

bedingt, klar aus dem Ergebnis kann ich das Buch erstellen was ich immer haben wollte, oder den Stellungs-Test kreieren. Ich kann aber auch verbinden mit andere Interessen wie den Spielstilen. Gibt z. B. eine schöne grafische Kurve in den Excel Tabellen, daraus kannst Du sehen das Houdini und Chiron fast die kleine Anzahl an Bewertungen haben, die spielen zwar anders aber die Stellungsbewertungen schlagen gleich aus, sind gleich hoch ... beide starten mit deutlich höheren Evals als die anderen. Du kannst sehen wie hoch die durchschnittliche Eval einer Engine nach den 26.146 ist ... siehst das Houdini und Stockfish knapp über 0.10 im Durschchnitt höher bewerten. Du siehst welche Eröffnungen besonders gut oder besonders schlecht bewertet werden.

Für mich ist diese Excel schon ein wenig DNA Analyse.

Gebe mir 500 Bewertungen einer Engine die schon getestet wurde von mir nach den Buchzügen und ich sage Dir welches es ist ohne mir eine einzige Analyse anzuschauen.

Etc, etc..
Das ist es ... mehr lernen über das Verhalten der Engines selbst.

Ich weiß welche Eröffnung ich gegen egal welche der bereits analysierenden Engine zu spielen haben damit meine Change auf Remis höher wird. Sehe im Detail warum eigentlich Wasp so hoch bewertet wenn die anderen sich einig sind. Klar ... unterschiedliche Anzahl an Figuren / Bauern ... Qualle Opfer etc.. werden anders bewertet. Sehe warum Houdini höher bewertet ... wenn die Dame ausschlägt, sicher steht ... sehe wann ein Bonus vergeben wird wenn ich auf die Stellungsmuster schaue.

Eine Schablone drüber legen ...
Mit den Daten die hier produziert werden sind noch ganz andere Geschichten möglich als das was in Excel umgesetzt ist, nur das würde das Buchprojekt letztendlich sprengen und auch die Möglichkeiten von Excel sprengen. Denn in der Tabelle sind schon 4.7 Millionen Formeln drin.

Also, treibe es auf die Spitze und habe Spaß daran, sehe das was ich noch nicht wusste.

Und das hat nichts mit Elo zu tun, Elo interessiert mich hierbei gar nicht.
Stockfish und Komodo haben nach den Eröffnungszügen keinen so großen Vorsprung wie in einem Spiel bei dem die Vorteile eh meist im späten Mittelspiel / Übergang Endspiel erzeugt werden. Die Eröffnungsanalyse bringt ganz andere Sachen zu Tage ... Engines mit besonderen Spielstilen sehen anders, unter Umständen mehr als die beiden TOP Programme.

Daher wird ELO für mich auch immer uninteressanter.
Ich messe zu 60% die Partiephase Übergang Endspiel und setze gedanklich weil Elo auf die gesamte Partie um. Was völlig falsch ist, was auch schon die Partie-Statistiken zu Mittelspiel / Übergang Endspiel und Endspiel während meiner Ratingliste deutlich aufgezeigt haben.

Elo ist ein Nebenprodukt und wird bei diesem Projekt gar zum Mitläufer ... nicht mehr oder weniger.

Allerdings sollte es wichtig sein, dass beim Einsatz vom FEOBOS Buch sicher gestellt ist, das keine Engine auch nur durch kleine Vorteile mit einem Plus ins Rennen gehen. Wenn Wattenscheid gegen Bayern spielt ... startet das Spiel auch nicht mit einem Ergebnis von 2:0 für Wattenscheid sondern bei 0:0. Nur im Computerschach meinen wir ... Pedone könnte gegen Stockfish auch mit 2:0 starten und das was dann an ELO raus kommt ist absolut korrekt.

Gruß
Frank
Parent - - By Stefan Pohl Date 2017-06-15 12:09 Edited 2017-06-15 12:15
Clemens Keck schrieb:

Ich persönlich habe auch Interesse an "unbalanced openings", wenn sie mit vertauschten Farben gespielt werden.
Bin auf die remis Quote gespannt.



Ich hatte hier noch gar nicht gepostet, daß ich neue SALC-Eröffnungsbücher mit den dazugehörigen pgn und epd aller Linien veröffentlicht habe. Jede Menge neue “unbalanced openings“ sozusagen. Und da alles als pgn vorliegt, kann alles mit vertauschten Farben ausgespielt werden.

Download auf meiner Website:
http://spcc.beepworld.de

Infos (aus dem readme-file, auf Englisch):
http://www.talkchess.com/forum/viewtopic.php?t=64271

PS: in jeder pgn-Eröffnungslinie ist auch die Bewertung von Komodo 11.01 der Endstellung (20“/Zug, 3 Cores, 2048 MB Hash, Contempt=0) mit abgespeichert. Pgn-scanner schreibt immer mit “val=x“ die Bewertung rein. Val=49 meint +0.49 (aus Sicht von Weiß)

Stefan
Parent - By Frank Quisinsky Date 2017-06-15 14:23
Hallo Stefan,

also würden sich die aus selektierten bei FEOBOS eignen.
Die habe ich alle in Datenbanken gesammelt, sind in meinen Projekt Files enthalten.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2017-06-15 13:54 Edited 2017-06-15 14:27
Hallo Klemens,

schaue Dir mal die Partien an ... bzw. wie gestartet wird.
Das ist richtig geil ... perfekt.
Viele Möglichkeiten nach Vorgabe und Bewertungen sind absolut ausgeglichen, keine Partien laufen in ein schnelles Remis.
Wie von Zauberhand, Excelhand ...

Die ersten 124 Partien:
http://www.amateurschach.de/download/wasp-games/stockfish-vs-komodo.zip

Und zur beliebten Märchenbildung ... 90% Remisquote, Remistod ...
Auch die White / black Performance stimmt schon nach wenigen Partien.

Da wird gerade der perfekte Test-Set geboren!

Code:
Games        :    126 (finished)

White Wins   :     26 (20.6 %)
Black Wins   :     17 (13.5 %)
Draws        :     83 (65.9 %)
Unfinished   :      0

White Perf.  : 53.6 %
Black Perf.  : 46.4 %

ECO A =    124 Games (98.4 %)
ECO B =      0 Games ( 0.0 %)
ECO C =      0 Games ( 0.0 %)
ECO D =      0 Games ( 0.0 %)
ECO E =      2 Games ( 1.6 %)


Tja, wie man sieht ... aus A31 wurde 2x E60.
Da ist immer noch ein Fehler drin, muss die drittbeste als A31 deklarierte aus der FEOBOS Datenbank heraussuchen.
Die ersten beiden driften ab in andere Codes.

Sagte ja, dieser Test-Set wird mir Arbeit machen.
Werde mal weitere Partien abwarten ... für eine Stellung mache ich nicht wieder ein Update, kommen sicherlich weitere wegen Zugumstellungen noch hinzu.

Gruß
Frank

Wie Stockfish Komodo in A57 schon früh nach den Eröffnungszügen zersägt hat ist der Wahnsinn.
Stellung ist absolut OK, kein Grund die A57 Position zu tauschen.
Einfach 1-2 Ungenauigkeiten und Stockfish schlägt hier zu.

65.9% Remisquote hatten wir früher auch schon bei Fritz - Shredder ... OK, waren 61-62% sofern ich mich erinnere und mit wesentlichen schlechteren / unausgereifteren Eröffnungsvorgaben. Da standen seinerzeit die Eröffnungsvorgaben auch nicht auf einen höheren Level als 2.500 ... die Vorgaben heute stehen bei weit über 3.000 Elo ... klar weil die Programme mit denen das generiert wird ein höheres Level haben. Wir selbst sind ja im Grunde genauso schachblind wie vor 10 Jahren. Sicherlich hat sich keiner von uns um 700 ELO mit den Programmen zusammen verbessert.
Parent - - By Guenter Stertenbrink Date 2017-06-15 15:58 Edited 2017-06-15 16:23
Komodo mit Weiss "denkt" er steht besser trotz feobos (contempt?)

http://magictour.free.fr/af-ko1.GIF
Parent - By Frank Quisinsky Date 2017-06-15 17:02
Hallo Günther,

was meinst Du?

Contempt hat Komodo 11.01 "10" ... Grundeinstellung.
Stockfish hat "0" Grundeinstellung, hatte ich nicht verändert.

Musst im Hnterkopf haben, dass das 40 in 10 Partien sind.
Da ist die Bedenkzeit mit einem Core durchschnittlich ca. 10 Sekunden.

Bei den FEOBOS Analysen haben wir 10 Cores (4x Hyperthreading drin) mit 60 Sekunden.
Da kann es natürlich sein, dass eine Eval direkt beim ersten Zug höher ist ... mit der absoluten Wahrscheinlichkeit das diese mit dem nächsten Zug runter geht ... es sein denn der Gegner spielt einen Fehler.

Außerdem neue Komodo Version.
Bei FEOBOS analysierte im Vorfeld die 10.3 ... aber Komodo und Stockfish in neuen Versionen kommen ja noch. Obwohl finden werden die ganz sicher ganz wenig oder besser weniger als wenig.

Gruß
Frank
Parent - - By Stefan Pohl Date 2017-06-15 17:39 Edited 2017-06-15 18:05
Frank Quisinsky schrieb:


Und zur beliebten Märchenbildung ... 90% Remisquote, Remistod ...



Das ist kein Märchen! Es gibt jede Menge Daten, die das klar belegen.
TCEC superfinal Season 7 und Season 8: Remisqoute 89%
Erst mit Season 9, als dann unausgewogenen Eröffnungen und Gambits gespielt wurden ging (oh, welche Überraschung) die Remisqoute auf 75% zurück.

Wem das noch nicht reicht, der kann sich ja mal Andreas Strangmüllers Bedenkzeitexperimente anschauen, in denen es zwar eigentlich um den abnehmenden Zuwachs von Elo bei immer höheren Bdenkzeiten geht, aber auch die Remisqouten sind sehr erhellend: Komodo 9.3 im Selfplay beginnt bei der geringsten Bedenkzeit mit 49.2% und die Remisqoute steigt dann mit jeder Bedenkzeiterhöhung (was ja dasselbe ist, wie zukünftige, schnellere Hardware) schrittweise an. Bis auf 78.8% (!).
Mit Stockfish DD gibt es ein ähnliches Experiment. Dort steigt die Remisquote von 58.6% mit mehr Bedenkzeit bis auf 73.2%. Daß das schon in näherer Zukunft mit noch schnelleren Rechnern und stärkeren Engines die Remisquoten über 90% treiben wird ist offenkundig.

Wers nicht glaubt, kann selber nachschauen.

http://www.fastgm.de/time-control.html

Bzw. Im TCEC Archivbereich.

Der drohende Remistod ist also kein Märchen. Und auf superschnellen PCs sind, wenn wirklich starke Engines gegeneinander spielen, Remisqouten von fast 90% bereits heute Realität (TCEC).

Aufgund dieser Fakten kann man den drohenden Remistod des Computerschachs nicht einfach als Märchen abtun. Das ist eine groteske Ignorierung von empirischen Daten, die in ihrer Klarheit nichts zu wünschen übrig lassen.

Und man muß und kann mit den richtigen, nicht zu ausgewogenen, spannungsgeladenen Eröffnungsvorgaben dieser Entwicklung entgegenwirken. Das zeigt das letzte TCEC Superfinal und auch die Experimente, die ich mit meinen SALC-Stellungen (im Vergleich mit ausgewogenen Standarderöffnungsvorgaben) gemacht habe: http://spcc.beepworld.de/experiments.htm

Und mehr kann.und werde ich zu diesem Thema nicht mehr ausführen. Solange du Fakten, die nicht in dein Weltbild passen, bzw. die den prinzipiellen Ansatz deines Buchprojektes in Frage stellen, einfach als “Märchen“ abtust, ist jede weitere Diskussion sinnlos. Und jeder neutrale Mitleser kann sich die Daten ja selber anschauen.

(kopfschüttelnd) - Stefan
Parent - - By Frank Quisinsky Date 2017-06-15 18:12
Hallo Stefan,

also ich kann mich nicht mit der Remistod Geschichte anfreunden.
Egal was ich teste, wie ich teste ... ich sehe es nicht und nutze schnelle Hardware.

Nun ist FEOBOS absolut getunt auf viele unterschiedliche Möglichkeiten ... der beste sich eignende aus jeder ECO Position wurde gefiltert. Immer dann wenn es zu mehreren guten Forstzungen aus einer Grundstellung heraus kommen kann bedeutet das eine niedrigere Remisquote!

OK, es kommen noch die B00-B99, C00-C90, D00-D99 und E00-E99 Codes. Da ist einiges drin was zu ruhigeren Abspielen führt. Geschlossene Stellungen produzieren höhere Remisquoten.

Die Bedenkzeitexperimente von Andreas bewegen sich auf seiner benutzten Hardware alle im Blitz Bereich. Da sind die Schwankungen zu groß um Aussagen treffen zu können. Es ist nicht so, dass wenn bei 1 Sek ich eine niedrige Quote habe die immer gleich zu mehr Zeit ansteigt. Genauso wenig so wie die Aussage bei Verdoppelung der Bedenkzeit haben wir immer das gleiche + an Zuwachs. Viele Systeme sind so offen und es bilden sich so viele gute Möglichkeiten mit den kommenden Züge, dass dies keinesfalls komplett berechnet werden kann. Je komplexer die Stellung je mehr uninteressant wie hoch die eingestellte Bedenkzeit ist, steigt nicht linear an.

TCEC zeigt gar nichts an.
Die Eröffnungsvorgaben waren in keinen der TCEC Turniere optimal.
Habe mir die alle angesehen und mehr als 40% fliegen bei FEOBOS raus.

Insofern interessieren mich auch die Ergebnisse nicht, weil die Vorgaben keine genauen Ergebnisse produzieren können. Ferner sind es viel zu wenige Partien um irgend etwas auszuwerten mit nach Schulnoten gesehen ausreichenden (Note 4) Eröffnungsvorgaben. Hart geschrieben aber ich bin noch viel härter zu mir selbst und meinen Vorgaben als zu dem was andere tun. Da wäre ich froh wenn ich hier und da mal die 4 erreicht hätte.

So ganz nach dem Motto ...
Wir können nur etwas besser machen wenn wir selbstkritischer sind.

Wenn wir aber alles was eigen ist in den Himmel loben ... nicht gut.
Auch in FEOBOS gibt es ein Problem ... ich habe zu wenig D00-D99 drin und kann das jetzt nicht mehr ändern.

Muss ein Update nachschießen ... klar weil bei den anderen Codes immer zu wenig drin war und mich Jahre auf die Optimierung der kritischen Codes oder der Codes wo generell wenig da war konzentriert haben. In D00-D99 gibt es aber die wenigsten kritischen Codes und mithin ...

Also TCEC ist für mich absolut kein Maßstab für irgend was.
Die Arbeiten von Andreas finde ich gut, würden aber meinen Ansprüchen absolut nicht gerecht werden.
Genauso wenig wie alles andere was wir haben, weil nichts wirklich gut genug ausgearbeitet ist um bei den extrem hohen Level der Engines zu halten.

Wir testen Engines immer noch mit den gleichen Vorgaben wie vor Jahren als diese 700 Elo schwächer waren, als zu sagen ... wir testen Euch nur noch mit Euren eigenen Vorgaben. Entscheidet Ihr doch was gut ist ... wir können es schon lange nicht mehr ... die Zeit ist um.

Hoffe das dieses Projekt anregt damit das auch erkannt wird, anstatt wir uns immer wieder etwas vormachen und uns auf dem gleichen Level hieven wo wir einfach nicht mehr hingehören.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2017-06-16 05:52
Hallo,

bei der Excel Tabelle war ein dicker Bug drin den Klaus mit der Version 59 behoben hat.
Betrifft Anzahl der unterschiedlichen Stellungen und genau das ist das Hauptkriterium beim Test-Set.

Insofern haben wir nach Überprüfung schon einen starken Test-Set stehen aber der geht natürlich noch viel besser.
Auch haben wir ja erst 5 von 13 Engines in unserer Tabelle und je mehr es werden, desto besser der Test-Set.

Also, auch wenn sicherlich ein ziemlich starker Test-Set steht ist das natürlich nicht das finale Ergebnis.
Dennoch lasse ich den Stockfish - Komodo Wettkampf zu Ende laufen und optimieren den Test-Set v5 weiter, so dass dann je ein eindeutiger ECO Code drin ist.

Also, durch dieses Event hatten wir ein paar neue Ideen und vor allem einen dicken Fehler gefunden.
Der Fehler war von Beginn an in der Tabelle drin.

Neu ist unser "Ranking".
Jede der 26146 Stellungen bekommt ein "Ranking".
Klaus hatte die Idee, darauf bin ich gar nicht gekommen!

Rein theoretisch könnten wir nach Ranking den Test-Set mit mehr Engine Analysen erstellen.
Nehme die 500 besten oder die 100 besten Stellungen ... dann hätten wir aber nicht mehr zu jedem Code eine Stellung.

Gibt mehrere Möglichkeiten und so soll es auch sein.
Auch beim Aussortieren der Stellungen können ja Settings gesetzt werden, meine müssen nicht übernommen werden.
So kann sich jeder sein eigenes Buch oder seinen eigenen Test-Set mit der Excel bauen.

Wettkampf geht also weiter ...
Nach A31 muss ich auch B06 fixen. Aus B06 wurde B08 ...
Ansonsten sehr schön zu sehen was bei den ganzen Holländern passierte ... sehr wenige Remispartien!

Würde ein Buch nur aus Holländern bestehen würde die Remisquote sicherlich auf unter 50% zwischen den TOPs gehen.
Aber jetzt kommen bald die ganzen Sizilianer und da wird die Remisquote nach oben gehen.

Stockfish schwankt um 1% beim Ergebnis. Zwischen 60.8% und 61.8% ist die Ausbeute gegen Komodo.
Wahrscheinlich wird es wenn die B-Codes durch sind auf unter 61% gehen, denn Komodo spielt Sizilianisch ausgezeichnet.

Warten wir das mal ab und harren der Dinge!

Gruß
Frank
Parent - - By Frank Quisinsky Date 2017-06-16 07:27 Edited 2017-06-16 07:31
Hallo,

hier wurde Komodo in 44 Zügen bis zum Matt regelrecht zersägt.
Um so schöner zu analysieren wenn ich weiß ... da war nicht die Eröffnung dran schuld.



Macht einfach alles viel mehr Spaß mit Daten die sicher sind.

Mal nachspielen ...
Stockfish in dieser Version ist definitiv echt ein Traum.
Ultra aggressive fliegen die Figuren nur so übers Brett, jeder Zug sitzt ... beim Nachspielen entsteht der Eindruck das kein Zug bis zum Matt verschenkt wurde.
Da macht nachspielen und zusehen richtig Spaß.

War die B08 aus dem Test-Set.
So, stoppe mal kurz das Match, ändere die Datenbank und lasse die beiden A31, B06 nachspielen, schaue ob das jetzt passt.
Test-Set upgedatet, auch die Excel Tabelle ... nun wie oben beschrieben mit Ranking für jede Position.

Gruß
Frank

Event:
Ort:
Datum:

Weiss:
Schwarz:

Ergebnis
Board
Parent - - By Frank Quisinsky Date 2017-06-16 08:05 Edited 2017-06-16 08:25
Hallo,

also testen auf ziemlich hohen Niveau ...

Nun wir haben eine B08 Kurzpartie.
Es handelt sich um die Vorgabestellung: 06174

Diese liegt im Ranking nach 5 / 13 Engines die analysierten auf Platz: 1.225 / 26.146
Also logischer Weise eine TOP-Stellung, sonst wäre sie nicht im Ranking so weit oben.

06174 ist das Thema ...

B08  Pos 06174
Houdini: 0.10 = Nd2, Ply 22
Shredder: 0.17 = h4, Ply 27
Fire: 0.26 = Nd2, Ply 22
Wasp: 0.37 = 0-0, Ply 23
Chiron: 0.46 = Qd3, Ply 24

Mit wenigen Klicks in Excel wissen wir mehr.

Und so sollte das dann später aussehen.
Wenn das Projekt beendet ist, haben wir 13 Engine Bewertungen zu jeder der 26.146 Positionen.
Durchschnittsbewertung mit der gearbeitet werden kann ... für Dinge die da kommen könnten!

Zurück zu 06174:
Klar, die Stellung ist im Test-Set drin ... warum?
Weil gar vier unterschiedliche Züge enthalten sind, die alle spielbar sind.

Kurzer Abweicher zu A04:
Da ist wirklich noch eine Position nach den ersten Booot Analysen die 6 verschiedene Best Moves daher zaubert.
Das heißt alle 6 Engines geben einen anderen Zug als Best-Move aus.

Logischer Kommentar:
Rein in den Test-Set und zwar schnellstmöglich

Müssen wir uns das wie folgt vorstellen:
Wir wissen, der Baum eines Buches geht mit mehr Zügen immer weiter auseinander.
Auch der Baum einer Partie geht mit mehr Zügen immer weiter auseinander.

Aus einer Partie ... je tiefer die geht lässt sich rein theoretisch ein riesiger Baum erstellen.
Je weiter der Baum sich streckt, desto mehr Möglichkeiten stecken in der Stellung, desto geringer die Remis Wahrscheinlichkeit weil je undurchsichtiger und schwieriger für die Engines zu berechnen. Die kommen dann nicht so schnell auf Tiefe ...

und logischer Weise ... höchstes Kriterium beim Test-Set.

Genug ...
Wünsche allen ein schönes Wochenende!

Gruß
Frank

Und genau deswegen sind die experimentellen Engines wie SmarThink, Fizbo oder auch ICE wichtig.
Die machen einiges anders und behalten oftmals Recht. Will wissen warum! Wenn wir uns die EVAL Entwicklung der 10 Standard Engins ansehen, sehen wie Fizbo aber z. B. mit 1.2 startet und Zug um Zug ansteigt wissen wir, die andere sehen das nicht bzw. ist der spekulative Weg von Fizbo richtig. Verstehen durch vergleichen ... Schablone!

Genau das ist bei der Entwicklung vom FCP Live Buch aufgefallen.
Brauche die DNA von Fizbo und zwar nicht für irgend eine dumme Stellung sondern von der kompletten Theorie.

Nichts anders passiert bei diesem Projekt. Schreibe schon seit 20 Jahren das wir Statistik Programme benötigen. GUIs sind ziemlich schwach auf der Brust was knallharte Statistik angeht. Würde mal sagen, Entwicklung fast stehen geblieben. Meines Erachtens ist das auch der spannendste Bereich im Computerschach. Natürlich nicht nur die Eröffnung mit der ich mich gerade so ausführlich beschäftige aber hier gilt es anzusetzen um das Thema Computerschach spannend zu erhalten.
Parent - - By Frank Quisinsky Date 2017-06-16 21:42 Edited 2017-06-16 21:45
Hallo,

die Entwicklung der Ranking Einstellungen in der Excel Tabelle ist abgeschlossen.
Die Excel Tabelle wurde also erweitert und für jede Position ist nun ein Ranking zu sehen.

Es ist gar möglich innerhalb der ECO Codes nach Ranking zu sortieren.
Sehen wir also zu jedem Code, den besten, zweitbesten, drittbesten ... etc. Zug ... wichtig für manuelles nachbearbeiten vom Test-Set.

So taucht unter dem Tabellenblatt "Eval out" dann zwei neue Sortierfunktion auf.
Oder einfach sortieren nach dem Ranking.

Und mithin im Tabellenblatt "Automatic Test-Set" dann der Vorschlag für einen Test-Set mit den besten der 26.146 Positionen.
Also Test-Set ... beste ECO-Code Stellung, oder einfach gebe mir das beste für einen wild gemixten ECO Test-Set.

Auch werden derzeit die Webseiten bzw. die Detailseite verbessert.

- die Projektdaten können nun alle gesondert heruntergeladen werden, so muss nicht erneut und erneut mittlerweile um die 150Mb geladen werden. Wer sich für dieses Projekt interessiert kann dann fehlendes gesondert laden.
- Zu den Excel Tabellenblättern werden derzeit Grafiken eingeführt. Wer die Tabelle von Klaus noch nicht kennt der kann sich die DIA-Show ja mal ansehen (arbeite gerade daran, dauert bestimmt noch eine Stunde bis fertig).

Tja und so wird gefeilt und gewerkelt ... Ideen werden direkt umgesetzt, dann wieder Fehler herausgeholt!

Ein wunderbares Werk welches keine Wünsche mehr hinterläßt hinsichtlich der Test-Set Optionen oder was hole ich mit welchen Settings wie aus der Datenbank.
Kann sich jeder austoben und seinen eigenen Test-Set oder sein eigenes Buch erstellen, muss nicht meine Vorgaben nehmen.

Von mir aus auch direkt von hier aus zu sehen:
http://www.amateurschach.de/main/_new-opening-book.htm

Viele Grüße
Frank
Parent - By Frank Quisinsky Date 2017-06-22 13:31
Hi there,

interesting is the draw quote:

A00 - A99 = 63,5%, Stockfish made 122,5 : 77,5 points
B00 - B99 = 67,0%, Stockfish made 122,5 : 77,5 points
C00 - C99 = 68,5%, Stockfish made 120,5 : 79,5 points
D00 - D99 = 79,0%, Stockfish made 115,0 : 85,0 points
E00 - E99 = 63,5%, Stockfish made 121.5 : 78,5 points

Summary
68,2% draw quote, Stockfish made 602,0 : 398,0 points
Stockfish vs. Komodo +261 / =682 / -57 = 60,20% / 72 Elo difference!

Download stats, games, current FEOBOS Test-Set v5.06 can be found on FEOBOS detail page under:
http://www.amateurschach.de/main/_new-opening-book.htm

Games are included in FEOBOS 5.06 Test-Set link.

Best
Frank

Kein Bock hier auch nochmal alles zu formulieren.
Das war einfach ein geiles Match, super schöne Partien zu allen 500 ECO Codes.
Und nach wie vor, bilde mir immer selbst eine Meinung als das Geschreie von anderen nachzurufen.
Nichts zu sehen vom Remistod.
Die Remisquote war mit 68,2 gar unterirdisch ... aber das liegt an den sehr gute ausgearbeiteten FEOBOS Daten. Nachdem nun jede Stellung der FEOBOS Bücher ein eigenes Ranking hat ist es einfach die besten ausgeglichenen Stellungen, 3 Züge nach ECO Code Bildung aus den Daten herauszupicken. Klaus hat ja alles in die Excel Tabelle gebracht und diese macht nun das was sie machen soll.

Kann mir auch nicht vorstellen, dass mit höheren Bedenkzeiten als hier verwendet (40 Züge in 10 Minuten ohne Aufgabefaktor und Ponder, mit 4-Steinern) eine sehr viel höhere Remisquote dabei herauskommt. Klar wenn mit 5-Steinern gespielt wird wird die Remisquote steigen aber bei Stellungen die viele Möglichkeiten an Fortsetzungen haben wird das Buch mittels FEOBOS nicht mehr so gravierend einwirken als es nunmal alle Bücher normalerweise tun. Bei FEOBOS bestimmen die Engine in der Gemeinschaft was ins Buch soll und was nicht. Muss kein Mensch mehr Hand anlegen und absichtlich mit 500-1500 Elo weniger den Engines sagen was auszuspielen ist. Das sollen die Engines mal schön selbst herausfinden.

Ein Grund warum FEBOBOS läuft.
Up Topic Hauptforen / CSS-Forum / Die mathematische Antwort auf John Nunn ... Stockfish vs. Komodo, 1000 games

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill