Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / KECR - Ergebnisse von Komodo und neuer Spitzenreiter mit Houdini
- - By Klaus Wlotzka Date 2017-09-24 22:51 Edited 2017-09-24 22:55
Hallo Zusammen,

die FEOBOS-Analysewerte von Komodo 11.22 liegen vor, sodass ich die KECR-Exceltabellen aktualisieren konnte.

Neuer Spitzenreiter ist nun Houdini 5.01. Komodo landete aufgrund des etwas schlechteren KECR-Rating knapp hinter Shredder 13 auf Rang 5.

Anbei vorab die aktuelle Rangliste:



Die aktuelle Exceltabellen von FEOBOS und KECR werden wohl morgen mit den Ergebnissen von Komodo 11.22zum Download zur Verfügung stehen.

Viele Grüße

Klaus
Parent - - By Guenter Stertenbrink Date 2017-09-25 08:37 Edited 2017-09-25 08:43
wenn Andscacs in der Eroeffnung besser waere als Stockfish, warum gehen
dann die durchschnittlichen Stellungs-Bewertungen in Partien Andscacs-Stockfish
kontinuierlich , Zug um Zug , zu Gunsten Stockfishs zwischen Zug 11 und 30 ?
Und zwar nicht nur aus Stockfish's Sicht, sondern auch Andscacs sieht das so.

http://magictour.free.fr/AND-SF8.GIF

mir scheint du misst eher die Naehe zum Durchschnitt der Engines
denn die Spielstaerke.
Parent - - By Frank Quisinsky Date 2017-09-25 15:01 Edited 2017-09-25 15:05
Hallo Guenter,

vielleicht ist die Arbeit die hier angeboten wird auch zu schwierig / anspruchsvoll?

Gemessen wird der erste selbst berechnete Zug nach den Buchzügen, nicht mehr und nicht weniger.
Anhand von "bester Move". Wie oft wird der wahrscheinlich beste Move gefunden.

Und das bei 26.146 Analysen, also eine sehr aufschlussreiche Statistik die sich meist schon nach 5.000 nicht mehr wesentlich verändert (hatte damit schon experimentiert).

Das Stockfish immer stärker wird und sich von anderen Engines dann gezielt abgrenzt ist klar, aber bei FEOBOS geht es darum ... versteht die Engine grundsätzlich die Eröffnung oder nicht.

Habe das zwar schon alles x mal geschrieben aber dann nochmal ...
Wenn eine Engine 0,00 bewertet bedeutet das, dass die Stellung gleich ist bzw. SF schätzt die Stellung remis ein. Wenn eine Stellung Remis eingeschätzt wird kann auch der zweitbeste oder drittbeste Zug zu 0,00 führen, der wahrscheinlich wirklich der zweitbeste oder drittbeste ist. Stockfish bewertet mit 15% der 26.000 Stellungen alles als remislich. Liegt damit nicht nur auf Platz 1, liegt deutlich auf Platz 1. Komodo 11.22 zwar auch hoch mit 10%. Und genau das ist das Stockfish Problem und mithin kann Stockfish bei KECR nicht auf Platz 1 liegen denn dieser Platz wäre mehr als unlogisch.

Das macht Andscacs mit 2% deutlich besser und holt hier mehr Punkte als Stockfish.

Wie sich dann die Partie weiter entwickelt ist für FEOBOS nicht wichtig.
Hier geht es nur darum ... wie stark ist die Engine bei der Einschätzung von Zug 1 nach der Theorie und genau hier ist Stockfish alles andere als absolut TOP. Zwar gut aber auch nicht mehr und nicht weniger. Genau hier liegt großes Verbesserungspotential und nach einer Talkchess Diskussion vermute ich auch das einer der Stockfish Programmierer das Problem erkannt hat.

15% 0,00er geht gar nicht!
Das ist schon so viel, dass ich echt überlege Stockfish aus dem Projekt zu killen, denn durch die ganzen 0,00er macht Stockfish die Remis Statistik nicht nur kaputt, sondern sorgt auch noch dafür das später zu Unrecht gute Züge aus dem Buch verschwinden und das kann ich nicht wirklich durch gehen lassen. Dazu ist mir das Projekt mit einer Laufzeit von einem Jahr und drei Jahre Vorbereitung zu schade.

15% 0,00er und 10% 0,00 bei Komodo ...
Dann ist klar woher der Remistod kommt ... das ist zu einem sehr großen Prozentsatz "hausgemacht".

Und genau deswegen sind solche Projekte wichtig, damit einfach im heutigen Zeitalter kein Platz mehr für Legendenbildung verbleibt.
Dafür haben wir heute einfach zu gute Möglichkeiten um Mutmaßungen ständig zu verbreiten.

Mit FEOBOS 10 Daten Stockfish gegen Komodo ... beide mit Contempt 9 antreten lassen und sich wundern wie sehr die Remisquoten schrumpfen.

Gruß
Frank
Parent - - By Guenter Stertenbrink Date 2017-09-25 15:47
also, Stockfish braeuchte nur zu luegen und irgendeinen Zufallswert
ausspucken wenn er denkt die Stellung ist 0.00 und wuerde dadurch
in eurer Rangliste steigen ?!

Ich kann ja verstehen, dass dir 0.00 nicht gefaellt, aber dadurch wird Stockfish
in der Eroeffnung doch nicht schlecht. Sogar schlechter als Andscacs !

Koennt ihr ja alles machen, macht ja auch Sinn, nieder mit 0.00 ! ,
nur nicht behaupten, der Ranking-Wert gebe die Eroeffnungsspielstaerke wieder.
Parent - - By Frank Quisinsky Date 2017-09-25 16:05 Edited 2017-09-25 16:09
Hallo Günther,

möchte das Programm sehen, dass direkt mehrere mögliche Züge mit 0,00 bewertet und dabei noch differenziert.

Wenn ein Programm so häufig mit 0,00 bewertet wie Stockfish, ist die Gefahr groß das dann der ausgespielte 0,00 Zug nicht der beste ist wenn für das Programm logischer Weise mehrere 0,00 Züge möglich sind. Es wird also zu Unrecht 0,00 bewertet und Züge werden gleich bewertet. Stockfish gibt die Suche dann wahrscheinlich völlig auf und wählt irgend einen der möglichen 0,00er Züge aus. Anders kann ich mir vereinzelt die dargestellten Züge in der FEOBOS Tabelle, die mit 0,00 bewertet werden nicht erklären.

Daher stand ich schon immer auf dem Standpunkt, dass eine 0.00er Bewertung ein NoGo ist wenn nicht wirklich ein klares Remis (normale Remis Regeln) in der Sichtweite ist. Ein Schachprogramm darf niemals, eine Stellung selbst mit 0,00 bewerten wenn keine Remisregel in Sichtweise ist. Dadurch kommt es ja zu den vielen schnellen Remispartien bzw. enden Partien plötzlich und unerwartet.

Haben wir wirklich eine Stellung die absolut ausgeglichen ist aber keine Remisregel in der Nähe ist ... muss mit 0,01 bewertet werden, schon allein um eine dreifache zu vermeiden. Alles andere ist für mich unlogisch und macht jede Statistik kaputt. Und genau das macht Stockfish in 15% aller möglichen Fälle ... das geht nicht und ist meines Erachtens dieser TOP-Engine auch nicht würdig. Für ein Schachprogramm darf es kein Remis geben wenn keine klare Remisregel erfüllt wird. Wäre so als wenn eine Engine ein Matt in 8 anzeigt obwohl weit und breit kein Matt zu sehen ist. Das ist absoluter Käse und in fast allen Programmen drin.

Aber versuche mal Programmierer zum umdenken zu bewegen.
Schachprogramme die 0,00 ausgeben wenn keine Remisregel in der Nähe ist ... das muss auch ein Programmierer zunächst mal verkraften.
Aber eigentlich ist das logisch ... schließlich arbeitet ein Programm und ein Programm sollte niemals versuchen bei ausgeglichener Stellung auf Remis zu spielen (sonst wäre es kein Programm). Denn wir Menschen sind doch jetzt schon weit unterlegen und freuen uns nur wenn ein Programm 0,00 anzeigt ... wir werden dann bei kleinen Fehler nicht platt gewalzt sondern habe Remis Chancen.

Doch genau dadurch ist Stockfish nicht die Nummer 1.
15% wird von KECR bestraft und das völlig zu Recht.

Die Ranking Werte geben den Wert nach dem ersten berechneten Zug nach den Eröffnungszügen wieder.
Und genau hier ist Stockfish alles andere als TOP, eigentlich ist Platz 6 noch richtig richtig gut für das geschilderte Dilemma.

Aber ich schreibe dazu nichts mehr.
Ich habe mir schon hinsichtlich Contempt bei Stockfish den Wolf geschrieben und auch alles seinerzeit bei der FCP Ratingliste sehr schön dargestellt.

Gruß
Frank

PS: Ist mir persönlich auch egal.
Mit Stockfish in dieser "Eröffnungsform" kann ich im Grunde nicht anfangen ... möchte nicht sagen unbrauchbar ... aber da gibt es Engines die das wesentlich besser können.
Parent - - By Thomas Müller Date 2017-09-25 19:50
Hallo Frank,

contempt bei Komodo geht im Analyse-Modus nicht ausser mit "white contempt"
auszug aus readme-Komodo....
Zitat:
In analysis mode, Komodo internally sets Contempt to zero unless “White Contempt” is turned on.
...
Please note if “White Contempt” is off, in infinite search or analysis mode, Komodo will always use a value of 0 for Contempt.

Note that Contempt modifies the reported scores. On average a setting of 10 will increase the score for that side by ten centipawns (0.1 in most GUIs), more in the opening and less in the endgame. Contempt is turned off in Infinite analysis unless “White Contempt” (described below) is used.

Nur so nebenbei wenn du da was einstellst für feobos ?!

gruß
thomas
Parent - By Frank Quisinsky Date 2017-09-25 20:08
Hallo Thomas,

bei FEOBOS müssen alle ohne Contempt spielen.
Die Engines Einstellungen liegen den Engine Analysen bei.

Klar, z. B. mit Contempt hätte Stockfish natürlich keine 15%.
Aber wir müssen so vorgehen um die schnellen dreifachen besser zu finden bzw. dem Book Contempt gering zu halten.

Eigentlich wäre bei Engines Contempt Parameter überflüssig wenn es keine 0,00 geben würde wenn keine Remisregel in Sichtweite ist.
Zumindest könnte es so programmiert werden, dass bei vielen Figuren auf dem Brett kein 0,00 ausgegeben werden darf ... und je weniger Figuren desto eher kann 0,00 ausgegeben werden. Hatte schon vor vielen Jahren darüber in TalkChess geschrieben und auch wieder kürzlich in einer Diskussion um die hohen 0,00 Werte bei Stockfish.

Das Komodo im Analyse Mode Contempt so nicht nutzt ist logisch und gut.
Dennoch, auch bei Komodo sind 10% eine Menge Holz.

Sollte nicht über maximal 7-8% gehen. Am besten nicht höher als 2% sein.
Wenn die Engines das könnten, könnten schnelle dreifache durch Engine Analysen schnell gefunden und eliminiert werden.

Gruß
Frank

Nun ist es wie es ist.
Wir haben leider nichts besseres als das was in den Engines drin ist.
Also müssen wir damit leben bzw. versuchen wir bei FEOBOS das beste herauszuholen mittels den ganzen Berechnungen die durchgeführt werden.
Parent - - By Klaus Wlotzka Date 2017-09-25 21:54
Guenter Stertenbrink schrieb:

also, Stockfish braeuchte nur zu luegen und irgendeinen Zufallswert
ausspucken wenn er denkt die Stellung ist 0.00 und wuerde dadurch
in eurer Rangliste steigen ?!

Ich kann ja verstehen, dass dir 0.00 nicht gefaellt, aber dadurch wird Stockfish
in der Eroeffnung doch nicht schlecht. Sogar schlechter als Andscacs !



Hallo Günter,

natürlich hätte die Veränderung der Bewertung überhaupt keinen Einfluss auf das Rating in KECR, da die Bewertung dort überhaupt nicht einfließt sondern ausschließlich der gefundene erste Zug der Hauptvariante. Also keine Bewertung, keine Elozahl, einfach nur der Zug.

Das Engines in KECR mit einer niedrigeren Anzahl von 0.00-Bewertungen vorne stehen, kann man als Zufall bezeichnen, da es dieser Hinsicht überhaupt keine Verbindung von FEOBOS zu KECR gibt. Aber auffällig ist es trotzdem, sodass es unter Umständen doch einen indirekten Zusammenhang gibt. Möglicherweise ist die 0.00-Bewertung für die Suche nicht förderlich, wie Frank schon beschrieb.

Viele Grüße

Klaus
Parent - - By Frank Quisinsky Date 2017-09-25 22:38 Edited 2017-09-25 22:46
Hallo Klaus,

grundsätzlich gesehen habe ich gar manipuliert bei der Auswahl der kommenden über 15.000 Upd. 1 Positionen.
Ich hätte eigentlich knapp über 18.000 gehabt und habe über 3.000 herausgenommen die Stockfish und Komodo bei der Prüfung der Daten mit 0,00 bewerteten.

Was soll ich auch sonst tun.
Muss mich anpassen aufgrund der vorhandenen Ergebnisse um dann letztendlich wirklich das gewünschte Endresultat zu bewirken.
Manipuliert deswegen weil hierdurch z. B. Komodo und Stockfish in KECR steigen werden. Klar weil die 0,00 weniger werden und eigentlich mehr beste Züge gefunden werden.

Hätte ich die drin gelassen wären die Stellungen bei dem Buch mit Contempt 5 eh wieder raus geflogen, hätte die Maschinen für 10x 3.000 Stellungen über einen Monat sinnlos weiter laufen lassen müssen.

Wenn FEOBOS überhaupt einen Kritikpunkt erhalten könnte wäre es in der Vorauswahl der Daten selbst.
Hätte ich vorher gewusst das Andscacs und Houdini so stark sind, hätte ich mit diesem Engines die Fehleranalyse machen können.

Denn eigentlich will ich Stockfish und Komodo nicht killen aus dem Kreis, auch Booot nicht.
Bin ja froh, dass die Engines so unterschiedlich bewerten und in Kombination, im Team Stärke ausspielen.

Aber um diese Stärke zu sehen, bildlich darzustellen ... dachte ich mir bei der Upd 1 Datenbank ... die 0,00 müssen mit aussortiert werden.
Das ist Manipulation für KECR aber letztendlich haben alle 10 wieder die gleichen Stellungen zu untersuchen, nur wird die Remisquote von Stockfish und Komodo fallen.
Und das hat nicht damit zu tun, dass dann alles wieder auf Zufall zurückzuführen ist ... sondern das war gewollt um letzendlich von den fehlenden Daten immer tiefer zu suchen und zu berücksichtigen das die Fehleranalyse von Komodo und Stockfish gemacht wird ...

Tja ...
Damit kann ich aber leben!
Denn letztendlich ist das gewünschte Resultat: Ein richtig geiles Buch für "Alle".
Ausgeglichen starten und möglichst schnelles Remis vermeiden und zwar über alle 500 ECO Codes hinweg.

Gruß
Frank

Also, für KECR sicherlich eine gelbe Karte für mich.
Aber wenn ich durch gelb das Tor verhindern kann ... muss ich es tun im Sinne vom dahinter stehenden Team.
Auch wenn das nicht wirklich gerne gelesen wird.

Aber letztendlich lernen wir eine Menge durch Deine Arbeit.
Wir können einschätzen, sehen die Stärken und Schwächen gnadenlos und müssen nichts besser reden als es tatsächlich ist.

Tja, Zugeständnisse und Kompromisse die nicht im Einklang mit dem eigentlichen Ziel stehen aufgrund dessen, dass die Situation so ist wie sie ist. Unsere Engines bieten uns keinen intelligenten Contempt und dieser wird immer wichtiger im direkten Vergleich bei den enorm hohen Spielstärken. Da dies nicht vorhanden ist, muss ich ein wenig umdenken und bringe das Boot dann dennoch in den sicheren Hafen.

10 Engines bilden eine Koalition, eigentlich unmöglich.
Und gelernt ... tatsächlich ... nichts ist unmöglich was wir nicht für unmöglich daher quatschen.
Parent - By Frank Quisinsky Date 2017-09-25 22:58 Edited 2017-09-25 23:06
Prognose ist also ...
Da alle sehr knapp zusammen stehen ... das sich Komodo und Stockfish durch die Vorgehensweise die 0,00 bei der Fehleranalyse von Stockfish und Komodo zu löschen, bei KECR steigern werden. Augenscheinlich ... nach der These die ich vertrete wenn ich mir ansehe was alles von Stockfish bei 15% mit 0,00 bewertet wird und dann von Houdini und Komodo ausgespielt wird, wenn dort keine 0,00 Bewertung vorliegt. Ein echter Stockfish Schwachpunkt der uns da mit dieser Engine begleitet.

Allerdings wissen wir ja, durch die nicht manipulierte 26er tauender Datenbank, wo Komodo und Stockfish tatsächlich stehen weil ohne Contempt die 0,00 einfach zu hoch ausfallen.
Das ist Fakt und kann nicht weggeredet werden. Hier müssen die Programmierer aktiv werden und eine bessere programmiertechnische Lösung muss her.

Wie diese aussehen könnte hatte ich beschrieben. Geht sicherlich im Detail noch viel besser als von mir laut gedacht dargestellt wurde.
Sehr ausführlich in TalkChess habe ich dazu Stellung genommen.

Und das Thema Remistod kann zu den Akten gelegt werden bzw. ist der Spielstärke entsprechend minimal höher als bei Engines die mit 2.800 spielen und nicht gravierend höher wie immer so gern dargestellt wird.

Und wenn wir durch 0,00 aussortieren bei der Standard Datenbank und Upd. Datenbank dann 4.000 Positionen verlieren, so haben wir zwischen 20.000 (Contempt 5) bis ca. 35.000 (Contempt 1) als finales Resultat. Das ist nicht optimal aber dennoch zu dem was wir jetzt einsetzen um Engines auf hohen Niveau zu testen ... gigantisch. Eigentlich perfekt um Engines zu testen die im Bereich "schnelles Remis vermeiden" heute noch in den Kinderschuhen stecken, so merkwürdig wie sich das anhört ... aber es ist so.

Haben wir den intelligenten Contempt und Engines in 3 Jahren die dann nochmals deutlich stärker sind können wir mit Deiner Arbeit an der Excel Tabelle noch bessere Bücher erstellen. Erst Recht wenn dann Engines wie ICE, Fizbo mit den besonderen Spielstilen hinzu kommen.

Insofern, wir können nicht mehr tun als das was wir tun mit den Mitteln die wir heute haben.
Wichtiger ist, alles voran zu treiben und genau das tun wir mit der Entwicklung von FEOBOS.

Dem Bereich wo Engines schwächen haben, Menschen stärker sind ... die Entwicklung ansetzen um bei den Engines weiter vorzustoßen.
Meine persönliche Meinung ... werde hierzu näher im Detail eingehen wenn ich die Dokumentation schreibe.

Daher schrieb ich kürzlich ...
Das wir mit der Entwicklung der Excel Tabelle schon viele Jahre der Entwicklung in diesem Bereich voraus sind.
Das ist gut ... haben Aktenweise unbearbeitetes Zeug als Fehdehandschuh geworfen.

Genau das ist das was ich wollte, denn der Bereich "Eröffnung" kam die letzten Jahre zu kurz. Gigabyte Bücher mit unsinnigen Statistiken resultierend aus vielen Partien aus dem Schachmittelalter. Kaum etwas ist passiert und hier wird gerade mächtig aufgeräumt.

Warum ... das zeigt FEOBOS und KECR deutlich auf.
Parent - - By Guenter Stertenbrink Date 2017-09-26 03:51
Hallo Klaus ,

foerderlich allenfalls, um im KECR-Rating zu steigen.
Um andere engines zu schlagen, auch in der Eroeffnung,
scheint es nicht abtraeglich zu sein.

Soll denn nun z.B. ein Fernschachspieler die Eroeffnung lieber mit Andscacs
analysieren als mit Stockfisch ? Ist das die Empfehlung von KECR ??

Viele Grüße

Günter
Parent - - By Frank Quisinsky Date 2017-09-26 05:37
Hallo Günter,

Du musst die Frage anders stellen?
Möchte der Fernschachspieler die Wahrscheinlichkeit das seine Eröffnungsanalyse bei 15% 0,00 endet?
Was kann er mitnehmen daraus?
Welche Rückschlüsse kann er daraus ziehen?

Grundsätzlich gilt eher:
Was gibt die Stellung her?
Unklare Stellung, taktisch offene Stellung, positionelle Stellung?

Stockfish produziert selbst eine sehr hohe Anzahl an schnellen Gewinnpartien. Hochinteressant für Analysen ...

Es kommt immer auf den Stellungstyp an.
Ist die Stellung zunächst mal geschlossen würde ich ganz sicher nicht mit Stockfish analysieren lassen.
Was sollte die Analyse zu Tage führen bei einer Engine die 15% auf alles 0,00 ausgibt?

Das muss mir mal jemand im Detail erklären, bin sehr neugierig!

Gruß
Frank
Parent - - By Guenter Stertenbrink Date 2017-09-26 07:20 Edited 2017-09-26 08:04
hallo Frank,

vielleicht ist ja  0.00 die _Wahrheit_ ?
Das Ergebnis tieferer Analyse.
Das was auch die anderen Engines anzeigen werden, wenn du die Bedenkzeit erhoehst.
(je mehr Bedenkzeit, je mehr CPUs, je mehr 0.00)
Stockfish untermauert das ja mit Varianten ... zeig mir wo genau hier gegebenenfalls
ein Fehler liegt.

Mein Lieblingsbeispiel ist Najd.Poisened Pawn , e4,c5,Nf3,d6,d4,cxd4,Nxd4,Nf6,Nc3,a6,Bg5,e6,f4,Qb6 = 0.00d29
Galt Jahrzehnte lang als eine der schaefsten Eroeffnungen, z.B. in meiner Jugendzeit , jetzt lapidar 0.00 ,
und 6.Lg5 ist nur noch Nebenvariante.

Es kommt auf das Niveau an.

Bereitest du dich vor auf den naechsten
Mannschaftskampf, beide Gegner ca. 2000 Elo

oder

spielst du eine Fernpartie, beide Gegner ca. 1 Tag Analyse pro Zug mit 1 CPU
(plus eigener Input)

Gruss Guenter

------------------------------

um die 0.00s zu reduzieren und um die Schwankungen zu reduzieren
empfehle ich bei Stockfish den Durchschnitt der evals der ~3 letzten Stufen=Tiefen=depths zu nehmen
Parent - - By Jörg Oster Date 2017-09-26 08:49
Guenter Stertenbrink schrieb:

hallo Frank,

vielleicht ist ja  0.00 die _Wahrheit_ ?
Das Ergebnis tieferer Analyse.
Das was auch die anderen Engines anzeigen werden, wenn du die Bedenkzeit erhoehst.
(je mehr Bedenkzeit, je mehr CPUs, je mehr 0.00)
Stockfish untermauert das ja mit Varianten ... zeig mir wo genau hier gegebenenfalls
ein Fehler liegt.

Mein Lieblingsbeispiel ist Najd.Poisened Pawn , e4,c5,Nf3,d6,d4,cxd4,Nxd4,Nf6,Nc3,a6,Bg5,e6,f4,Qb6 = 0.00d29
Galt Jahrzehnte lang als eine der schaefsten Eroeffnungen, z.B. in meiner Jugendzeit , jetzt lapidar 0.00 ,
und 6.Lg5 ist nur noch Nebenvariante.

Es kommt auf das Niveau an.

Bereitest du dich vor auf den naechsten
Mannschaftskampf, beide Gegner ca. 2000 Elo

oder

spielst du eine Fernpartie, beide Gegner ca. 1 Tag Analyse pro Zug mit 1 CPU
(plus eigener Input)

Gruss Guenter

------------------------------

um die 0.00s zu reduzieren und um die Schwankungen zu reduzieren
empfehle ich bei Stockfish den Durchschnitt der evals der ~3 letzten Stufen=Tiefen=depths zu nehmen


Die grundlegende Frage ist doch, wo kommt diese 0.00 "Bewertung" her,
und wie sehr kann man sich darauf verlassen?
Parent - - By Guenter Stertenbrink Date 2017-09-26 09:44 Edited 2017-09-26 10:01
die 0.00 wird meist auf hoeheren Stufen bestaetigt.
(Was mehr kann man verlangen )

http://www.fastgm.de/schach/MultiPV20-Komodo1101.txt
http://www.fastgm.de/schach/MultiPV20.txt

erste Weiss-Zuege mit   0.00 - Bewertung :

Komodo, Tiefe 23 : 1.h3 = 1/20 = 5%
Komodo, Tiefe 46 , 1.d3,b3,Nc3,h3,a3,c3 = 6/20 = 30%

Stockfish , Tiefe 25 : 1.g3,h3,a3 = 3/20 = 15%
Stockfish , Tiefe 50 : 1.f4,b4,a3,d3,h3,c3,e3,g3,b3,c4 = 10/20 = 50%

also Anzahl der 0.00s als Masstab der erzielten Rechentiefe !
Je mehr 0.00s , je besser durchdacht
Parent - By Jörg Oster Date 2017-09-26 10:03
Guenter Stertenbrink schrieb:

die 0.00 wird meist auf hoeheren Stufen bestaetigt.
(Was mehr kann man verlangen )

<a class='ura' href='http://www.fastgm.de/schach/MultiPV20-Komodo1101.txt'>http://www.fastgm.de/schach/MultiPV20-Komodo1101.txt</a>
<a class='ura' href='http://www.fastgm.de/schach/MultiPV20.txt'>http://www.fastgm.de/schach/MultiPV20.txt</a>




Ist dir schon mal aufgefallen, dass sehr oft bei diesen 0.00 "Bewertungen" eine sehr kurze PV angezeigt wird?

Beispiel:
Code:
50/80  200:44:26  9.890.822.131k  18.586k   0,00  1.c3 Sf6 2.d4 d5 3.Lg5 c5 4.e3 e6 5.Sf3 Sbd7 6.Lf4 Sh5 7.Le5 Shf6 8.Lf4


Hier eine nicht ganz so kurze PV:
Code:
50/80  200:44:26  9.890.822.131k  18.586k   0,00  1.d3 d5 2.e4 dxe4 3.dxe4 Dxd1+ 4.Kxd1 e5 5.Sd2 f6 6.f3 Sh6 7.a4 Sf7 8.Sh3 Sd6 9.b3 Le6 10.Sf2 Sc6 11.c3 0-0-0 12.Kc2 Sa5 13.Le2 h5 14.Sd3 b6 15.b4 Sc6 16.Td1 a5 17.b5 Sb8 18.Sb2 Sd7 19.Sdc4 Sb7 20.Se3 Sd6 21.Sec4


Fällt dir jetzt auf, worauf diese 0.00 beruhen?
Parent - - By Michael Scheidl Date 2017-09-26 10:25
Jörg Oster schrieb:
Die grundlegende Frage ist doch, wo kommt diese 0.00 "Bewertung" her, und wie sehr kann man sich darauf verlassen?

0.00 ist vermutlich die unverlässlichste Bewertung überhaupt! (abgesehen von erzwungenen Stellungswiederholungen und dergleichen) Das Paradoxon ist, wenn ich so schlecht stehe daß jeder aktive Versuch schlechter als Null zu bewerten ist, dann hab ich normalerweise auch nicht die Mittel aus heiterem Himmel Remis zu erreichen. Das ist möglicherweise eine irgendwie strukturell bedingte Stockfishkrankheit. Kann sich nur sehr schwer damit abfinden schlechter zu stehen
Parent - - By Guenter Stertenbrink Date 2017-09-26 12:44
ich bitte euch ... ihr argumentiert gegen 3400 Elo !
Parent - - By Frank Quisinsky Date 2017-09-26 12:52 Edited 2017-09-26 12:55
Hi Guenter,

begehst immer noch den selben Denkfehler.
Die hohen ELO Zahlen werden im späten Mittelspiel / Übergang Endspiel produziert.
Nicht ein Zug nachdem das Buch endet.

Eigentlich doch gar nicht so schwierig.
Schauen wir aber immer nur verkrampft 25 Jahre auf Elo Zahlen sehen wir das natürlich nicht.
Kann aber verstehen wenn sich Stockfish Fans bei Negativ Aussagen auf den Schlips getreten fühlen.
Aber nur so kommen wir voran und Stockfish ist ganz sicher noch längst nicht am Ende der Fahnenstange angekommen.

Reden wir alles schön, passiert nichts.
Ist wie in der Politik.

Ein Zug nach dem Eröffnungsbuch ist Stockfish so weit weg von 3.400 Elo wie wir vom Neptun.
Da musst Du lange latschen um da hin zu kommen, selbst wenn 10 Frauen hinter Dir her sind wirst Du auch nicht schneller dort sein.

Ziel ist es also zunächst mal den Mars zu erreichen ... dafür brauchen wir einen intelligenten Contempt.

Was wir haben ist einfach nur ... Contempt = 9 = 0,09.
Dann hätten wir bei der Analyse 15% x 0,09 und das bringt uns auch nicht weiter.

Aber hier ist natürlich nicht nur Stockfish betroffen.
Da aber an Stockfish viele arbeiten wundert es mich das diese Schwäche nicht beseitigt wird, zumal es viele viele Elo bringen würde ...

Nun gut!
Komodo macht es zu 33% besser und Houdini zu ca. 45% (Version 5).

Gruß
Frank
Parent - - By Guenter Stertenbrink Date 2017-09-26 13:08
Hi Frank , du schriebst :

> begehst immer noch den selben Denkfehler.
> Die hohen ELO Zahlen werden im späten Mittelspiel / Übergang Endspiel produziert.
> Nicht ein Zug nachdem das Buch endet.

das stimmt nicht, da halt ich jede Wette, die hohen ELO Zahlen gelten fuer jede Partiephase,
auch einen Zug nachdem dein Buch endet.
Darum wurde ja auch Cerebellum, mit Stockfish erzeugt.

Gruss,Guenter
Parent - - By Frank Quisinsky Date 2017-09-26 13:15 Edited 2017-09-26 13:19
Hallo,

habe ca. 125 FCP Move Stats mit tausenden von Partieauswertungen dagegen.
Eine von denen reicht im Grunde schon um das klar zu sehen.

Cerebellum ist ein Stockfish Buch, wird für Stockfish entwickelt wenn ich das richtig verstanden habe.
Würde das Buch für andere Engines eingesetzt werden hätten wir aus der Sicht von anderen Engines ca. um die 10% schlechte Züge drin, wie schon auf der FCP Startseite ersichtlich wird. Und ferner teilen alle anderen Engines gar nicht das 0,00 Bewertungsverhalten von Stockfish. Ist zwar eine schöne Arbeit aber wo sollte ich dieses Buch einsetzen ... kann ich weder für eine Ratingliste noch für einen Engine Vergleich an dem Stockfish nicht beteiligt ist. Für mich ein Buch vergleichbar zum sehr guten Hiarcs Buch. Will die Arbeit nicht schlecht reden weil gut aber so richtig sehe ich keinen Einsatzzweck vom Cerrebellum Buch, es sein denn in einem Turnier an dem Stockfish teilnimmt wenn es für Stockfish selbst eingesetzt wird.

Aber Du kannst ruhig gegen eine Viertel-Millionen Analysen reden.
Dadurch wird sich Deine Ansicht auch nicht ändern.

Musst Du mit klar kommen!
Selbst halte ich mich lieber an Fakten ... auch wenn mir selbst viele davon gar nicht in den Kram passen.

Hätte Chirion selbst viel höher in KECR gesehen und erst Recht Spark.
Denn keine Engine gewinnt gegen gleiches Niveau mehr schnelle Partien als Spark.

Wobei schnelle Gewinne sind immer Momentaufnahmen zu Stärken in Angriffen die rein zufällig entstehen können.

Gruß
Frank

Nehme die Wette also gerne an und halte derzeit 250.000 Analysen dagegen mit einer Excel die mittels 7.73 Millionen Formeln auswertet.
Was hast Du denn anzubieten?
Parent - - By Guenter Stertenbrink Date 2017-09-26 13:31 Edited 2017-09-26 13:34
Hi Frank,

alle deine Daten hab ich doch auch runtergeladen und analysiert
[danke fuer die Bereitstellung !!] plus CCRL,TCEC etc.
OK, ich hab' dich herausgefordert, du magst die Konditionen der Wette bestimmen
plus Schiedsrichter

Gruss Guenter
Parent - - By Frank Quisinsky Date 2017-09-26 13:42 Edited 2017-09-26 13:49
Hallo Guenter,

Nur ...
Du redest von Gesamtspielstärke
Ich rede von Spielstärke nach dem ersten berechneten Zug

Das kannst Du nicht vergleichen.

Es gibt so schöne Beispiele im Computerschach:
Ktulu war mal auf Platz 4 der Ratinglisten und verlor dennoch mehr schnelle Partien als z. B. Platz 40.
Im Endspiel war Ktulu auch ohne TBs kaum zu bezwingen, erst Recht wenn es Turmendspiele waren.

Das war das Thema Nummer 1 bei Rahman Paidar, was nach der Eröffnung passierte interessierte ihn kaum.

Du gehst nun hin und sagst: Gesamtspielstärke ist auch die Spielstärke in anderen Phasen.
Das ist nicht korrekt und wirklich jede erstellte Statistik spricht dagegen.

Wir können die Gesamtspielstärke einer Engine nicht über alle Partiephase drüber legen.
Das ist nur bei sehr wenigen Engines möglich, die wirklich in allen Partiephasen in etwa gleich stark spielen.

Stockfish hat eine echte Schwäche.
Es wird durchschnittlich ca. 7-8% zu oft 0,00 ausgegeben beim ersten berechneten Zug.
Wir wissen, dass es oftmals mehrere gute Züge bei den Eröffnungsstellungen gibt (zeigt ja FEOBOS sehr schön auf).
Wenn eine Engine dazu neigt zu oft 0,00 auszugeben für Zug 1, passiert das auch für den eigentlich zweitbesten, drittbesten etc. Zug.

Und mithin kann Stockfish bei FEOBOS nicht oben stehen, denn hier wird ausgewertet nach dem Mehrheitssystem der vermutlich besten spielbaren Züge.
Für Stockfish ist also der zweitbeste, drittbeste Zug gleich wenn die alle auch bei 0,00 stehen.

Komplettes umdenken wird notwendig.
Es darf einfach nicht zu 0,00 Bewertungen kommen wenn kein klares Remis nach einer Remisregel in Sichtweite ist.
Schrieb es heute schon, dass wäre so als wenn eine Engine ein Matt in 8 ankündigt wo kein Matt ist.
0,00 ist für Remis, Matt in für Matt in ... 0,00 zu vergewaltigen für Stellung ist ausgeglichen führt nun wirklich zum Remistod.

Engines sollen kämpfen und spielen und uns nicht vorgaukeln Stellung ist Remis.
Schachpartien werden aufgrund von Fehlern entschieden.
Stockfish vergisst bei 0,00 die Fehleranfälligkeit vom Gegner.
Die Fehleranfälligkeiten müssen in den Bewertungen Einzug nehmen.
Sonst freut sich der ELO 1.600 Spieler wenn nach wenigen Zügen gegen Stockfish die Partie Remis wegen dreifacher endet.
Hätte er 10 Züge mehr gespielt wäre die Wahrscheinlichkeit das er auf Verlust steht enorm groß.

Das muss raus aus der Engine denn vergleichbar gute Engines wie Komodo und Houdini machen das nicht nur deutlich besser sondern klar besser.

Ich denke das wenn der Fehler bei Stockfish draußen ist, könnte die Engine auch im Eröffnungsbereich ganz oben stehen, weil die Grundvoraussetzung hierfür ja gegeben ist (zugegeben auch bei Komodo und Houdini denn die sind taktisch nicht deutlich schlechter, würde gar sagen Houdini ist besser als Stockfish in der Taktik).

Und genau aus diesem Gründe interessiert mich persönlich die Gesamtspielstärke immer weniger.
Bringt mir einfach nichts zu wissen ob Houdini nun die beste Engine in der Gesamtspielstärke ist wenn ich nicht weiß wie sich die Spielstärke über die Partiephasen hinweg bilden. Ich kann also mit der Info im Grunde nichts anfangen weil ich Rätsel raten müsste.

Entgegen jeglicher logischen Betrachtungsweise zu Spielstärken von Schachprogrammen.
Für mich ist Gesamtspielstärke genauso interessant als wenn in China ein Sack Reis ...

Ist so ... habe mich zu viel mit den Themen beschäftigt und möchte im Detail Wissen und nicht oberflächlich.
Würde ich alles oberflächlich betrachten hätte ich vor lauter Langweile Computerschach schon längst an den Nagel ...

Gruß
Frank
Parent - By Guenter Stertenbrink Date 2017-09-26 16:24 Edited 2017-09-26 16:50

> Stockfish vergisst bei 0,00 die Fehleranfälligkeit vom Gegner.


> Die Fehleranfälligkeiten müssen in den Bewertungen Einzug nehmen.

ok, ich sehe worauf du hinaus willst.
Das ist dann aber keine Bewertung mehr im ueblichen Sinne.
Das haengt ja dann auch von der Elozahl des Gegners ab.
Da koennte man einen zusaetzlichen Wert schaffen,
etwa fuer Komplexitaet der Stellung oder so und dann mit jedem
Zug eine rechnerische Kombination von Bewertung und Komplexitaet
und Elozahl des Gegners  optimieren.

z.B. inkorrekte Opfer mit scharfen Verwicklungen sind dann ploetzlich gut
und bekommen hohe Bewertung.

Traditionell , bevor es starke engines gab, stand dann aber in den Buechern
ein "?" oder allenfalls ein "?!" Oder auch oft ein oo , weils ja kompliziert ist.
Parent - - By Jens Hartmann Date 2017-09-26 18:50
"Stockfish vergisst bei 0,00 die Fehleranfälligkeit vom Gegner.
Die Fehleranfälligkeiten müssen in den Bewertungen Einzug nehmen...."

Dies ist nach meinem Verständnis aber nur dann sinnvoll, wenn ein Schachprogramm weiß, gegen wen es spielt. Ist der Gegner schwächer, so ist die Wahrscheinlichkeit größer, dass der Gegner einen schlechten Zug macht als dass das Programm selbst einen Fehler begeht. Dann wäre es theoretisch legitim, aus der eigentlichen, berechneten Bewertung von 0,00 eine leicht positive zu machen. Man könnte das ganze noch verfeinern, wenn man die Spielstärke des Gegners in Abhängigkeit der Partiephase berücksichtigt, denn wie Du an anderer Stelle in diesem Thread ausführst, ist diese keineswegs in allen Phasen gleich. Aber ist nicht genau das schon im Contempt Wert berücksichtigt? Obige Überlegung muss doch genauso für jede andere Bewertung gelten. Weiters würde diese Überlegung bedeuten, dass der beste Zug ("beste" im Sinne der Maximierung der Wahrscheinlichkeit, die Partie zu gewinnen) oft davon abhängt, gegen wen ein Programm spielt. Wäre Schach komplett durchgerechnet, so würde dieser vermeintlich beste Zug vermutlich oft nicht der tatsächlich beste sein. Daraus kann man wiederum schließen, dass man bei unbekanntem Gegner den theoretisch-mathematisch besten Zug machen muss, bei bekanntem Gegner oftmals einen anderen.
Parent - - By Hauke Lutz Date 2017-09-26 19:19
Eine zusätzliche Angabe über die Schärfe der Variante wäre ergänzend zur Stellungsbewertung interessant.
Bei der Fritz-Gui wird dies leider nur für die aktuelle Stellung als Tacho dargestellt, aber nicht für die möglichen Zukunftsstellungen.
Parent - - By Frank Quisinsky Date 2017-09-26 23:03
Hallo Hauke,

das ist die meines Erachtens schönste und interessanteste Option, die in den letzten Jahren in die Fritz GUI eingeflossen ist.
Leider wurde das offenbar nicht weiter entwickelt ... denke auch das diese Option sehr schön verbessert werden könnte.

Gruß
Frank
Parent - By Hauke Lutz Date 2017-09-30 14:53
Hallo Frank,

die Darstellung der Schärfe und Let's Check waren für mich die Gründe, weshalb ich Houdini 4 mit der Fritz14-Gui gekauft habe.
Ich analysiere immer mit MV=7. Bei dieser Einstellung wären 7 Angaben, aus Platzgründen als Dezimalzahl statt Tacho sein, zu den besten 7 Antwortzügen wirklich gut.
Dafür würde ich mir auch eine neue Fritz-Gui kaufen.

Gruß
Hauke
Parent - By Frank Quisinsky Date 2017-09-26 23:01 Edited 2017-09-26 23:05
Hallo Jens,

wobei es nur 2 Gegner gibt die Stockfish über die ganze Partie hinweg fürchten muss.
Insofern kann das meines Erachtens vernachlässigt werden, zumal die Beiden die es gibt auch nicht deutlich stärker sind bzw. auf einem Level liegen.

Kein Mensch, kein anderes Schachprogramm neben Houdini / Komodo kann gegen Stockfish auf Dauer halten.

Meine Idee wäre es ja Contempt zu staffeln nach Anzahl Figuren auf dem Brett.
Je mehr Figuren auf dem Brett, desto mehr sollte 0,00 verboten werden ... erst im späten Mittelspiel sollten Evals von 0,00 sehr begrenzt erlaubt sein. Bei dieser Vorgehensweise muss auch niemand Angst haben, dass etwas vergeigt wird wenn es gegen Houdini oder Komodo geht.

Glaube nicht das es schwierig zu programmieren ist.

Zum besten Zug ... ja, kann ich nachvollziehen!
Bei KECR trampelt die Masse an Positionen die einfließen, die sehr wahrscheinlich vorhandenen wenigen Fehler durch Mehrfachbewertungen unterschiedlicher Engines, alles nieder. Wenn KECR eine Fehlerwahrscheinlichkeit (hinsichtlich bester Zug) von 10% produziert ist das schon sehr großzügig bedacht. Klaus hatte ja bereits ausgeführt, dass viele Engines sehr eng zusammen liegen. Ferner hat Klaus sehr viele Stichproben gemacht, ist wochenlang auf Fehlersuche bei den Formeln gegangen und ist sich sicher, dass die Formeln und die Berechnungen stimmen.

Denke wir können sagen, dass direkt nach den Eröffnungszügen wirklich viele Engines ca. gleich gut spielen. Dennoch bin ich mir sicher, dass wenn das 0,00 Problem bei Stockfish im Griff ist ... das KECR Ergebnis deutlich besser ausfallen würde.

Viele Grüße
Frank
Parent - - By Jörg Oster Date 2017-09-26 19:47
Ich argumentiere nicht gegen Stockfish, sondern ich habe versucht dir begreiflich zu machen, woher diese 0.00 Bewertungen kommen.
Hier nun eine etwas ausführlichere Erklärung, die vielleicht auch für andere von Interesse ist.

Prinzipiell gibt es mehrere Möglichkeiten, wann Stockfish exakt 0.00 ausgibt.

1. Bewertungsfunktion
    Hierzu muss man wissen, dass am Ende der Bewertungsfunktion ein Tempo-Bonus (z. Zt 0.08)
    für die Seite am Zug addiert wird. Eine ausgeglichene Stellung wird also nicht mit 0.00 bewertet,
    sondern mit 0.08.

2. Endspielwissen
    Stockfish hat für einige bestimmte Endspieltypen spezielles Wissen implementiert.
    Eigentlich sind es genau genommen nur 2, nämlich KQK und KPK, von denen exakt 0.00 (VALUE_DRAW) zurückgegeben werden kann.
    Hier wird der Tempo-Bonus nicht dazugerechnet!

3. Am Ende der Suche wird auf ein mögliches Patt überprüft und ggf. auch 0.00 zurückgegeben.

4. Tablebases
    Bei Nutzung von Tablebases und einer Remis-Position wird auch 0.00 zurückgegeben.

5. Überprüfung auf 50-Züge Regel und Remis durch Stellungswiederholung
    Hier ist wichtig zu wissen, dass in der Suche schon eine einfache Stellungswiederholung als remis gewertet wird,
    und die Suche dann an dieser Stelle abgebrochen wird. (Pruning)

Da wir hier über Analysen während der Eröffnung sprechen, dürfte es ziemlich einleuchtend sein,
dass 2, 3 und 4 und auch die 50-Züge Regel eine eher untergeordnete Rolle spielen dürften. Wenn überhaupt.

Um eine exakte 0.00 über die Bewertung zu erhalten, muss eine Stellung also genau soweit aus dem Gleichgewicht sein,
dass der Tempo-Bonus aufgehoben wird. Das dürfte auch nicht wirklich häufig passieren.

Damit ist nun klar, dass die überwiegende Zahl (> 90%) der angezeigten 0.00 Bewertungen
auf Stellungswiederholungen während der Suche basiert!

Nun ist es aber so, dass diese Stellungswiederholungen nicht unbedingt der Weisheit letzter Schluss sein müssen ...
Parent - - By Frank Quisinsky Date 2017-09-26 23:17
Hallo Jörg,

wenn es stark überwiegend die dreifachen in der Suche sind ist diese Suche zumindest zweifelhaft / verbesserungswürdig, meine wenn 15% zu 0,00 führen.
Oft ist das mit den FEOBOS Daten gar nicht zu prüfen, weil nur ein Zug zum Ende der Analyse ausgegeben wird.

Musst mal in die FEOBOS Grafik 9 schauen (Dia-Show) ...
oder warte ...



Genau das macht es dann umso schwieriger, wenn nicht gesehen werden kann welche Zugfolgen zu 0,00 führen.
Sehe ich die Zugfolgen aber, sind es stark überwiegend wie von Dir dargestellt die dreifachen in der Suche.

Dann muss irgend etwas her so nach dem Motto:
Vermeide dreifache Stellungswiederholung in der Suche wenn Alternativ Zug (nach Anzahl Figuren auf dem Brett) zu nicht mehr als x ins Minus läuft.

Der Durchschnitt der positiven Eval bei Stockfish ist unglaublich niedrig mit 0.23. Andere Engines sind da spekulativer unterwegs ...
Also irgendwie ... irgend etwas in der Suche ist nicht korrekt, kann nicht korrekt sein.

Durch diese 15% ist anzunehmen, dass Stockfish sich wesentlich schneller auf Remis einlässt als alle anderen im FEOBOS Test-Feld.
Das ist für eine so starke Engines nur schwer hinzunehmen ... es wird einfach zu viel verschenkt. Darf gar nicht daran denken wo Stockfish landen würde wenn keine halben Punkte mehr verschenkt werden würden.

Gruß
Frank
Parent - - By Jörg Oster Date 2017-09-27 19:18
Frank Quisinsky schrieb:

Hallo Jörg,

wenn es stark überwiegend die dreifachen in der Suche sind ist diese Suche zumindest zweifelhaft / verbesserungswürdig, meine wenn 15% zu 0,00 führen.
Oft ist das mit den FEOBOS Daten gar nicht zu prüfen, weil nur ein Zug zum Ende der Analyse ausgegeben wird.

Musst mal in die FEOBOS Grafik 9 schauen (Dia-Show) ...
oder warte ...

Genau das macht es dann umso schwieriger, wenn nicht gesehen werden kann welche Zugfolgen zu 0,00 führen.
Sehe ich die Zugfolgen aber, sind es stark überwiegend wie von Dir dargestellt die dreifachen in der Suche.

Dann muss irgend etwas her so nach dem Motto:
Vermeide dreifache Stellungswiederholung in der Suche wenn Alternativ Zug (nach Anzahl Figuren auf dem Brett) zu nicht mehr als x ins Minus läuft.

Der Durchschnitt der positiven Eval bei Stockfish ist unglaublich niedrig mit 0.23. Andere Engines sind da spekulativer unterwegs ...
Also irgendwie ... irgend etwas in der Suche ist nicht korrekt, kann nicht korrekt sein.

Durch diese 15% ist anzunehmen, dass Stockfish sich wesentlich schneller auf Remis einlässt als alle anderen im FEOBOS Test-Feld.
Das ist für eine so starke Engines nur schwer hinzunehmen ... es wird einfach zu viel verschenkt. Darf gar nicht daran denken wo Stockfish landen würde wenn keine halben Punkte mehr verschenkt werden würden.

Gruß
Frank


Hallo Frank,

interessantes Datenmaterial, welches du da produziert hast.
Muss ich mir mal in Ruhe zu Gemüte führen.

Nur ein paar kurze Anmerkungen.

Stockfish ist nicht die einzige Engine mit häufiger 0.00 Bewertung. Booot folgt dicht auf. Andscacs sticht hier aber deutlich positiv hervor.
Prinzipiell macht Stockfish nichts anders als die meisten anderen Engines auch.
Warum Stockfish dennoch so oft in der Stellungswiederholung landet, oder besser gesagt, da verbleibt, ist schwer zu sagen.

Vorsicht bei der Interpretation der durchschnittlichen Bewertungen.
Daraus lässt sich nur bedingt etwas ableiten, weil das nur das ist, was an das GUI/den User übermittelt wird.
Was intern in der Engine abgeht, weißt du nicht.
Vielleicht erinnerst du dich, dass vor ein paar Jahren noch gemeckert wurde, dass die Bewertungen bei Stockfish zu hoch wären?
Als Reaktion darauf wurden die angezeigten Bewertungen leicht 'komprimiert'. Intern ist aber nichts geändert worden.

Gruß, Jörg.
Parent - By Frank Quisinsky Date 2017-09-27 22:25 Edited 2017-09-27 22:32
Hallo Jörg,

das Material in Ruhe zu sichten und für sich auszuwerten in langwierig und oftmals ist es der zweite Blick.
Wissen wir, versuchen es dennoch so gut es geht umzusetzen um einfach mehr in Erfahrung zu bringen.

Problematisch an FEOBOS oder KECR ist das Durcheinander welches laufend durch neue Ideen wieder zu ordnen ist.
Das ist schwierig nachzuvollziehen, erst Recht wegen dem nun anschließenden Update mit über 15.000 Positionen.

Wenn aber alles durch ist in 4 Monaten fügen sich alle Puzzleteile auch in den Excel Dateien zusammen und wir können
spielen mit den Daten und eigenen Einstellungen etc..

Egal ...

Warum Booot nun auch so hoch ausschlägt habe ich mir noch nicht selbst im Detail angesehen.
Die Engine ist irgendwie ... unberechenbar. Beim Spiel selbst und es fällt mir schwer überhaupt Stärken oder Schwächen zu bilden.
Booot ist vergleichbar geheimnisvoll wie Quazar mit geringerer Spielstärke.

Nicht das Thema ...

Richtig, dass ich natürlich nicht mit den ermittelten Daten im Detail alles prüfen kann und erst Recht bin ich kein Programmierer und kann hier etwas beitragen.
Aber irgendwie, egal wie ich es drehe ... ob bei der Ratingliste oder jetzt bei diesem Projekt. Laufend fällt Stockfish auf und zwar bei mir dann oft nicht so wie ich es mir wünsche.
Und immer läuft es auf das gleiche Dilemma ... schnelles Remis.

So gut die Engine auch ist aber irgend etwas läuft da nicht rund zusammen.
Die 15% auf 7-8% zu minimieren wäre schon ein echter Erfolg.
Die Gründe zu suchen ist ganz sicher nicht einfach und Verbesserungsvorschläge die den Programmierern nichts bringen sind schnell daher geschrieben.
Ist mir auch bewusst.

Also, leichte Provo in Richtung Stockfish ist nicht bös gemeint. So lange alles nachvollziehbar und mit Daten hinterlegt werden kann, sicherlich auch hilfreich.
Hoffe es nimmt sich jemand der Sache dann im Detail mal an.
Bin mir einfach sicher, dass gerade zu diesem Punkt einiges an Stockfish Power hinzugewonnen werden könnte.

Ehrlich ... so langsam bin ich dieses Thema auch müde, so schön und spannend die Arbeit mit Klaus ist.
Aber jegliche zunächst zweifelhafte Ergebnisse lassen nicht zuletzt uns selbst zweifeln und wir suchen und dumm und dämlich hinsichtlich: Ist da etwas falsch, unlogisch? Liegt der Fehler bei uns und der Darstellung bzw. Berechnung oder bei der Auswertung und der Denkansätze.

Ist wie es ist ...
Die Entwicklung der Excel Tabellen ist sehr wichtig geworden.
Wir können im laufenden Projekt ständig auf neue Gegebenheiten eingehen und versuchen Verbesserungen durchzuführen.
Daher eigentlich gut, dass 1 Jahr angesetzt ist. Schließlich soll das Ergebnis der Excel Entwicklung so gut sein, dass wir in ein paar Jahren einfach nochmal die Engine Analysen mit besserer Hardware und stärkeren Engines wieder durchführen können ohne diese aufwendige Excel nochmals zu entwickeln. Eine Geschichte für die Zukunft bei der Entwicklung von Büchern die eh mit der Zeit mehr und mehr in der Hand der Engines und nicht mehr in der Hand der Menschen liegen wird (sind wir ehrlich).

Gruß
Frank
Parent - - By Stefan Pohl Date 2017-09-25 17:00 Edited 2017-09-25 17:29
Frank Quisinsky schrieb:


15% 0,00er und 10% 0,00 bei Komodo ...
Dann ist klar woher der Remistod kommt ... das ist zu einem sehr großen Prozentsatz "hausgemacht".

Und genau deswegen sind solche Projekte wichtig, damit einfach im heutigen Zeitalter kein Platz mehr für Legendenbildung verbleibt.
Dafür haben wir heute einfach zu gute Möglichkeiten um Mutmaßungen ständig zu verbreiten.

Mit FEOBOS 10 Daten Stockfish gegen Komodo ... beide mit Contempt 9 antreten lassen und sich wundern wie sehr die Remisquoten schrumpfen.


Na, dann mach das doch mal. Bis dahin bist du es doch, der hier Legendenbildung betreibt und Mutmaßungen verbreitet, anstatt mal echte Meßdaten im praktischen Engine-Spielbetrieb zu liefern.

Ich habe schon mal mit FEOBOS 3 beta asmFish gegen Komodo spielen lassen. Sogar mit Contempt=15. Und der Effekt bzgl. Rückgang der Remisquote verglichen mit einem Standard-Eröffnungsset war fast nicht vorhanden. Und das waren jeweils 1000 Partien. Mit 5'+3'', also einer durchaus nicht kurzen Bedenkzeit.
FEOBOS senkte die Remsiqoute nur um 1.7% und es gab ganze 16 Remisen durch 3fach Wiederholung weniger (auf 1000 Partien) als mit einem Standard-Eröffnungsset.
Während mein SALC-Buch die Remsiqoute um 9.5% senkte. Das nur nebenbei.

Das sind echte Meßdaten, statt endlos langer Text-Arien, wie toll alles mit FEOBOS wird und daß der drohende Remistod nur eine Chimäre oder "hausgemacht" ist.

Aber, wenn du das wirkliche Praxis-Testen von FEOBOS nicht machst, dann mache ich es. Wenn FEOBOS denn mal fertig ist. Mit Vergleichsrun eines Standard-Eröffnungssets und mit meinen SALC-Stellungen. So wie in dem umfangreichen Test, den ich schon mit dem frühen FEOBOS-Set gemacht habe (s.u.). Hoffentlich wunderst du dich dann nicht, wie wenig die Remsiqouten schrumpfen (und die Zahl der 3fach-Remisen). Aber das sehen wir ja dann.

Ich kopiere das umfangreiche Experiment, das ich schon gemacht habe, und welches für FEOBOS in jeder Hinsicht ernüchternd verlief, noch mal von meiner Website hier rein:

I did 3 testruns with 3 different opening sets:
1) SALC V2
2) Frank Quisinsky's FEOBOS 3.0 book (beta), a new and very well engine-analyzed and balanced opening book (get more information on his website www.amateurschach.de).
3) the 8-move openings collection, which is used in the Stockfish framework.

asmFish played 1000 games versus Komodo 10.4 with all 3 books/opening sets (=3000 games). Not bullet-speed, but 5'+3'' (!), singlecore, 256 MB Hash, no pondering, both engines with Contempt=+15. LittleBlitzerGUI (in RoundRobin playmode, in which for each game, one opening position is chosen per random out of an epd-openings file). It took more around 12 days, to complete these three long testruns.

Games Completed = 1000 of 1000 (Avg game length = 944.640 sec)
Settings = RR/256MB/300000ms+3000ms/M 450cp for 4 moves, D 120 moves/EPD:C:\LittleBlitzer\SALC_V2_10moves.epd(10000)
Time = 945199 sec elapsed, 0 sec remaining
1. asmFish 170426 x64 620.5/1000 351-110-draws: 539 (L: m=0 t=0 i=0 a=110) (D: r=149 i=231 f=38 s=0 a=121) (tpm=6659.0 d=30.93 nps=2552099)
2. Komodo 10.4 x64 379.5/1000 110-351-539 (L: m=0 t=0 i=0 a=351) (D: r=149 i=231 f=38 s=0 a=121) (tpm=6920.9 d=26.71 nps=1619591)

Games Completed = 1000 of 1000 (Avg game length = 1049.395 sec)
Settings = RR/256MB/300000ms+3000ms/M 450cp for 4 moves, D 120 moves/EPD:C:\LittleBlitzer2\FEOBOS_v03+.epd(24085)
Time = 1039157 sec elapsed, 0 sec remaining
1. asmFish 170426 x64 601.5/1000 293-90-draws: 617 (L: m=0 t=0 i=0 a=90) (D: r=132 i=221 f=38 s=1 a=225) (tpm=6315.9 d=30.83 nps=2477078)
2. Komodo 10.4 x64 398.5/1000 90-293-617 (L: m=0 t=0 i=0 a=293) (D: r=132 i=221 f=38 s=1 a=225) (tpm=6424.5 d=26.49 nps=1583220)


Games Completed = 1000 of 1000 (Avg game length = 1036.164 sec)
Settings = RR/256MB/300000ms+3000ms/M 450cp for 4 moves, D 120 moves/EPD:C:\LittleBlitzer3\34700_ok.epd(32000)
Time = 1036719 sec elapsed, 0 sec remaining
1. asmFish 170426 x64 603.0/1000 286-80-draws: 634 (L: m=0 t=0 i=0 a=80) (D: r=148 i=232 f=39 s=1 a=214) (tpm=6334.2 d=31.54 nps=2570164)
2. Komodo 10.4 x64 397.0/1000 80-286-634 (L: m=0 t=2 i=0 a=284) (D: r=148 i=232 f=39 s=1 a=214) (tpm=6473.6 d=27.00 nps=1614400)

Conclusions:
1) The SALC book lowers the draw-rate a lot (53.9%) , compared to the FEOBOS book (61.7%) and the Stockfish Framework opening set (63.4%), although the engines played with Contempt=+15.
2) The scores of the engines are not getting closer to 50%, using the SALC-book. The Elo-differences are not getting smaller (in fact, they are getting higher!), which proofs, that the SALC book does not contain a lot of lines, which are leading to a clear advantage (and easy wins) for white or black, compared to both other books.
3) The SALC book lowers the average game duration (compared to the other books) around 10%. That means, that in the same time, +10% more games can be played, which leads to statistical more valuable results in the same time (for example: This testrun using SALC ended more than one day before the FEOBOS and the Stockfish-openings testruns)
4) Although there is no doubt, that the FEOBOS book is very well balanced and analyzed, and this beta version contains only lines with both queens on board, the draw-rate is only a little bit lower than using the Stockfish Framework opening set. The number of 3fold-draws is a little bit lower with FEOBOS (compared to both other books), but 16 less 3fold draws of 1000 games isnt pretty much (1.6%) .
Parent - By Frank Quisinsky Date 2017-09-25 19:54 Edited 2017-09-25 20:00
Hallo Stefan,

musst bei Deinen Äußerungen immer bedenken.
Ich mache gar nichts ...

Ich lasse machen, bzw. die Engines arbeiten und wir erstellen lediglich die statistischen Auswertungen die mittels EPD machbar sind.

Also die Legendenbildung kommt von den 10 Standard Engines.
Meine Kommentare sind eher ... ich kommentiere was Excel ausgibt, was die Engines herausfinden.
Und was Excel ausgibt ist einfach zu kommentieren.

Musst da ein wenig vorsichtiger mit Deinen Äußerungen sein.
Nicht wir bewerten die Systeme das machen die Engines in Teamwork.

Greifst Du das System an, greifst Du die Engines an ... nicht uns!

Den Schuh ziehen wir uns nicht an, weil ich kann doch nichts dafür was eine Engine ausgibt.
Und Klaus und ich entwickeln lediglich das was wir sonst nicht selbst erfassen können.

Excel erfasst und gibt aus und wir Menschen haben nun endlich mal die Möglichkeit uns ein spannenderes Bild über Eröffnungen und Vermögen der Engines bilden zu können.

Musst das auch nicht gegen prüfen, da gibt es nichts gegen zu prüfen.

Lediglich eine andere Mischung von 10 Engines würde minimal andere Ergebnisse hervorbringen.
Aber die Auswahl der Engines erfolgte aufgrund der hunderten von Spielstil Moves Stats aus der FCP Ratingliste.
Die Zusammenstellung der Engines ist also auch kein Geheimnis.

Habe genommen was stark ist und unterschiedlich spielt.

Wenn es denn überhaupt einen Angriffspunkt gibt ...
Um es den Kritikern leichter zu machen ...

Wäre es die Kombination der verwendeten Engines.
Weil alles andere ist pure Mathematik aus den Engine Ausgaben.

Und wie gesagt ...
Das muss nicht überprüft werden ...

Das FEOBOS Buch wird weniger als 1% frühe Remise unter 20 Zügen und weniger als 3% Remise unter 25 Zügen bringen.
Wir keine verlustbringende Varianten ausspielen bzw. die Wahrscheinlichkeit hierfür liegt derzeit bei 0,25% ... auch das ist errechenbar.

Das kann kein anderes Buch toppen, weil kein mir bekanntes Buch mit 10 Engines optimiert wurde.
Die perfekte Testbasis um auszuschließen, das schlechte Eröffnungswahl Zweikämpfe manipulieren.

Dieses Thema ist durch!

Hört sich fantastisch an ...
Hört sich nicht nur so an ... FEOBOS ist es.
Die perfekte Testbasis und das schöne ist ... kommt eine Kritik, kritisiert der Kritiker die Engines selbst.
Wer es denn möchte, soll es tun.

Im Falle von Stockfish 15% Remisquote wäre die Kritik angebracht.
Das missfällt mir und daher überlege ich die Engine raus zu nehmen. Auch Booot mit 14% müsste dann raus.

Wir hätten gut und gerne bei FEOBOS v10 und Contempt 5 fast 1.500 Stellungen mehr im Buch wenn Stockfish und Komodo zuletzt nicht so aus der Reihe getanzt wären.
Das passt mir gar nicht und mithin sollte ich eingreifen. Muss mal schauen, wir haben noch experimentelle Engines die Standard Engines ersetzen können.
Notfalls hänge im Januar noch 2-3 andere Engines wie Nirvana hinten dran um Austauschengines zu haben.

Oder ich belasse es so und starte Feobos mit stärker Hardware vielleicht nochmal in 3 Jahren neu, mit den Engines die dann auffällig sind.
Alles möglich ... Klaus hat Meilensteine gelegt!
Alles ist noch in vielen Jahren verwendbar um dann wieder ein noch besseres Buch zu erstellen.

Wie gesagt, Thema ist durch ... es sein denn EPD wird aufgebohrt und mehr Ausgaben sind möglich.
Dann können wir auch mehr bei Excel tun.

Gruß
Frank
Parent - - By Stefan Pohl Date 2017-09-25 17:16 Edited 2017-09-25 17:22
Guenter Stertenbrink schrieb:


mir scheint du misst eher die Naehe zum Durchschnitt der Engines
denn die Spielstaerke.


Das denke ich auch. Frank schreibt ja: Gemessen wird der erste selbst berechnete Zug nach den Buchzügen, nicht mehr und nicht weniger.

Und das ist das Grundproblem, meine ich. So kann man nicht feststellen, was der beste Zug nach den Buchzügen ist. Zumal die prinzipiellen Fragen sind, ob es überhaupt einen eindeutig besten Zug gibt (denn Schach ist ein Spiel der Pläne, nicht der Züge und es kann ja durchaus mehrere gute Pläne aus einer Eröffnungsstellung heraus geben) und ob es überhaupt möglich ist, diesen mit Engines herauszufinden. Falls Letzteres überhaupt möglich sein sollte (und ich habe da sehr ernsthafte Zweifel), dann ginge das überhaupt nur mit einer Rückwärtsanalyse, so wie sie Thomas Zipproth mit der Cerebellum-Library macht. Aber auch da wird man schlußendlich wohl nie sicher sein können, ob das dann wirklich der beste Zug ist. Mit einer einfachen Vorwärtsanalyse aber kann das keinefalls funktionieren. Selbst wenn man hundert Engines rechnen läßt und das auf irgendeinem superschnellen Großrechner aus der Zukunft. Letzlich erhält man einen Durchschnittswert der Engine-Meinung vorausberechnet aus der konkreten Brettstellung. Man kann zwar durchaus berechtigt annehmen, daß ein Zug mit großer Wahrscheinlickeit nicht ganz schlecht sein wird, wenn etliche moderne Engines auf einer modernen Hardware ihn spielen wollen. Aber erstens ist auch das nicht wirklich sicher und zweitens könnte es durchaus einen anderen, noch besseren Zug geben, den eben nur wenige Engines (oder keine!) spielen wollen. Und es gibt keinen Weg herauszufinden, ob dies in einer konkreten Buchendstellung so ist. Zumindest wüßte ich nicht, wie das gehen soll.
Aber die Mehrheitsmeinung der heutigen Engines auf der heutigen Hardware zum besten Zug in einer Eröffnungsstellung zu erklären ist, vorsichtig gesagt, sehr, sehr gewagt. Und ich persönlich halte das schlicht für falsch. Und für noch falscher halte ich es, dann noch daraus im Umkehrschluß zu folgern, welche Engine besonders "gut" oder "schlecht" im Eröffnungsverständnis ist.
Parent - By Klaus Wlotzka Date 2017-09-25 18:35
Stefan Pohl schrieb:


Das denke ich auch. Frank schreibt ja: Gemessen wird der erste selbst berechnete Zug nach den Buchzügen, nicht mehr und nicht weniger.

Und das ist das Grundproblem, meine ich. So kann man nicht feststellen, was der beste Zug nach den Buchzügen ist. Zumal die prinzipiellen Fragen sind, ob es überhaupt einen eindeutig besten Zug gibt


Hallo Stefan,

wir hatten die gleiche Diskussion vor einigen Wochen bereits mit Frank Brenner. Ich möchte an dieser Stelle meine damalige Zusammenfassung zu diesem Thema auszugsweise hier noch einmal posten:

den ultimativen besten Zug wird es in der frühen Partiephase natürlich nicht geben, wahrscheinlich enden alle von den Engines gefundenen Zügen bei bestem Gegenspiel in ein Remis. Aus unserem heutigen Blickfeld geht es ja eher darum, den aussichtsreichsten Zug zu finden, welcher möglichst lange den Anzugsvorteil aufrecht hält beziehungsweise Möglichkeiten eröffnet, diesen langsam auszubauen.

Dass es auch Stellungen geben mag, bei der der am meisten gefundene Zug nicht der aussichtsreichste ist, ist auch logisch.

Auch geht es in KECR ja nicht darum, die eigentliche Spielstärke zu ermitteln sondern eher darum, welche Engine beim Finden der vermeintlich aussichtsreichsten Züge in der Eröffnungsphase am besten ist.

Ich hätte es schade gefunden, wenn man den wahnsinnigen Aufwand, welchen Frank für die Analysen der Eröffnungsstellungen treibt, allein nur für das Buchprojekt nutzt. Wir haben derartig viele und gute Analysen, sodass man durchaus auch eine Bewertung der Engines in Bezug auf Ihre Eröffnungsanalysefähigkeit anstellen kann. Jedenfalls ist mir noch keine bessere Methode hierfür eingefallen.


Wir werden dieses Thema hier und heute nicht abschließen können, da wir dies mit unseren heutigen Methoden nicht ergründen können. Das es aber am wahrscheinlichsten ist, dass der Zug, welcher von den meisten spielstarken Engines auf schneller Hardware ausgespielt wird, wohl ein sehr aussichtsreicher sein muss, ist wohl unbestritten. Wenn eine Engine bei der Vielzahl von Analysen (derzeit über 26.000, demnächst über 41.000) dabei am häufigsten vertreten ist, kann auch diese in Hinsicht ihrer Analysefähigkeit auch nicht die schlechteste in diesem Segment sein. Wie gesagt, alles aus heutoger Sicht und den heutigen Möglichkeiten

Gruß

Klaus
Parent - By Frank Quisinsky Date 2017-09-25 19:09 Edited 2017-09-25 19:21
Hallo Stefan,

ob nun 5.000 oder 26.000 Positionen ... die KECR Bewertungen sind fast immer gleich.
Eindeutiges Indiz dafür, dass die Berechnungsmethodik sehr gut ist. Im Einzelfall werden beste Züge ausgegeben die keine sind ... weil mehr als 2 Engines eine Meinung vertreten die falsch ist. Natürlich passiert das aber die Wahrscheinlichkeit ist sehr gering bzw. die Masse an korrekten Ausgaben überfliegt die fehlerhaften Einschätzungen. Hier rechnen Programme (Ausnahme Wasp) mit über 3.000 ELO auf 6 Cores bei einer Minute ... und das insgesamt 41.000 x 13 ... reicht. Ein Jahr Analysezeit reicht.

Klar, im Einzelfall kann bei einem ECO Code (KECR berechnet ja auch für jeden ECO Code) mit vielen Stellungen dann der Zufall wirken.
Aber grundsätzlich stimmt es.

Habe schon zu viele Match Konstellation laufen gelassen um Vergleiche FCP Live Book vs. FEOBOS durchzuführen ... und das FCP Live Book war schon gigantisch gut ... die Remisquoten sind unterirrdisch. Klar, wenn ich mit Contempt 5 spielen lassen, also FEBOS v9 mit Contempt 5, meine Buch Contempt 5. Ich spreche immer von wenigen Remisen bis Zug Nummer 25 ... darüber hinaus hat das Buch dann kaum noch Einfluss.

FEOBOS v10 steht morgen zur Verfügung.

Schön an FEOBOS ist ...
Klaus und meine Wenigkeit haben alles so gestaltet dass jegliche Kombination an Testmöglichkeiten denkbar ist. Alles ist offen, alles ist austauschbar ... die Stats können zu beliebigen Konstellationen erstellt werden. Gerade für Leute interessant, die meinen zunächst mal alles in Frage zu stellen. Die Flausen vertreibt FEOBOS recht schnell bei näherer Betrachtungsweise. Ich hoffe ja das dennoch nach dem UPD 1 mit über 41.000 Endpositionen die Qualität nochmals steigert und fehlendes dann auch kompensiert ist (fehlendes bei den ECO Codes). Durch stärkere Engines und besserer Hardware ist noch mehr möglich. Aber alles steht: Konzept und Excel und in 20 Jahren kann das noch eingesetzt werden.

Jeglicher Test-Set zu Eröffnungen, zu jedem ECO Code ... mit unserem Ratingsystem ... alles ist möglich und das sehr einfach.
Gibt keinen offenen Wunsch mehr zu Test-Set, Eröffnungsvorgaben ...

Das Thema ist für mich so was von durch!
10 der spielstärksten Engines in Kombinationen liefern das in Teamwork was ich mir immer wünschte.
Dem ist einfach nichts mehr hinzuzufügen.

Die Engines erstellen das was wir uns wünschen.
Müssen als ELO Nasen da nicht mehr selbst Hand anlegen um irgend ein fehlerbehaftetes Zeug selbst zu entwickeln.
Die Engines machen das für uns ... wir werten nur mit allen möglichen Kniffs und Tricks aus.

Gruß
Frank

Bei FEOBOS v3 waren nur wenige klare Remisstellungen draußen.
Bei FEOBOS v10 mit Contempt 5 ... das kann nicht mehr getoppt werden, ist unmöglich ... denn keine der 10 TOP-Engines gibt in irgend einer der vergliebenen Stellungen im Buch ein 0,00 aus. Also, das kannst Du prüfen aber es ist Zeitverschwendung. FEOBOS v10 ist das optimale Buch für einen Engine Test ... keine Fehler drin, keine 0,00er drin und alle ECO Codes vertreten. Warte aber bis v10 fertig ist, noch ist v9 online.
Up Topic Hauptforen / CSS-Forum / KECR - Ergebnisse von Komodo und neuer Spitzenreiter mit Houdini

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill