Fantastisches neues Sugar-Setting

By Dithyrambus Date 2015-09-18 14:38

Hallo Ralf,

ich habe seit langer zeit keine neue hardware angeschafft, deshalb führe ich keine testreihen mehr durch. Ich habe also nichts adäquates, um deinen umfangreichen test nachvollziehen zu können.
Bei enginevergleichen innerhalb eines stammbaums bin ich aber seit alters her sehr skeptisch. Kleinste abweichungen können dazu führen, dass eine der beiden engines immer wieder in die gleiche "falle" tappt. Dadurch würde das ergebnis stark verfälscht.
Gegen erbgutfremde engines könnte dieser vorteil sich im extremfall sogar als schwäche herausstellen.

Viele grüße
Horst

By Ralf Mueller Date 2015-09-18 15:43 Edited 2015-09-18 15:45

Hallo Horst,

interessant finde ich, dass die Default-Werte von Sugar keine große Verbesserung gegenüber Stockfish aufweisen. Diese riesige Differenz kommt erst durch das recht starke Verstellen der Parameter. Die Vermutung liegt nahe, dass es sich nicht nur um eine Code-Veränderung oder ein Mehrwissen handelt, dass Stockfish in immer die gleiche "Falle" tappen lässt.
Die Lösungsvariante in Navara-Wojtaszek (http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?tid=8555) mit richtiger Bewertung wird bei mir von dem Sugar-Setting ungefähr dreimal so schnell wie vom regulären Stockfish gefunden.

By Frank Brenner Date 2015-09-18 15:59 Edited 2015-09-18 16:07

> Zu schön, um wahr zu sein? So richtig kann ich meinen Ergebnissen selber nicht trauen, ein zweiter Test eurerseits ist gerne erwünscht!

Wieso sollten WIR deine Fehler herausfinden die Du gemacht hast bei deiner Testdurchführung ?

Es ist doch wohl offensichtlich dass +81 ELO unmöglich sind, denn so eine grobe Änderung der Parameter führt so gut wie zu 100% zu einer verschlechterung.

By Dithyrambus Date 2015-09-18 16:12

Hallo Frank,

eine höflichere Formulierung als "erwünscht" fällt mir spontan nicht ein.

Gruß
Horst

By Frank Brenner Date 2015-09-18 16:33

Hallo Horst,

wenn ich bei einer Top Engine wie zb SF ein große Änderungen an Parametern vornehme und dann adhoc +81 ELO ermittel, dann überprüfe ich erst einmal meine Testdurchführung bevor ich diesen möglichen mist veröffentliche.

Bei SF wären +10 ELO bereits sensationell . Das schafft so gut wie niemand in den letzten 12 Monaten im Framework.

By Ralf Mueller Date 2015-09-18 16:36

Hallo Frank,

mein Ergebnis kam nicht "adhoc" zustande, sondern ich hatte bereits im Vorfeld jede Parameteränderung getestet, ausgehend von Stefans Setting, dass bereits 10 Elo-Punkte über den Default-Werten in seinen Tests lag.

By Ralf Mueller Date 2015-09-18 16:19 Upvotes 1

Hallo Frank,

ich wollte nur meinen Fund mit der Community teilen. Wenn er nicht auf dein Interesse stößt, beschäftige dich doch einfach nicht damit.
Wie hättest du dich an meiner Stelle verhalten, wenn du ein spektakulär Schach spielendes Setting findest, dass in einem 1000-Partien-Test deutlich stärker als Stockfish performt? Solange geheim halten, bis du einen eventuellen Fehler im Versuchsaufbau gefunden hast?

Ungeachtet des Ergebnisses spielt dieses Setting sehr schönes Schach, wie die Partie zeigt und lohnt sich alleine deswegen, geteilt zu werden.

By Frank Brenner Date 2015-09-18 16:35

Hast du denn wenigstens schon mal die CPU Auslastung überprüft (das erste was ich machen würde) .... also ob beide Enginges auch brav nur die vorgesehene Anzahl an Kernen verwendet ?

By Benno Hartwig Date 2015-09-18 21:43

Bei LB kann man auch immer sehr schon die durchschnittliche Knotenleistung sehen.
Ich habe aber nie erlebt, dass eine Engine hier ausgebremst wurde.
Bei überraschenden Überlegenheiten erscheint mir ein prüfender Blick aber schon angemessen.

Benno

By Frank Brenner Date 2015-09-19 14:48

Die +81 ELO (statt ca. -20 wie es wohl realistisch sein müsste) können sehr gut durch den Einsatz aller 4 Cores erzielt werden.

Die anderen Dinge die hier im Thread kritisiert wurden wie zb Bedenkzeit halte ich absolut nicht für die Ursache. Immerhin unterscheidet sich der Zeiteinteilungsalgorithmus von Sugar und SF eigentlich gar nicht, da doch Sugar aus SF entstand indem SF kopiert wurde ein paar patches die bei SF verworfen wurden bei Sugar hinzugefügt wurden.

By Ralf Mueller Date 2015-09-19 15:00

Hallo Frank,

sehe ich ganz genauso. Habe nochmal getestet: Im Zweikampfmodus der Fritz-Oberfläche kann es tatsächlich zu einer solchen ungleichen Ressourcennutzung kommen, im Turniermodus konnte ich hingegen noch nicht ein solches Problem feststellen (ganz zu schweigen von der LB-GUI).

By Benno Hartwig Date 2015-09-18 16:19

Welche Zeiten hast genutzt, und wie stark war deine Hardware?
Immer 1 Thread und kein Pondern?

Benno
"Sensation oder systematischer Fehler, oder doch ein sehr extremer Zufall, das ist hier die Frage..."

PS:
Bisweilen habe ich bei meinen LittleBlitzer-Testreihen auch recht extreme Ergebnisse gesehen, und das bei 500 und auch 1000 Partien.
Solche, die sich dann aber nicht wiederholen ließen.

Werden von LB die Engines eigentlich auch regelmäßig neu gestartet? Oder laufen die über z.B. 1000 Partien bei wenigen Teilnehmern sturheil durch?
Ich fragte mich dann manchmal, ob eine Engine während solch eines langen Laufes auch mal in einen "schlechten, dauerhaften, ggf. wirklich fehlerhaften Speicherzustand" geraten kann wodurch die Engine dann einen sehr schlechten langen Lauf bekommt. Oder ist das Unsinn?

Arena gestattet daher ja auch das regelmäßige Neustarten der Engines und auch von Arena selbst.
LB wohl nicht.
Und wie gestalten das andere GUIs?

By Ralf Mueller Date 2015-09-18 16:30

Hallo Benno,

folgende Bedenkzeit habe ich benutzt: 10'' + 1000 ms, durchschnittliche Rechentiefe 19 Ply.
Laufend auf einem Kern @ 2,50 GHz (x64, 8 GB RAM) mit 1024 MB Hash für jede Engine, ohne Pondern.

Habe es unter ChessBase-GUI getestet mit Neustart nach jeweils ca. 250 Partien.

By Wolfgang Battig Date 2015-09-18 17:57

Ralf Mueller schrieb:

Hallo Benno,

folgende Bedenkzeit habe ich benutzt: 10'' + 1000 ms, durchschnittliche Rechentiefe 19 Ply.
Laufend auf einem Kern @ 2,50 GHz (x64, 8 GB RAM) mit 1024 MB Hash für jede Engine, ohne Pondern.

Habe es unter ChessBase-GUI getestet mit Neustart nach jeweils ca. 250 Partien.

Die - aus meiner Sicht - "Problemfälle" habe ich oben markiert...

Bedenkzeit: wirklich 10 Sekunden pro Partie? Wie stellt man das unter CB-GUI (ich denke Du meinst ein Fritz-Programm?) ein? Die BZ ist schon extrem, dafür sind GUI wie Fritz, Arena oder Shredder Classic nicht ausgerichtet. Dafür sollte man eher LittleBlitzer oder clutechess-cli benutzen, die ohne den grafischen "Schnick-Schnack" auskommen

Hash: für so eine Extrembedenkzeit sind die Hashtabellen viel zu groß gewählt, 128 MB reichen völlig, vielleicht sogar 64

GUI: Von allen verfügbaren Oberflächen hast Du die für Enginetests mit Abstand schlechteste ausgesucht

By Ralf Mueller Date 2015-09-18 18:41

Danke für deinen konstruktiven Beitrag.
Ich werde den Test unter folgenden Bedingungen wiederholen:

Bedenkzeit: 85'' + 4500 ms (durchschn. Partielänge: 12 Minuten)
Hash: 256 MB
GUI: LittleBlitzer
Opening Book: 2moves_v1.pgn

Irgendwelche Einwände?

By Hauke Lutz Date 2015-09-18 18:51

Grundsätzlich sollte die Basiszeit um mindestens Faktor 80 größer als der Fischerbonus sein.
Soweit du eine Partiedauer von 12 Minuten anstrebst empfehle ich mit 240"+2000ms spielen zu lassen.

Gruß
Hauke

By ? Date 2015-09-18 18:59

Hauke Lutz schrieb:

Grundsätzlich sollte die Basiszeit um mindestens Faktor 80 größer als der Fischerbonus sein.
...

Warum? Wo steht das geschrieben? Welche Erkenntnisse gibt es dazu? Ist das Ergebniss mit dem Faktor 90 anders als mit 70 oder mit 100 als mit 60? Gibt es dazu mehr als "ästethische" Gründe? Irgendetwas mit Substanz?

Gruß
Ingo

By Hauke Lutz Date 2015-09-18 22:55

Kennst du einen Tester der mit Faktor 70 oder kleiner arbeitet und seine Ergebnisse veröffenlicht?

By Dithyrambus Date 2015-09-18 23:12

Beantworte doch bitte Ingos fragen:

Warum? Wo steht das geschrieben? Welche Erkenntnisse gibt es dazu? Ist das Ergebniss mit dem Faktor 90 anders als mit 70 oder mit 100 als mit 60? Gibt es dazu mehr als "ästethische" Gründe? Irgendetwas mit Substanz?

Ich bin für jeden erkenntnisgewinn dankbar!

Gruß
Horst

By Hauke Lutz Date 2015-09-19 00:30 Edited 2015-09-19 00:34

Ob meine Meinung etwas mit Substanz beinhaltet muss am Ende jeder für sich beurteilen.
Ich kann jedoch sagen, dass so auch das Zeitmanagement der Engine abgeprüft wird und die Fähigkeit der Engine gefragt ist im Voraus zu Erkennen in welchem Abschnitt der Partie es sinnvoll ist eine Stellung besonders intensiv zu analysieren.
Meiner Meinung nach erhöht das die Wahrscheinlichkeit einschätzen zu können wie sich die Engine im Laufe einer Turnierpartie verhalten würde, da so das Verhältnis von Basiszeit und Fischerbonus an Turnierpartien angeglichen wird.
Beim TCEC wird mit 120'+30" also Faktor 240 gespielt. Das Verhältnis ist nur 3x so hoch wie mein Vorschlag. Gehen wir jedoch von 85"+4500ms aus, dann haben wir einen Faktor 19 der bereits um Faktor 12 vom TCEC abweicht.
Das lässt sich gut in der Partie von Houdini - Chiron (Stage 2, Runde 5) sehen. Hier hat Chiron bei Zug 11 um 2 Halbzüge tiefer gerechnet als bei Zug 10 und dabei ca. 3x so viel Zeit verbraucht wie bei den Zügen davor um dann festzustellen, dass er seine Lage um 78cp überschätzt hatte. Mit einer Bedenkzeit von 45'+150" wäre es möglicherweise nicht zu dieser Lage gekommen, da Chiron sich dank dem Fischerbonus mehr Zeit für Eröffnung genommen hätte.
Meine Befürchtung ist deshalb, dass sich so etwas in vielen Bulletpartie passieren und einer Engine dadurch eine Spielstärke bescheinigen könnte, die sie eigentlich nicht hat.

Gruß
Hauke

By Ingo B. Date 2015-09-19 08:20

Hauke Lutz schrieb:

Ob meine Meinung etwas ...
Ich kann jedoch sagen, dass so auch das Zeitmanagement der Engine abgeprüft wird ...
Meiner Meinung nach ...
...

Kurz zusammengefasst ist das dass, was du oben noch als 'Grundsätzlich' bezeichnet hast:
Wenn man jetzt noch davon ausgeht das der Fall, auf den du dich oben beziehst, zwei mal das selbe Zeitmanagement umfasst (weil praktisch identische Engines), ZM also völlig irrelevant ist, bleibt nichts übrig was man mal fassen könnte. (und selbst das Zeitmanagementargument ist in sich dünn, weil auch da Fakten fehlen).
Schade eigentlich, ich fände eine ordentliche Untersuchung diesbezüglich schon interressant auch wenn ich keine Ahnung habe wie das gehen sollte.

Ingo

By Hauke Lutz Date 2015-09-19 09:26

Interesse von meiner Seite besteht auch, aber ohne GUI die es möglich macht unterschiedliche Bedenkzeiten für die Engines einstellen lässt sich leider nichts machen.

By Ralf Mueller Date 2015-09-19 23:20 Edited 2015-09-19 23:51

Hatte heute eine Idee, wie ein Bedenkzeitvergleich aussehen könnte und habe bereits erste Tests laufen. Die Grundidee ist, zu ermitteln, unter welcher Bedenkzeitregelung die Spielqualität am höchsten ist, wenn die Partiedauer identisch ist.

Im konkreten heißt das: Ich führe ein identisches Match unter verschiedenen Zeitkontrollen durch, die allerdings alle die gleiche durchschnittliche Partielänge (gemessen in Zeit) haben und vergleiche anschließend die Ergebnisse. Bedeutet: Ich bekomme in der gleichen Zeit gleich viele Partien, nur mittels unterschiedlicher Zeitkontrollen.
Als Match lasse ich eine aktuelle Stockfishversion gegen sich selber spielen, um alle Störfaktoren, die durch unterschiedlich starke Engines kommen, zu beseitigen und mir sicher sein zu können, dass das gewünschte Matchresultat ein Unentschieden ist.
Als durchschnittliche Partielänge habe ich enherungsweise ine Minute gewählt - da es hier nicht um das Spielstärkeverhältnis untereinander geht, was im Selbsttest immer identisch ist, denke ich, dass man hier durchaus "extrem" testen kann, um schnell viele Daten zur Auswertung zu gewinnen.

Anschließend stelle ich fest, unter welcher Zeitkontrolle die höchste durchschnittliche Spielqualität erreicht wurde (gemessen durch Remisquote und durchschnittlich erreichte Tiefe). Die Bedenkzeitregelung mit der höchsten Spielqualität ist meiner Ansicht nach auch die, die das statistisch beste Ergebnis erzielt.
War das verständlich?

Ich melde mich, wenn ich erste Ergebnisse habe!

By Frank Brenner Date 2015-09-20 00:59

Die größte Gesamtspielstärke wirst du erzielen wenn die durchschnittliche Bedenkzeit am Anfang der Partie am größten ist und im Laufe der Partie immer weiter abnimmt.

Die Steilheit des Gefälles ist aber noch ein variabler Parameter.

Diesen kannst du aber durch deine Experimente nicht ermitteln, da die externe Zeiteinteilung mit der internen engine spezifischen Zeiteinteilung konkurriert.

By Ralf Mueller Date 2015-09-18 19:17

Hallo Hauke,

weswegen Faktor 80? Ich bin ein Fan von sehr hohen Boni, damit die aufgewandte Bedenkzeit schön gleichmäßig auf die Partie verteilt ist und nicht zum Ende auf einmal weniger wird.

By Hauke Lutz Date 2015-09-18 19:18

So wird das Zeitmanagement der Engine mit abgeprüft.

By Ralf Mueller Date 2015-09-18 19:26 Edited 2015-09-18 20:06 Upvotes 1

Da ich Engines nur zum Analysieren verwende, ist das Zeitmanagement für mich nicht wichtig. Mit den hohen Boni möchte ich den Einfluss des Zeitmanagements verringern.

By GS Date 2015-09-18 19:56

12 Minuten pro Partie = 5 Partien pro Stunde.
Für 1000 (resp. 999) Games wird dies also 200 Stunden = ca. 8.3 Tage dauern.
Viel Spass dabei und vor allem = "dran bleiben".

By Ralf Mueller Date 2015-09-18 20:01

Hallo Gerhard,

ich habe vier Kerne zur Verfügung und lasse auf drei von ihnen jeweils eine Partie gleichzeitig laufen. Kann also drei Partien gleichzeitig spielen und bin dadurch glücklicherweise dreimal so schnell fertig.

By Wolfgang Battig Date 2015-09-19 01:15

nein, Euer Ehren...

Den Faktor Grundzeit <=> Bonuszeit würde ich - wie Hauke Lutz - zwar auch etwas größer ansetzen. Diesen Faktor sehe ich aber nicht kritisch zumal es keine relevanten Erhebungen dazu gibt, was nun optimal ist. Bei IPON und CEGT ist es bei der 5'+3"-Liste Faktor 100. Ob das nun optimal ist oder mehr oder weniger? Who knows? Genauso kann man auch Deiner Argumentation mit der gleichmäßigen Verteilung folgen. Von daher alles im grünen Bereich...

By Kai Date 2015-09-19 07:30

Wenn der Faktor zu niedrig ist, dann befindet sich die Engine von Anfang an in einer Art Zeitnot.
Nimm mal an wir spielen mit 4s+4s. Dann hat die Engine zwar für 40 Züge 40*4=160s Zeit, aber kann sich diese Zeit nicht einteilen für schwierige/gute Züge, weil sie erstmal den ersten Zug innerhalb 4 Sekunden spielen muss.
Die Engine wird also viel schneller als 4s im Normalfall ziehen, um wieder etwas Polster zu haben für später. Bei den üblicherweise genutzten Zeiteinstellungen wie 4m+2s hast du solche Probleme nicht und die Engine kann für den ersten Zug mehr als 4 Sekunden nutzen und später in nicht entscheidenden Stellungen schneller ziehen.

By Ralf Mueller Date 2015-09-19 13:16

Zitat:

Bei den üblicherweise genutzten Zeiteinstellungen wie 4m+2s hast du solche Probleme nicht und die Engine kann für den ersten Zug mehr als 4 Sekunden nutzen und später in nicht entscheidenden Stellungen schneller ziehen.

Da muss die Engine dann bei Aufbrauch der Basiszeit jeweils innerhalb von zwei Sekunden ziehen und hat noch viel extremere Zeitnot-Probleme. Meine Philosophie des großen Bonus (der auch mehrere Minuten sein kann) ist ja gerade, die Engine zu einer gleichmäßigen Zeiteinteilung zu bewegen und eine ungleiche Zeiteinteilung (am Anfang viel Zeit, am Ende weniger) zu umgehen - denn für meinen Benutzungszweck, der Analyse, ist das Zeitmanagement schlichtweg egal.

By Peter Osthoff Date 2015-09-18 22:15

Wie kommt man eigentlich an den Source Code von den Sugar-Engines ran? Laut Beschreibung auf der Titelseite soll der Quellcode-Ordner im Datenpaket dabei sein, ist es aber nicht.
Ich würde die Engine nämlich gerne für Linux kompilieren. Abgesehen davon wäre es eine Lizenzverletzung von Stockfish, den Sourcecode nicht bereitszustellen...

By Ralf Mueller Date 2015-09-18 23:57

Die Sourcen sind hier zu finden: https://github.com/Zerbinati/SugaR-Chess-PrO

By Peter Osthoff Date 2015-09-19 01:18

Danke. Jetzt scheitert aber die Kompilation an der Sugar-spezifischen Datei opt.cpp (in Stockfish nicht vorhanden, dort klappt Kompilation einwandfrei).

Code:

opt.cpp: In function ‘void SETUP_PRIVILEGES()’:
opt.cpp:86:6: error: redefinition of ‘void SETUP_PRIVILEGES()’
 void SETUP_PRIVILEGES(){}
      ^
opt.cpp:39:6: error: ‘void SETUP_PRIVILEGES()’ previously defined here
 void SETUP_PRIVILEGES(){}
      ^
make[1]: *** [opt.o] Error 1

Suche im Internet ergab, dass jemand schon mal Hilfe bei dem Problem gesucht hat, aber eine Lösung für das Problem unter Linux habe ich jetzt nicht gefunden...
http://www.chess2u.com/t9092p30-sugar-new-uci-engine-based-on-stockfish

By tobias Date 2015-09-19 10:42

An den entsprechenden Stellen hier https://github.com/Zerbinati/DeepFishMZ/commit/eb53c4c84a3cf14b820b11d347fe4d54d1a6d069 habe ich #ifdefs gesetzt und bin nun in der Lage mit Sugar unter Linux zu arbeiten. Allerdings funktionieren nun die LargePages nicht mehr. Ich hoffe, dass ich nichts übersehen habe. Ich bin selbst kein Programmierer, sondern habe erst in letzter Zeit angefangen mir ein paar Dinge selbst beizubringen.

Anbei die geänderte Version:

https://www.sendspace.com/file/p3ba9o

By Anonymous Date 2015-09-20 09:06

Du kreierst Dir einen Account auf https://github.com und meldest den Fehler unter
https://github.com/Zerbinati/SugaR-Chess-PrO/issues

Dann bekommt der Autor Bescheid und korrgiert den Fehler (evtl.).

By Thomas Plaschke Date 2015-09-18 22:17

Ich habe mit den "Originalen" mit Cutechess bei tc=10"+1 getestet bei 64MB Hash. Sugar ist 2mal abgestürzt.
Ich werde die Kontrahenten noch mal ausprobieren, aber selber kompilieren, um irgendwelche etwaigen verrückten Compilereinstellungen als Ursache für den Absturz auszuschließen. Da aber zu Sugar der Quellcode nicht mit geliefert wird(!), musste ich mir den von der aktuellen Version erst zurecht stoppeln. - Was aber nicht schwierig war, da es sich im Wesentlichen nur um 4(!) unterschiedliche Programmzeilen handelt. Zum Abbruch stand es so:

Code:

     Program                          Elo    +   -   Games   Score   Av.Op.  Draws
  1 Stockfish-150915               : 3214   46  46   124    54.0 %   3186   43.5 %
  2 SugaR-150909 (m. Setting)      : 3186   46  46   124    46.0 %   3214   43.5 %

Wie bei so vielen Settings finde ich: Viel Rauch um nichts. Aber vielleicht beim nächsten Mal oder mit mehr Partien.

Viele Grüße
Th. Plaschke

By Ralf Mueller Date 2015-09-18 23:55 Edited 2015-09-18 23:58

Hallo Thomas,

vielen Dank für deinen Aufwand. Ich bin noch am testen, kann aber ebenfalls wie befürchtet mein erstes Ergebnis unter anderen GUIs und Bedingungen bisher so nicht reproduzieren. Ich vermute, dass der Wurm tatsächlich im Zweikampf-Modus der Chessbase-Oberfläche liegt, der es offenbar mit den Einstellungen zur Ressourcennutzung nicht so genau nimmt. Ist für mich als Student natürlich ärgerlich, so viel Strom verschwendet zu haben.

Habe nun noch den längeren Test unter der Little Blitzer GUI laufen und werde schauen, wie er sich entwickelt. Nach 43 Partien liegen beide Engines noch gleichauf.

Auch, wenn wohl das Wundersetting spielstärkemäßig ausbleibt, ist es immer noch ein spielstilmäßig sehr schönes Setting, das hervorragend für taktische Teststellungen verwendet werden kann, tolle Angriffspartien produziert und von der Spielstärke her wahrscheinlich immer noch mind. gleichauf mit Komodo 9 liegt.

PS: Die Sourcen findest du hier: https://github.com/Zerbinati/SugaR-Chess-PrO

By Ralf Mueller Date 2015-09-19 04:50

Habe den Test jetzt beim Stand von 50-44 für Stockfish abgebrochen, da offensichtlich ist, dass mein erster Test nicht zutreffend ist und alles andere ist für mich irrelevant.

Anyway, wer Lust auf ein schönes, spielstarkes Setting hat (scheint wirklich kaum schwächer als Stockfish zu sein), kann fleißig damit experimentieren.

Vielen Dank für die Mithilfe und bitte entschuldigt eventuelle Unannehmlichkeiten. Für mich war es auf jeden Fall erkenntnisreich.

By Kai Date 2015-09-19 07:35

Also viel Rauch um nichts. Das "Fantastische" Setting wird nach weiteren 94 Partien ad acta gelegt.
Was meinst du warum bei den ganzen Ranglisten-Erstellern so viele Partien gegen soviele verschiedene Gegner gespielt wird?
Da wird auch keiner nach 500 Partien gegen einen Gegner unter dubiosen Bedingungen eine "reißerische" Nachricht posten.
Erst recht wenn es sich um völlig verjustierte Standard-Parameter handelt.

By Ralf Mueller Date 2015-09-19 13:09 Upvotes 1

Hallo Kai,

nicht nach weiteren 94 Partien, dazu kommen noch die 124 von Thomas und noch eigene Tests mit dem Chessbase-Zweikampf-Modus, die ich inzwischen gemacht habe.

Ich habe von Anfang an infrage gestellt, dass das sein kann - sogar im Thread-Titel. Mir jetzt irgendwas reißerisches zu unterstellen, halte ich nicht für fair. Ich habe mir sehr viel Mühe gemacht und mehrere Tage lang 1000 Partien spielen lassen, die eben mit einem für mich überraschenden Resultat endeten. Und diese Überraschung wollte ich gerne mitteilen.
Verstehe nicht, dass sich jetzt einige so belästigt fühlen.

By Thomas Plaschke Date 2015-09-19 13:54 Upvotes 1

Über die Nacht sind noch 280 Partien gegen die Dev-Version vom 17. dazu gekommen. Die Tendenz verstärkt sich: Die Parameter machen Sugar nicht stärker als Stockfish.

Code:

    Program                          Elo    +   -   Games   Score   Av.Op.  Draws
  1 Stockfish-150915               : 3216   46  46   124    54.0 %   3188   43.5 %
  2 Stockfish-150917               : 3209   29  28   280    53.0 %   3188   51.1 %
  3 SugaR150909                    : 3188   24  24   404    46.7 %   3212   48.8 %

Allerdings habe ich Sugar ohne Parameter gegen diese Engines nicht getestet. - Was über längere Strecken wegen seiner Neigung zu Abstürzen (wieder mehrere 3 oder 4) heikel sein könnte (Bei Cutechess führt das zu Problemen mit der Turnierdurchführung).

Viele Grüße
Th. Plaschke

By Ralf Mueller Date 2015-09-19 14:44

Vielen Dank!
Dennoch interessant, dass der Unterschied nur 20-30 Punkte zu betragen scheint. Intuitiv würde man ja bei den großen Parameteränderungen einen viel größeren Unterschied erwarten. Damit liegt diese Version immer noch gleichauf mit Komodo 9.

By Hauke Lutz Date 2015-09-19 14:08 Upvotes 1

Entspricht den Fakten.

By GS Date 2015-09-19 09:51

Eine Antwort fehlt noch auf die Frage von Wolfgang:
"Bedenkzeit: wirklich 10 Sekunden pro Partie? Wie stellt man das unter CB-GUI (ich denke Du meinst ein Fritz-Programm?) ein?"
(http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=95260#pid95260)
?

By Ralf Mueller Date 2015-09-19 13:11

10 Sekunden Basis-Zeit plus eine Sekunde Aufschlag. So extrem ist das nicht, das ist noch nicht mal Bullet von der durchschnittlichen Partielänge her. Durch den Bonus kommen die Engines auch nicht in Zeitnot.
Kann man einstellen, indem man bei Fritz als Basiszeit "0" Minuten eingibt - dann setzt er automatisch 10 Sekunden.

By Roland Riener Date 2015-09-19 16:44 Upvotes 1

Tester, bitte weitergehen, hier gibt es nichts zu sehen!

Hatte bisher noch keine Sugar-Version geladen, vor diesem Hintergrund habe ich es gemacht. Zur Gewinnung eines eigenen Eindrucks habe ich die Default-Version und das Setting von Ralf unter gleichen Bedingungen Mini-Turniere spielen lassen.

i3 auf Fritz 14 GUI, PO, Bedenkzeit 2 Min + 2 Sek, Hash 256, EB Perfect 2015 auf 6 Züge (thanks Sedat btw), ohne TB

Hauptsächlich fällt mir auf, daß das Setting risikofreudiger spielt und daher weniger remislastig ist. Werde das Setting mal drin lassen. Danke, Ralf!

Sugar default   2015

                                1    2    3    
1   Stockfish 110515 64 POPCNT  **** ½1½½ ½011   5.0/8
2   SugaR PrO 090915 64 POPCNT  ½0½½ **** ½½½½   3.5/8  14.50
3   Komodo 9.1 64-bit           ½100 ½½½½ ****   3.5/8  14.50

Sugar Setting R.M.   2015

                                1    2    3    
1   Stockfish 110515 64 POPCNT  **** 0½1½ 1½10   4.5/8
2   SugaR PrO 090915 64 POPCNT  1½0½ **** 0101   4.0/8
3   Komodo 9.1 64-bit           0½01 1010 ****   3.5/8

Gruß, Roland

By Thomas Plaschke Date 2015-10-08 23:38

Ich habe noch ein bisschen weiter getestet und eigene Settings ausprobiert:

Code:

   # PLAYER                 : RATING  ERROR   POINTS  PLAYED    (%)   CFS(next)
   1 Stockfish-150919       :   3200      7   3435.0    6555   52.4%      56
   2 SugaR150916-SetTP-c    :   3199     11   1025.5    2013   50.9%      67
   3 SugaR150916            :   3197      9   1358.5    2698   50.4%      97
   4 SugaR150916-SetTP-e    :   3186     10    953.0    1967   48.4%      79
   5 SugaR150916-SetTP-d    :   3181     12    653.0    1367   47.8%      59
   6 SugaR150916-SetRM      :   3179     11    895.5    1900   47.1%      85
   7 SugaR150916-SetTP-a    :   3163     28     89.5     200   44.8%      58
   8 SugaR150916-SetTP-g    :   3159     21    177.0     400   44.3%      53
   9 Komodo 9.1             :   3157     39     44.0     100   44.0%      56
  10 SugaR150916-SetTP-f    :   3154     23    130.5     300   43.5%      61
  11 SugaR150916-SetTP-b    :   3148     31     67.5     158   42.7%     ---

White advantage = 36.82 +/- 2.31
Draw rate (equal opponents) = 64.59 % +/- 0.53

Ich habe mit der Sugar-Version vom 16.9. getestet. Alle Programme (außer Komodo?) wurden mit Visual C++ erstellt. Die minGW-Compiles von Sugar liefen nicht stabil und damit die Stockfish-Version keinen Geschwindigkeitsvorteil hat, habe ich die ebenfalls mit VIsual C++ erstellt.
SugaR150916-SetRM sind Ralf Müllers Parameter, die er mit der Version vom 09.09. getestet hat. SugaR150916-SetTP-[a-g] sind meine Test-Settings.
Ich habe verschiedene Settings getestet und die "besseren" im Test gehalten. Der Test lief überwiegend als Gauntlet gegen Stockfish-150919 bei 60"+0.5". Letztlich handelt es um einen Mix verschiedener Tests mit den gelisteten Programmen bzw. Versionen.
Nach dieser Auswertung habe ich ein Setting gefunden, dass möglicherweise etwas besser als gleichwertig mit dem Original-Sugar ist.
Ein genauerer Blick lässt Ernüchterung eintreten.

Code:

   # PLAYER                 : RATING  ERROR   POINTS  PLAYED    (%)   CFS(next)
   1 Stockfish-150919       :   3200     12    421.5     830   50.8%      67
   2 SugaR150916            :   3195     15    208.0     415   50.1%      54
   3 SugaR150916-SetTP-c    :   3195      7   1024.0    2011   50.9%      93
   4 SugaR150916-SetRM      :   3176     21    101.5     214   47.4%      59
   5 SugaR150916-SetTP-d    :   3173     19    129.5     276   46.9%      70
   6 SugaR150916-SetTP-e    :   3165     19    126.5     276   45.8%     ---

White advantage = 30.28 +/- 4.13
Draw rate (equal opponents) = 74.51 % +/- 1.00

Jetzt ist Setting "c" nur noch auf gleicher Höhe. Aber der Kopf-an-Kopf-Vergleich stellt klar:

Code:

Head to head statistics:

1) Stockfish-150919    3200 :    830 (+121,=601,-108),  50.8 %
   vs.                       :  games (   +,   =,   -),   (%) :   Diff,   SD, CFS (%)
   SugaR150916-SetTP-c       :    830 ( 121, 601, 108),  50.8 :     +5,    6,   80.8

2) SugaR150916         3195 :    415 (+52,=312,-51),  50.1 %
   vs.                       :  games (  +,   =,  -),   (%) :   Diff,   SD, CFS (%)
   SugaR150916-SetTP-c       :    415 ( 52, 312, 51),  50.1 :     +1,    9,   54.2

3) SugaR150916-SetTP-c 3195 :   2011 (+288,=1472,-251),  50.9 %
   vs.                       :  games (   +,    =,   -),   (%) :   Diff,   SD, CFS (%)
   Stockfish-150919          :    830 ( 108,  601, 121),  49.2 :     -5,    6,   19.2
   SugaR150916               :    415 (  51,  312,  52),  49.9 :     -1,    9,   45.8
   SugaR150916-SetRM         :    214 (  36,  153,  25),  52.6 :    +18,   12,   93.2
   SugaR150916-SetTP-d       :    276 (  45,  203,  28),  53.1 :    +22,   11,   97.7
   SugaR150916-SetTP-e       :    276 (  48,  203,  25),  54.2 :    +29,   11,   99.6

4) SugaR150916-SetRM   3176 :    214 (+25,=153,-36),  47.4 %
   vs.                       :  games (  +,   =,  -),   (%) :   Diff,   SD, CFS (%)
   SugaR150916-SetTP-c       :    214 ( 25, 153, 36),  47.4 :    -18,   12,    6.8

5) SugaR150916-SetTP-d 3173 :    276 (+28,=203,-45),  46.9 %
   vs.                       :  games (  +,   =,  -),   (%) :   Diff,   SD, CFS (%)
   SugaR150916-SetTP-c       :    276 ( 28, 203, 45),  46.9 :    -22,   11,    2.3

6) SugaR150916-SetTP-e 3165 :    276 (+25,=203,-48),  45.8 %
   vs.                       :  games (  +,   =,  -),   (%) :   Diff,   SD, CFS (%)
   SugaR150916-SetTP-c       :    276 ( 25, 203, 48),  45.8 :    -29,   11,    0.4

Kein positiver Saldo gegen das Original.

... aber besser als das von Ralf Müller

Viele Grüße
Th. Plaschke