Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Test der aktuellen Stockfish Version vom 29.07
1 2 Previous Next  
- - By Thomas Zipproth Date 2013-07-30 14:26
Anbei ein Test der aktuellen Stockfish Version vom 29.07, stockfish_13072901_x64_modern_sse42.exe

Stockfish ist auf dem Level von Komodo angekommen.
Interessant ist, das Stockfish Komodo schlägt, aber im Vergleich zu Houdini deutlich schlechter abschneidet als Komodo.
Könnte daran liegen, das Komodo sehr intensiv gegen Houdini getestet worden ist.
Wenn die aktuelle Entwicklung so anhält, müßte Stockfish bald die klare Nr. 2 sein und mittelfristig auch die Spielstärke von Houdini 3 erreichen.

Elostat, Startwert = 3100: 

  Programm           ELO     Partien

1 Houdini 3           : 3133  2000 (+712, =856, -432), 57.0 %
2 Komodo cct       : 3085  2000 (+461, =947, -592), 46.7 %
3 Stockfish 29.07  : 3083  2000 (+454, =943, -603), 46.3 %

Individuelle Resultate:

1.  Houdini 3           559.0/1000   +344 -226 =430
2.  Komodo cct       441.0/1000   +226 -344 =430

1.  Houdini 3           581.5/1000   +368 -206 =426
2.  Stockfish 29.07   419.5/1000   +206 -368 =426

1.  Komodo cct        493.5/1000   +235 -248 =517
2.  Stockfish 29.07   506.5/1000   +248 -235 =517

Bedingungen:

1 Core, 256 MB Hash, Buch: fq500n.pgn mit 500 Stellungen
Client: LittleBlitzer mit Gauntlet Mode, 2 * 500 Partien mit wechselnden Farben.

Bedenkzeit: 90.00 Sek. + 1.00 Sek. pro Partie, durchschnittliche Partie Dauer: 330 Sekunden

Hardware: Core I7 3700k @ 3.9 GHz, Fritzmark: 30.75 14759
Parent - - By Frank Quisinsky Date 2013-07-31 01:35
Hallo Thomas,

bin hier auch SF Partien am verfolgen und sitze gebannt am PC.
Irgendwie scheint bei SF aber immer noch ein Problem in der Engine zu sein, die viele Punkte kostet.

Vergleichbar zu SF 2.1.1 PHQ bzw. auch ohne PHQ Setting.
SF hat einen kleinen Vorteil ... z. B. 0,5 ... verliert den Vorteil in den kommenden 3 Zügen und versucht dann durch Opferkombinationen eine dreifache Stellungswiederholung zu erreichen. Das waren jetzt bei gesehenen 25 Partien direkt 3 Partien die so Remis endeten. Wie einst bei SF, als ob es speziellen Code hierfür gibt. Besser wäre es aufgrund der Endspielstärke nicht zu versuchen in eine dreifache Stellungswiederholung einzuwilligen bzw. diese aggressiv zu versuchen zu erreichen. Schon seinerzeit ist mir das aufgefallen und kostet gerade gegen schwächere Engines viele ELO Punkte.

Gruß
Frank

PS:
Gegen Spark 1.0 x64 8 Cores (beide ohne Ponder, SF vom 28.07.2013) endete ein 10 Partien Match (40 Züge in 10 Minuten) 8,5 : 1,5 und hätte 9,5 : 0,5 enden können!!
Im zweiten laufenden Match SF 2.1.1 PHQ x64 8 Cores - SF vom 29.07.2013 8 Cores auch wieder eine solche Partie dabei ... steht jetzt 21.0 : 6.0 !!
Parent - - By Tom Paul Date 2013-07-31 05:39
Ja das ist ein Problem für Stockfish, da fährt Houdini gegen Spark 1.0 alle Punkte ein (glaube ich).
Stockfish scheint auch bein anderen Engines mehr Punkte zu verschenken als Houdini.
Deshalb vermute!! ich, das liegt am takischem Niveau, da die Engines damals in dieser Art und Weise programmiert wurden, während H3 100 von 100 taktischen Aufgaben richtig löst, löst Stockfish nur 90 vs 100.

Das nTCEC ist doch ein tolles Turnier zum zuschauen, alle miteinander und auch der Chat ist vorhanden, nur ein paar Kleinigkeiten könnte man verbessern.
Parent - - By Benno Hartwig Date 2013-07-31 05:54
[quote="Tom Paul"]Ja das ist ein Problem für Stockfish, da fährt Houdini gegen Spark 1.0 alle Punkte ein (glaube ich).
Stockfish scheint auch bein anderen Engines mehr Punkte zu verschenken als Houdini.[/quote]Wenn das stimmen sollte, dann müsste sich das z.B. in den Resultaten der IPON-Liste zeigen.
Dann müsste SF gegen die Schwachen unterdurchschnittlich ELO einfahren, gegen die Starken überdurchschnittlich.
Mir war das so aber nicht aufgefallen!

Benno
Parent - By Frank Quisinsky Date 2013-07-31 06:20 Edited 2013-07-31 06:28
Hallo Benno,

im Grunde einfach herauszufiltern mittels Datenbank (habe noch keine installiert).
Schrieb ich seinerzeit Marco aber schon in TalkChess beim PHQ Test (übrigens in den Folgeversionen nach 2.1.1 sind 2 Settings von PHQ in Standard übernommen wurden, schrieb Marco in CCC, die Settings führten zu klar besseren Resultaten, insofern macht es keinen Sinn PHQ auf aktuelle Versionen anzuwenden).

Mal suchen lassen nach Remis Partien unter 35 Zügen.

Bei stärkeren Engines sollte der Code für Remis schärfer eingestellt sein, also versuchen Remis zu vermeiden.
Dann würde SF auch mit der Opferei aufhören um ein Remis zu erreichen.

Im Grunde macht es die Engine wenn Züge vorher ein leichter Plus vorhanden war und es dann etwas zurück geht.
Logischer Weise ... wenn Vorteil verspielt dann versuchen Remis zu erreichen. Und so aggressiv wie SF es macht muss das mit dem Code zusammenhängen, denn das war mir damals schon bei den ganzen Statistik Analysen aus den SWCR Daten bei keiner anderen Engines so krass aufgefallen als bei SF.

Beim Ratinglisten Test könnte das durchaus mindestens 5, eher um 10 ELO ausmachen, zumal SF ja schon im Mittelspiel beginnt in solchen Stellungen nach Remis zu suchen. Im Vergleich im Engine-Engine Match gegen stärkere Gegner wird dieser Fehler natürlich eher weniger auffallen.

Marco sollte sich mal die Remisparameter vornehmen bzw. den Code mit seinen Partnern / Helfern besprechen.

Gruß
Frank
Parent - - By Stefan Pohl Date 2013-07-31 06:40
[quote="Frank Quisinsky"]
Hallo Thomas,

bin hier auch SF Partien am verfolgen und sitze gebannt am PC.
Irgendwie scheint bei SF aber immer noch ein Problem in der Engine zu sein, die viele Punkte kostet.

Vergleichbar zu SF 2.1.1 PHQ bzw. auch ohne PHQ Setting.
SF hat einen kleinen Vorteil ... z. B. 0,5 ... verliert den Vorteil in den kommenden 3 Zügen und versucht dann durch Opferkombinationen eine dreifache Stellungswiederholung zu erreichen. Das waren jetzt bei gesehenen 25 Partien direkt 3 Partien die so Remis endeten.

[/quote]

Hi Frank,

Die neueren Stockfish development Versionen haben den Parameter Contempt Factor (Remisfaktor). Probier doch mal den hoch zu setzen. Da Stocki recht extrem bewertet, würde ich mindestens auf +35 setzen (+/-50 ist das erlaubte Maximum glaube ich)...

Stefan
Parent - - By Frank Quisinsky Date 2013-07-31 06:53
Hallo Stefan,

ja, werde ich ausprobieren.
Habe gerade in TalkChess Marco darauf hingewiesen. Hoffe er versteht mein Fränkisch.

Danke.
2 Jahre nichts gemacht und ich sitze hier und habe wirklich fast alles vergessen, wie irgend etwas konfiguriert wird / eingestellt wird.
Schande ...

Gruß
Frank
Parent - - By Stefan Pohl Date 2013-07-31 07:02
[quote="Frank Quisinsky"]
Hallo Stefan,

ja, werde ich ausprobieren.
Habe gerade in TalkChess Marco darauf hingewiesen. Hoffe er versteht mein Fränkisch.

Danke.
2 Jahre nichts gemacht und ich sitze hier und habe wirklich fast alles vergessen, wie irgend etwas konfiguriert wird / eingestellt wird.
Schande ...

Gruß
Frank
[/quote]

Hauptsache du bist wieder da (hab ich doch gesagt: du kommst wieder!). Und zum Trost: Bevor/als du dich ausgeklinkt hast, hatte Stocki den Parameter Contempt Factor noch gar nicht...So vergesslich bist du also (noch) nicht...

Stefan
Parent - - By Frank Quisinsky Date 2013-07-31 08:26 Edited 2013-07-31 08:28
Hi Stefan,

na ja, so richtig kann ich mich noch nicht wieder begeistern.
Überwinde derzeit so eine Schwelle mich dann doch mehr mit Schach zu beschäftigen.
Letztendlich der Grund warum ich mir den neuen Rechner zugelegt habe, der animiert mich und natürlich noch mein "ewiger Schachfreund" der sich darüber auch freut.

Werde mir jetzt mal Scid installieren.
Nachdem ich seinerzeit keinen ChessBase Support auf meine Registriernummern erhalten habe setze ich die Software nicht mehr ein.
Scid reicht mir dann sicherlich auch aus für die ganze Statistik.

Das ist so ein Hauptpunkt. Nutzte die ChessBase Datenbank während meiner ganzen Zeit recht begeistert.
Datenbank ist mein Hauptwerkzeug weil es mich immer mehr gereizt hat die Engine-Engine Partien auch auszuwerten bzw. hier etwas über das Spielverhalten festzustellen.
Dafür brauche ich natürlich eine gute Datenbank und damit steht und fällt mein Interesse.

Übrigens, hatte im letzten Jahr Deine Ratingliste hier im Forum beobachtet.
Finde ich gut und informativ.
Deine Arbeit ist also eine richtig schöne Ergänzung für die Engine Community.

Viele Grüße
Frank
Parent - - By Joe Boden Date 2013-07-31 08:52
Schön Frank, dass Du mal wieder etwas Lust bekommen hast, Dich mit Computerschach zu beschäftigen und hier auch wieder zu posten. The virus returns! I'snt it?

Was den neuen Stockfish anbetrifft habe ich die Entdeckung gemacht, dass dieser in Blitzmatches gegen Houdini 3 so ca. 50 % holt. Und das mir schöner Regelmässigkeit. In der letzten Staffel hat Stocki sogar lt. Shredderauswertung 23 Elo bzw. 2 Gewinnpartien mehr. Die Hinweise verdichten sich, auch was andere Tester hier posten, dass Stocki wohl auf Houdini 3-Niveau angekommen sein könnte. Das hätte ich so schnell noch nicht erwartet.

Habe mal mit verschiedenen Settings getestet. Aber zu meiner Überraschung hat das keinen Einfluss auf die Erfolgsquote gehabt. Es bleibt bei ca. 50 % in den Matches.
Parent - By Frank Quisinsky Date 2013-07-31 09:00 Edited 2013-07-31 09:02
Hallo Joe,

seinerzeit als Tord noch mehr an SF programmiert hatte schrieb Gian-Carlo (Sjeng), dass die Settings noch gar nicht ausgereizt sind und dies sicherlich weit über 100 ELO ausmachen könnte. Im Laufe der letzten Jahre ist das sicherlich auch geschehen. Die Frage heute ist ja wie kann bei den enorm hohen Spielstärken überhaupt noch etwas optimiert werden und hier geht es nicht mehr um 30 ELO sondern wirklich um jedes Pünktchen, so schwierig das auch auzutesten ist, denn es sind Tausende von Partien notwendig. Bei einem Test gegen eine Engine kann das nicht festgestellt werden. Hatte bei der SWCR mal festgestellt, dass die Schwelle bei einem guten Test ca. 18-22 Gegner sind bzw. die Zahlen sich dann erst verdichten. Ist ja auch einfach nachzuvollziehen mittels Datenbanken (Hast Du einen Test gegen 30 Engines mit gleicher Partiezahl) einfach Ergebnisse herausnehmen und ELO neu berechnen lassen. Schwelle ist dann sehr einfach zu erkennen.

Wenn eine Engine dann z. B. gegen Houdini und Komodo ca. die gleiche Spielstärke hat aber dennoch 50 ELO hinterherhinkt muss es ja Gründe geben. Das sagt uns dann z. B. eine Ratingliste sehr schön aus. Ich vermute, dass gerade taktische Engines solche Probleme haben. Bei Komodo würde ich gar nicht auf die Idee kommen, denn die Engine spielt zu ausgeglichen, ruhig. Da wird es z. b. eher wenig bringen einen Contempt Faktor zu beeinflussen.

Gruß
Frank
Parent - By Stefan Pohl Date 2013-07-31 11:08
[quote="Frank Quisinsky"]
Hi Stefan,

na ja, so richtig kann ich mich noch nicht wieder begeistern.
Überwinde derzeit so eine Schwelle mich dann doch mehr mit Schach zu beschäftigen.
Letztendlich der Grund warum ich mir den neuen Rechner zugelegt habe, der animiert mich und natürlich noch mein "ewiger Schachfreund" der sich darüber auch freut.

Werde mir jetzt mal Scid installieren.
Nachdem ich seinerzeit keinen ChessBase Support auf meine Registriernummern erhalten habe setze ich die Software nicht mehr ein.
Scid reicht mir dann sicherlich auch aus für die ganze Statistik.

Das ist so ein Hauptpunkt. Nutzte die ChessBase Datenbank während meiner ganzen Zeit recht begeistert.
Datenbank ist mein Hauptwerkzeug weil es mich immer mehr gereizt hat die Engine-Engine Partien auch auszuwerten bzw. hier etwas über das Spielverhalten festzustellen.
Dafür brauche ich natürlich eine gute Datenbank und damit steht und fällt mein Interesse.

Übrigens, hatte im letzten Jahr Deine Ratingliste hier im Forum beobachtet.
Finde ich gut und informativ.
Deine Arbeit ist also eine richtig schöne Ergänzung für die Engine Community.

Viele Grüße
Frank
[/quote]

Danke für die Blumen. Und ich war ja so frei, mir meine Eröffnungsvorgabestellungen aus deiner Datenbank zu entnehmen. Auch Thomas Zipproth und Peter Pan nutzen dieses 500er-Set, was man auf meiner Website ja downloaden kann, mittlerweile. Ich hoffe sehr, du hast nix dagegen, daß ich diesen Download anbiete?!? Falls doch, dann genügt ein kurzesPosting hier oder eine kurze Mitteilung über das Kontaktformular meiner Website und ich nehme das Download-Angebot raus. Allerdings wäre es schön, es beizubehalten, denn es hilft ja auch den Entwicklern, denn so können sie ihre Testergebnisse mit den LS-Ergebnissen vergleichen, sofern sie ihre Bedenkzeiteinstellung an meiner Hardwareleistung und meiner Bedenkzeit normieren. Das spart den Entwicklern dann einiges an eigener Testarbeit. Und wenn man als Tester den Entwicklern helfen kann, sollte man es auch tun, finde ich.
Was Scid angeht, so habe ich mir das nur mal ganz kurz angesehen, da ich für meine paar primitiven Datenbankoperationen die FritzGUI nutze, daher habe ich von dieser Software keine Ahnung, aber Kurt Utzinger nutzt sie wohl ausgiebig,  allerdings wohl eine rel. alte Version. Aber er könnte dir bestimmt Tipps geben. Evt. schreibst du ihm mal eine PM?!

Stefan
Parent - By Stefan Pohl Date 2013-07-31 11:28
[quote="Frank Quisinsky"]
Datenbank ist mein Hauptwerkzeug weil es mich immer mehr gereizt hat die Engine-Engine Partien auch auszuwerten bzw. hier etwas über das Spielverhalten festzustellen.
[/quote]

Du hast es wahrscheinlich auf meiner Website schon gelesen, aber ich wiederhole es gerne für alle auch hier nochmal: Wer die 55000 Partien des aktuellen LS-top10 tournaments haben will muß mir nur per PM oder über das Kontaktformular meiner Website seine email-Adresse mitteilen, dann maile ich die Partien gerne zu. Auch Partien einzelner Engines (auch mehrere Versionen einer Engine) kann ich aus der LS-Gamebase rausfiltern und mailen. Nur nicht die ganze Datenbank, das ist einfach zu viel "Holz".

Stefan
Parent - - By Benno Hartwig Date 2013-07-31 07:00
[quote="Stefan Pohl"]Die neueren Stockfish development Versionen haben den Parameter Contempt Factor (Remisfaktor). Probier doch mal den hoch zu setzen. Da Stocki recht extrem bewertet, würde ich mindestens auf +35 setzen (+/-50 ist das erlaubte Maximum glaube ich)...[/quote]Gegen schwache Gegner könnte das nützen, Gegen H3 müsste eher ein leicht negativer Wert gewählt werden. Gegen ungefähr gleichstarke mag '0' schon das Optimum sein.
So getunt, könnte SF in der Ratinglist noch etwas gewinnen. Allerdings sollte dann jeder(!) Gegner ähnlich liebevoll umsorgt werden, sofern er dies gestattet. Und hier würde ein menschlicher Eingriff erfolgen ("Na, da nehme ich jetzt doch einfach mal den Wert +17!"), der die Liste schon wieder fragewürdig machen würde.

Trotzdem interessant:
Mit welchem Contempt-Faktor ist SF gegen Standard-H3 am erfolgreichsten?
Mit welchem Contempt-Faktor ist SF gegen Engines am erfolgreichsten, die 100 ELO hinter SF liegen, die 200 ELO hinter SF liegen?

Benno
Parent - - By Stefan Pohl Date 2013-07-31 07:09
[quote="Benno Hartwig"]
[quote="Stefan Pohl"]Die neueren Stockfish development Versionen haben den Parameter Contempt Factor (Remisfaktor). Probier doch mal den hoch zu setzen. Da Stocki recht extrem bewertet, würde ich mindestens auf +35 setzen (+/-50 ist das erlaubte Maximum glaube ich)...[/quote]Gegen schwache Gegner könnte das nützen, Gegen H3 müsste eher ein leicht negativer Wert gewählt werden. Gegen ungefähr gleichstarke mag '0' schon das Optimum sein.
So getunt, könnte SF in der Ratinglist noch etwas gewinnen. Allerdings sollte dann jeder(!) Gegner ähnlich liebevoll umsorgt werden, sofern er dies gestattet. Und hier würde ein menschlicher Eingriff erfolgen ("Na, da nehme ich jetzt doch einfach mal den Wert +17!"), der die Liste schon wieder fragewürdig machen würde.
[/quote]

Da man diesen Eingriff in einer Rangliste selbstverständlich nicht machen darf und alle Engines mit den default-settings spielen, ergibt sich daraus der von mir hier schon oft ausgeführte sog. Autismus-Effekt, der für mich der primäre Grund ist, warum ich zu schwache Gegner aus der LS-Rangliste (und damit aus der Gegnerschaft) heraushalte (meine 30%-Regel, siehe Conditions-Sektion), denn das verzerrt die Ergebnisse der Top-Engines, weil sie eben nicht wissen, daß der Gegner sehr schwach ist (oder eben auch nicht). Deshalb sind Matches von Houdini/Komodo/Stockfish gegen Gegner wie Quazar, Booot etc., die so extrem viel schwächer sind, nicht sinnvoll. Auch nicht für die schwachen Engines, die umgekehrt nicht wissen, wie stark manche ihrer Gegner sind...

Stefan
Parent - - By Benno Hartwig Date 2013-07-31 07:42
[quote="Stefan Pohl"]Da man diesen Eingriff in einer Rangliste selbstverständlich nicht machen darf und alle Engines mit den default-settings spielen, ergibt sich daraus der von mir hier schon oft ausgeführte sog. Autismus-Effekt, der für mich der primäre Grund ist, warum ich zu schwache Gegner aus der LS-Rangliste (und damit aus der Gegnerschaft) heraushalte...[/quote]Hattest du das wirklich so beobachtet?
Erspielten die starken Engines wirklich im Durchschnitt gegen schwache Gegner vergleichsweise schlechte ELO-Werte?
Ich hatte so was vor einiger Zeit befürchtet, dann aber gerade in deiner und der IPON-Liste gesehen, dass doch auch gegen die Schwachen wirklich so gut gepunktet wurde, wie es der ELO-Differenz gegen die Starken entsprach.
Ggf. war die ELO-Streuung gegen die Schwachen etwas größer.

Benno
(Irgendwie merkwürdig, wenn ich dauernd von 'Schwachen' rede, und dabei doch Engines im Sinn habe, die mich rundweg vermöbeln würden)
Parent - By Frank Quisinsky Date 2013-07-31 07:52
Hi Benno,

nun ist Stockfish ja taktisch sehr stark und Spark ist es im Mittelspiel auch. Daher wählte ich für den ersten Test auch genau diese beiden Engines, denn die Stellungen sind recht offen und beide versuchen zu öffnen. Die einzige Chance die Programme haben, welche ca. 200 ELO oder mehr entfernt sind, sind schnelle Remis Partien. Und davon gab es bei SF in der SWCR sehr viele. Gerade wenn eine Engine so stark im Endspiel ist wie Stockfish könnte das nochmal einen kleinen Schub nach vorne geben. Sicherlich nicht gegen Houdini oder Komodo aber gegen andere Engines und natürlich auch gegen Menschen.

Wahrscheinlich steht dieses Problem aber jeder taktischen Engine im Weg. Ruhigere positionelle Programme benötigen solche Einstellungen eher nicht. Aber Programme die öffnen oder gerade im Mittelspiel etwas forscher spielen müssen immer mit der Gefahr leben das ein Angriff verpufft. Scheint bei SF dann so zu sein, dass versucht wird ... wenn die Gefahr besteht ... schnell ein Remis zu erreichen.

Schätze mal das kommt in 50 Partien mindestens 3-4x vor. Also wahrscheinlich auf 50 Partien gerechnet 1.5 - 2 Punkte verschenkt. Dies sollte grob gesagt bis zu 15 ELO ausmachen. Dumm ist, dass dies nur schwer messbar ist aber das beschreibt das Leiden der Programmierer. Kann ja nur schwierig nachgewiesen werden.

Gruß
Frank
Parent - By Ingo Bauer Date 2013-07-31 10:21 Edited 2013-07-31 10:24
[quote="Benno Hartwig"]
[quote="Stefan Pohl"]Da man diesen Eingriff in einer Rangliste selbstverständlich nicht machen darf und alle Engines mit den default-settings spielen, ergibt sich daraus der von mir hier schon oft ausgeführte sog. Autismus-Effekt, der für mich der primäre Grund ist, warum ich zu schwache Gegner aus der LS-Rangliste (und damit aus der Gegnerschaft) heraushalte...[/quote]Hattest du das wirklich so beobachtet?
Erspielten die starken Engines wirklich im Durchschnitt gegen schwache Gegner vergleichsweise schlechte ELO-Werte?
Ich hatte so was vor einiger Zeit befürchtet, dann aber gerade in deiner und der IPON-Liste gesehen, dass doch auch gegen die Schwachen wirklich so gut gepunktet wurde, wie es der ELO-Differenz gegen die Starken entsprach.
Ggf. war die ELO-Streuung gegen die Schwachen etwas größer.
[/quote]

Stimmt Benno. Das alles ist in der Eloberrechnung drin. Es spielt schlicht (fast-1) keine Rolle wie stark oder schwach die Gegner sind und es gibt auch (fast-2) keine Verzerrung dadurch!

Gruß
Ingo

PS:
Zu 1: Fast (am Bsp der IPON), weil es natürlich keinen Sinn mehr macht gegen Engines zu spielen die so viel schlechte sind das sie bei 150 Spielen statistisch keinen halben Punkt holen. Da wäre dann ein Gegner mit 600 Elo weniger und einer mit 1000 Elo weniger gleichwertig. So lange man aber innerhalb dieses "logischen" Rahmens bleibt, und der ist bei mir mit den Top 20 oder grob 350 (auch 400) Elo gegeben, gibt es keine Probleme. (kam noch nie vor bei meinem Testsetup und dieses Ergebniss würde ich auch nicht mit reinnehmen.
Zu 2: Fast, weil naturlich eine einzelner Gegner mal Über- und mal Unterperformen kann. Wenn man also nur 2 Gegner nimmt kann es schon sein das einer der beiden aus der Erwahrtung herrausfällt. Systematisch viel schlimmer ist nicht das testen gegen deutlich schlechtere Gegner als vielmehr das testen gegen viele fast identische Gegner. Natürlich bekommt man eine in sich statistisch sichere Aussage, nur leider hat diese nicht so viel Bedeutung da eine Engine eben besonders schlecht (oder gut) gegen Robbos abschneiden kann. Diese wird dann wieder und wieder bestraft (oder belohnt). Wichtig ist also, das gute oder schlechte Gruppen auch genug verschiedene Gegner beinhalten um in sich einen sicheren Durchschnitt zu bilden.

PPS: Auch ein Resultfile liegt auf meiner Seite, wer will darf sich jede Engine vornehmen, die Gegner in gut und schlecht teilen und sehen ob eine signifikant anderes Ergebniss herrauskommt. Ich habe das eine Zeitlang verfolgt (bis vor ca 2 Jahren) aber nie etwas "signifikant" auffälliges gefunden - und deswegen irgendwann aufgegeben, aber vielleicht ist der neue Stockfish ja eine Ausnahme von der damaligen Regel ...
Parent - By Stefan Pohl Date 2013-07-31 10:34 Edited 2013-07-31 10:39
[quote="Benno Hartwig"]
[quote="Stefan Pohl"]Da man diesen Eingriff in einer Rangliste selbstverständlich nicht machen darf und alle Engines mit den default-settings spielen, ergibt sich daraus der von mir hier schon oft ausgeführte sog. Autismus-Effekt, der für mich der primäre Grund ist, warum ich zu schwache Gegner aus der LS-Rangliste (und damit aus der Gegnerschaft) heraushalte...[/quote]Hattest du das wirklich so beobachtet?
Erspielten die starken Engines wirklich im Durchschnitt gegen schwache Gegner vergleichsweise schlechte ELO-Werte?
Ich hatte so was vor einiger Zeit befürchtet, dann aber gerade in deiner und der IPON-Liste gesehen, dass doch auch gegen die Schwachen wirklich so gut gepunktet wurde, wie es der ELO-Differenz gegen die Starken entsprach.
Ggf. war die ELO-Streuung gegen die Schwachen etwas größer.

Benno
(Irgendwie merkwürdig, wenn ich dauernd von 'Schwachen' rede, und dabei doch Engines im Sinn habe, die mich rundweg vermöbeln würden)
[/quote]

Es gab doch seinerzeit diverse Houdini-Settings, die alle die pawnstorm-Werte und somit die Aggrressivität erhöhten und in der Sedatliste waren diese Settings durchweg deutlich besser als Houdini-default und auch alle so gleichmäßig, daß das keinesfalls statistische Unfälle sein konnten. Und dennoch konnte keines dieser Settings bei Robert Houdart gegen den default-Houdini oder auch bei mir in der damaligen LS-Liste einen Elozuwachs nachweisen. Der einzige Unterschied bei Sedat war, daß er auch gegen deutlich schwächere Engines mitgetestet hatte. Und ein aggressives Setting erhöht durch sein aggressives Spiel einfach die Chance auf taktische Verwicklungen und minimiert die Chancen auf frühe Remisen durch Zugwiederholung. Damit war diese Settings dann plötzlich scheinbar besser, als der default-Houdini. Dieser weiß eben nicht, gegen wen er spielt und schwenkt somit auch mal in Remisen durch Zugwiederholung ein, wenn er leicht schlechter steht - auch gegen ganz schwache Gegner. Eben weil er nicht weiß daß der Gegner schwach ist. Ungekehrt würde ein schwacher Gegenr gegen Houdini auch mal einem Remis ausweichen, wenn er leicht besser steht, obwohl er eigentlich einen halben Punkt als großen Erfolg werten müßte (es aber nicht tut, weil er eben nicht weiß!).
Dieser Effekt wird eben nicht durch die Eloberechnungen aufgefangen auch wenn Ingo das noch so oft behauptet. Das ist einfach falsch. Wie sollte das auch gehen? Wäre dem so, hätten diese Houdini-Settings auch bei Sedat ja nicht besser abschneiden dürfen. Taten sie aber. Und nicht nur eines, sondern mehrere, wie schon gesagt. Dieses Faktum kann man nicht einfach wegignorieren. Naja, man kann wohl schon, wie man hier liest, aber ich tue es nicht. Robert Houdart stimmte mir übrigens seinerzeit hier ausdrücklich zu. Eines der wenigen Postings von ihm hier.
Ingo und ich sind uns halt eigentlich immer darin einig uns nicht einig zu sein. Hat ja auch was für sich, belebt die Debatte.

Stefan
Parent - - By Frank Quisinsky Date 2013-07-31 07:15
Hi Benno,

genau!
Und schon haben sich die drei PHQ Tester wieder gefunden

P stand ja für Pohl
H für Hartwig
Q für meine bescheidene Winzigkeit

Im Grunde könnte das ja auch einfach programmiert werden ohne Parameter.
Bei mehr Ponder Treffer in den ersten 15 Zügen nach den Buchzügen geht der Parameter automatisch hoch. Je höher die Anzahl der Ponder Treffer danach desto mehr versucht SF auf Remis zu spielen. Je niedriger die Ponder Treffer (schwächere Engine) desto niedriger der Contempt Faktor. So würde ich das laienhaft irgendwie programmieren.

Vielleicht besser als einen starren Wert als Parameter der aber zusätzlich schon interessant sein könnte.
Der Parameter ist mir übrigens gar noch nicht aufgefallen.

Gruß
Frank
Parent - - By Stefan Pohl Date 2013-07-31 07:20
[quote="Frank Quisinsky"]
Hi Benno,

genau!
Und schon haben sich die drei PHQ Tester wieder gefunden

P stand ja für Pohl
H für Hartwig
Q für meine bescheidene Winzigkeit

Im Grunde könnte das ja auch einfach programmiert werden ohne Parameter.
Bei mehr Ponder Treffer in den ersten 15 Zügen nach den Buchzügen geht der Parameter automatisch hoch. Je höher die Anzahl der Ponder Treffer danach desto mehr versucht SF auf Remis zu spielen. Je niedriger die Ponder Treffer (schwächere Engine) desto niedriger der Contempt Faktor. So würde ich das laienhaft irgendwie programmieren.

[/quote]

Interessante Grundidee, allerdings teste z.B. ich für die LS-Rangliste ganz ohne Pondern, weil das die LittleBlitzerGUI nicht zuläßt und auch, weil ich das für Ressourcenverschwendung halte, was ich mir bei meinen begrenzten Ressourcen nicht leisten kann.

Stefan
Parent - - By Frank Quisinsky Date 2013-07-31 07:31
Hi Stefan,

OK, muss ja nicht am Pondern ausgemacht werden, sondern einfach an dem erwarteten Gegenzug der zuletzt errechneten Hauptvariante. Reicht ja auch schon!!
In der Regel ist es ja so, dass bei dieser Spielstärke die Ponder Treffer ja sehr viel höher sind wenn gegen eine starke Engine gespielt wird.

Könnte das sogar so programmieren, dass wenn es von Zug zu Zug öfters in der Anfangsphase vorkommt das die Stellungsbewertung um Wert x, z. B. um 0,25 steigt, versucht wird Remis unter allen Umständen zu vermeiden. Denn dann ist davon auszugehen das eine schwächere Engine der Gegner ist.

Aber da werden die Programmierer schon die richtigen Ideen haben.
Denke nur das ein starrer Wert allein das Problem nicht lösen kann, aber in Ergänzung zu einem netten Code hierzu dennoch interessant ist (meine den Contempt Parameter).

Gruß
Frank
Parent - - By Benno Hartwig Date 2013-07-31 07:50
[quote="Frank Quisinsky"]OK, muss ja nicht am Pondern ausgemacht werden, sondern einfach an dem erwarteten Gegenzug der zuletzt errechneten Hauptvariante. Reicht ja auch schon!![/quote]Ich vermute, das war gemeint.
Denn AFAIK baut das Pondern doch regelmäßig auf diesem Zug auf. Der wird erwartet, und es wird schon mal begonnen, eine Antwort darauf vorzubereiten.
Benno
Parent - By Frank Quisinsky Date 2013-07-31 08:16
Hallo Benno,

könnte ja mal eine Testversion kreiert werden.
Grundsätzlich ist es ja einfach ein Ergebnis "ohne ELO" zunächst mal festzustellen.

Denn die Remisquote müsste deutlich zurück gehen (bei stärkeren Engines).
Bei schwächeren Engines müsste die Remisquote deutlich nach oben gehen.

SF ist aufgrund seiner taktischen Stärke eigentlich das Paradezugpferd um genau das mal auszutesten.

Fritz muss so etwas im Programm haben (aber eher einen starren Code).
Dieses Programm erreichte in der SWCR eine sehr hohe Remisquote (keine andere Engine hatte eine höhere).
Das mag gut sein gegen stärkere Engines aber schlecht gegen Schwächere.

Auch bei Fritz wäre es vorteilhaft wenn die Engine selbst während der Partie herausfinden würde wie stark der Gegner ist, denn gerade bei Fritz ist davon auszugehen dass hier mit einem starren Parameter in der Engine gearbeitet wird.

Gruß
Frank
Parent - - By Benno Hartwig Date 2013-07-31 07:45 Edited 2013-07-31 07:48
[quote="Frank Quisinsky"]Bei mehr Ponder Treffer in den ersten 15 Zügen nach den Buchzügen geht der Parameter automatisch hoch. Je höher die Anzahl der Ponder Treffer danach desto mehr versucht SF auf Remis zu spielen. Je niedriger die Ponder Treffer (schwächere Engine) desto niedriger der Contempt Faktor. So würde ich das laienhaft irgendwie programmieren.[/quote]Die Idee ist interessant.
Wir brauchen halt ein Kriterium, an welchem sich ein 'vermutlich schwacher Gegner' erkennen lässt, selbst wenn die Engine bislang keinen Vorteil heraus spielen konnte, wenn sie also lauter 'ziemlich starke Gegnerzüge' diagnostiziert.
Dieses Kriterium muss übrigens auch taugen, deutlich überlegene Gegner als solche zu erkennen. Und die Pondertreffer-Rate könnte hier in die Irre führen, oder? Wäre schon blöd, wenn SF gegen H3 überheblich werden würde, nur weil H3 anders spielt als SF es erwartet.
Haben etwa gleichstarke Gegnerengines aus verschiedenen(!) Entwicklerlaboren eigentlich so besonders große Ponder-Trefferquoten?

Benno
Parent - - By Frank Quisinsky Date 2013-07-31 07:58
Hi Benno,

da hast Du natürlich Recht.
Aber es gibt bestimmt auch andere Ideen wie eine Engine selbst feststellen kann wie stark der Gegner voraussichtlich ist. Im Grunde geht es ja auch "NUR" um den Contempt Faktor, dadurch wird eine Engine ja grundsätzlich nicht schlechter. Vielleicht wird SF dann z. B. auch riskante Mittelspielzüge eher vermeiden wenn festgestellt wird, dass der Gegner sehr stark ist. Anstatt Ponder Treffer oder erwarteten Zug hierfür zu nutzen wäre eine andere Idee die eigene Stellungsbewertung hierfür einzusetzen.

Nehme ich vier starke Engines und lasse diese mit je einem Core an einer Stellung analysieren ist es schon auffällig das weniger Zugabweichungen vorhanden sind als wenn ich dann mal eine schwächere hinzunehme. Erklärt ja auch irgendwie die hohen Remisquoten im Schach wenn die Spielstärken sich angleichen.

Gruß
Frank
Parent - - By Benno Hartwig Date 2013-07-31 14:35
[quote="Frank Quisinsky"]Im Grunde geht es ja auch "NUR" um den Contempt Faktor, dadurch wird eine Engine ja grundsätzlich nicht schlechter.[/quote]Nicht schlechter?
Ich denke schon, dass die Engine gegen Gleichstarke mit Faktor 0 am erfolgreichsten ist, mit gegen Schlechtere mit einem positiven Wert, gegen Stärkere mit einem negativen Wert.
Und wenn der Wert nicht passt, dann ist die Ausbeute schlechter als notwendig. Ich möchte das dann auch 'schlechter' nennen wollen.
Benno
(Mag aber sein, dass die Auswirkungen aber seehr klein sind.)
Parent - - By Michael Scheidl Date 2013-07-31 15:16
Zitat:
Ich denke schon, dass die Engine gegen Gleichstarke mit Faktor 0 am erfolgreichsten ist

Klingt logisch, ist m.E. aber nicht notwendigerweise so, insbesondere wenn wir nur eine Teilmenge von Gegnern betrachten.

Bei den Stockfish-Setting finde ich etwas verwirrend, daß sowohl Contempt (+/- 50) als auch Aggressiveness und Cowardice (je 0...200) angeboten werden.
Parent - By Benno Hartwig Date 2013-07-31 19:57
[quote="Michael Scheidl"]Bei den Stockfish-Setting finde ich etwas verwirrend, daß sowohl Contempt (+/- 50) als auch Aggressiveness und Cowardice (je 0...200) angeboten werden.[/quote]Ich denke, Contempt hat nichts mit Agressiveness und Cowardice zu tun. Dort werden bestimmte Aspekte wohl verschieden gewichtet (eigene Königssicherheit, oder eben wie sehr dem Gegnerkönig zuleibe gerückt wird) und die Zugwahl entsprechend beeinflusst, und Contempt ist vergleichsweise simpel (so war es zumindest früher bei mancher anderen Engine, angefangen bei Colossus4 oder ggf. schon davor) Hier wird einfach nur das Remis bewertet. Die Spielweise wird dann nur insofern beeinflusst, dass die Engine ggf. in ein Remis einlenkt, obwohl sie doch objektiv leicht im Vorteil war, oder dass sie ein Remis verhindert, obwohl sie stattdessen schon in einer leicht nachteiligen Stellung weiterspielen muss.

Benno
Parent - By Frank Quisinsky Date 2013-07-31 20:36
Benno,

logisch wäre es und die Frage ist demnach ...
Ist diesbezüglicher Code in Stockfish oder nicht.

Grundsätzlich denke ich schon das es Sinn macht, dass ein Programm versucht anhand der eigenen Eval oder auch anhand von Ponder Treffer, vielleicht auch Treffer vom zweitbesten, drittbesten Zug zu versuchen zu ermitteln wie stark der Gegner eigentlich ist. So könnte die Engine hier dann die Spielstil selbst ein wenig beeinflussen. Nicht nur beim Contempt Faktor. Menschen machen das intuitiv, merken sehr schnell im Spiel gegen einen Unbekannten Ok vielleicht vorsichtiger spielen oder etwas riskieren bzw. merken ob der Gegner über eine gleiche, höhere oder schwächere Spielstärke verfügt.

Kann mir auch nicht vorstellen, dass dies grundsätzlich schwierig zu programmieren ist.

Step 1 wäre:
Festzustellen wie stark der Gegner ist.
Eine Engine kann dann am Ende der Partie hierüber berichten bzw. Statistiken aus den Partiezügen auswerten und eine Prognose zum Gegner abgeben. Das kann zunächst mal so lange versucht werden zu optimieren bis die Werte mit den tatsächlichen übereinstimmen.

Step 2 wäre:
Wenn eine Engine nun genau das beherrschen sollte, dann wäre es einfach auf eigene Parameter zurückzugreifen und diese dann entsprechend anzupassen. Ich glaube schon das diese Vorgehensweise logisch ist und einen Schub geben würde. Letztendlich werden auch weniger Partien notwendig sein um Engine Spielstärken zu berechnen.

Der Contempt Faktor ist einer der Parameter die eine Engine mit einer solchen Methode selbst beeinflussen könnte.

Engine testen würde auch mal wieder mehr Spaß machen, wenn mal komplett neues hinzukommt.
Vielleicht traut sich ja ein Programmierer mal an diese Aufgabe. Stockfish wäre hierfür wie geschaffen und die Sourcen sind ja frei aber ich habe zu wenig Ahnung um das umzusetzen.

Viele Grüße
Frank
Parent - By Stefan Pohl Date 2013-07-31 14:03
[quote="Benno Hartwig"]
[quote="Stefan Pohl"]Die neueren Stockfish development Versionen haben den Parameter Contempt Factor (Remisfaktor). Probier doch mal den hoch zu setzen. Da Stocki recht extrem bewertet, würde ich mindestens auf +35 setzen (+/-50 ist das erlaubte Maximum glaube ich)...[/quote]Gegen schwache Gegner könnte das nützen, Gegen H3 müsste eher ein leicht negativer Wert gewählt werden. Gegen ungefähr gleichstarke mag '0' schon das Optimum sein.
So getunt, könnte SF in der Ratinglist noch etwas gewinnen. Allerdings sollte dann jeder(!) Gegner ähnlich liebevoll umsorgt werden, sofern er dies gestattet. Und hier würde ein menschlicher Eingriff erfolgen ("Na, da nehme ich jetzt doch einfach mal den Wert +17!"), der die Liste schon wieder fragewürdig machen würde.

Trotzdem interessant:
Mit welchem Contempt-Faktor ist SF gegen Standard-H3 am erfolgreichsten?
Mit welchem Contempt-Faktor ist SF gegen Engines am erfolgreichsten, die 100 ELO hinter SF liegen, die 200 ELO hinter SF liegen?

Benno
[/quote]

ich habe mal vor einiger Zeit, als der Parameter bei Stocki neu war, ein bißchen damit rumgetestet. Viel ist bei niedrigen Einstellungen (+25 oder so) nicht passiert, da Stockfish ja gerne recht extrem bewertet. Also ich würde auf jeden Fall mindestens +35 oder eben -35 einstellen. Selbst über das Maximum (+/-50) könnte man nachdenken, denn eine Bewertung um 0.5 ist bei Stocki ja nix ungewöhnliches, sondern eher schon als moderat zu bezeichnen. Also keine falsche Vorsicht.
Klar ist, daß man gegen Houdini (zumindest bei kurzen Bedenkzeiten) den Remisfaktor negativ einstellen müßte.

Stefan
Parent - - By Thomas Zipproth Date 2013-07-31 13:08
Hallo Frank,

ja, mir ging es genauso. Insbesondere wenn man sich früher mal mit Engine Programmierung beschäftigt hat (allerdings viel weniger als mein Bruder), ist es sehr interessant die Auswirkungen der einzelnen Patches zu beobachten. Man kommt dann durchaus gelegentlich, wie du auch schreibst, auf eigene Verbesserungsideen.

Ich hab sogar überlegt, selber ein paar dieser Ideen auszuprobieren, allerdings ist die Einarbeitungszeit in die Sourcen doch recht hoch. Daher beschränke ich mich momentan aufs Zusehen, gelegentliches Testen und evtl. mitrechnen im Projekt.

Thomas
Parent - - By Michael Scheidl Date 2013-07-31 15:28
Das Projekt Sirius scheint auf Eis zu liegen?

http://www.zipproth.com/entwicklung_und_vertrieb_innovativer_schach-softwa.html

Die Beschreibung ist interessant und der Screendump sieht gut aus.
Parent - - By Thomas Zipproth Date 2013-08-02 10:15
[quote="Michael Scheidl"]
Das Projekt Sirius scheint auf Eis zu liegen?
[/quote]

Das Projekt liegt nicht direkt auf Eis, hat sich aber doch wesentlich verzögert, aufgrund anderer Prioritäten, hinzugekommener Features usw.
Auch das Vertriebsmodell ist momentan noch nicht ganz klar, wahrscheinlich aber eher Shareware oder Freeware mit evtl. kostenpflichtigen Plugins.
Ich denke schon, das es mittelfristig erscheinen wird, einen ungefähren Termin weiß ich momentan aber auch noch nicht.

Gruß,
Thomas
Parent - By Michael Scheidl Date 2013-08-02 10:36
Danke für die Info.
Parent - - By Stefan Pohl Date 2013-07-31 06:53 Edited 2013-07-31 06:57
[quote="Thomas Zipproth"]
Stockfish ist auf dem Level von Komodo angekommen.
Interessant ist, das Stockfish Komodo schlägt, aber im Vergleich zu Houdini deutlich schlechter abschneidet als Komodo.
Könnte daran liegen, das Komodo sehr intensiv gegen Houdini getestet worden ist.
[/quote]

Das kann man auch sehr schön in der Kreuztabelle des LS top10 tournament beobachten (http://ls-ratinglist.beepworld.de/ls-top10-tournament.htm):
Komodo CCT: 437 aus 1000 gegen Houdini 3
Stockfish 130727: 388 aus 1000 gegen Houdini 3

Daß Stockfish schon auf dem Level von Komodo angekommen ist, würde ich aber aufgrund der LS-Daten doch bezweifeln. Lediglich Komodo 5.0 ist erreicht (bzw. knapp überholt), zu Komodo 5.1r2 fehlen noch 20 Elo und zu Komodo CCT noch 33 Elo...(im (völlig verzerrungsfreien) LS top10 tournament sogar 37 Elo bis Komodo CCT...).
Wenn man nur gegen 2 Gegner testet, sind Schlußfolgerungen bzgl. Elolevel oder Gleichwertigkeit doch sehr kühn. Da würde ich immer den Blick auf eine Rangliste vorziehen. Wenn auch andere Ranglistenbetreiber mal die aktuellsten Stockfish development Versionen (wenigstens ab und zu) testen würden, könnte man auch andere Ranglisten mal konsultieren. So bleibt z.Zt. nur die LS-Rangliste. Schade.

Gruß - Stefan
Parent - - By Stefan Schiffermueller Date 2013-07-31 08:59
[quote="Stefan Pohl"]
Daß Stockfish schon auf dem Level von Komodo angekommen ist, würde ich aber aufgrund der LS-Daten doch bezweifeln. Lediglich Komodo 5.0 ist erreicht (bzw. knapp überholt), zu Komodo 5.1r2 fehlen noch 20 Elo und zu Komodo CCT noch 33 Elo...(im (völlig verzerrungsfreien) LS top10 tournament sogar 37 Elo bis Komodo CCT...).
[/quote]
Man sollte aber bedenken, das Stefan Zipproth die neuste Version vom 29.07 getestet hat und du die Version vom 27.07. Auffallend sind die stark verbesserten Einzelergebnisse gegen Houdini und Komodo.

Stockfish vom 27.07 (siehe ls-Rangliste)
  gegen Houdini 3:     388 - 612
  gegen Komodo CCT: 445 - 555

Stockfish vom 29.07
  gegen Houdini 3:     419.5 - 581.5
  gegen Komodo CCT: 506.5 - 493.5

Stefan
Parent - - By Stefan Pohl Date 2013-07-31 10:56
[quote="Stefan Schiffermueller"]
[quote="Stefan Pohl"]
Daß Stockfish schon auf dem Level von Komodo angekommen ist, würde ich aber aufgrund der LS-Daten doch bezweifeln. Lediglich Komodo 5.0 ist erreicht (bzw. knapp überholt), zu Komodo 5.1r2 fehlen noch 20 Elo und zu Komodo CCT noch 33 Elo...(im (völlig verzerrungsfreien) LS top10 tournament sogar 37 Elo bis Komodo CCT...).
[/quote]
Man sollte aber bedenken, das Stefan Zipproth die neuste Version vom 29.07 getestet hat und du die Version vom 27.07. Auffallend sind die stark verbesserten Einzelergebnisse gegen Houdini und Komodo.

Stockfish vom 27.07 (siehe ls-Rangliste)
  gegen Houdini 3:     388 - 612
  gegen Komodo CCT: 445 - 555

Stockfish vom 29.07
  gegen Houdini 3:     419.5 - 581.5
  gegen Komodo CCT: 506.5 - 493.5

Stefan
[/quote]

Eigentlich wollte ich dazu schon posten, daß die Versionen so dicht beienander liegen (zeitlich), daß sie sich kaum unterscheiden können (Elo). Aber dann dachte ich mir, sicher ist sicher, ich teste die Version auch für die LS-Rangliste, zumindest lasse ich mal einen Test anlaufen und würde den dann ggf. nach 2000-2500 Partien wieder abbrechen.
Der Test läuft mittlerweile, allerdings nur auf einem meiner 2 Rechner, weil ich auf dem anderen die 1000 Partien von Komodo 5.1r2 gegen Stockfish 3 spiele, damit Komodo wieder auf die Mindestzahl von 10000 Partien kommt und danach will ich PanChess 00.537 auf diesem Rechner testen, weil ich das Peter Pan versprochen hatte und er erstmal eine kleine Entwicklerpause machen will.
Nun aber das Wesentliche: Den Test habe ich nach 350 Partien abgebrochen, weil (und das ist mal was Neues) das Ergebnis zu gut war! Ergo dachte ich, ich boote lieber den Rechner noch mal frisch, checke nochmal alle Einstellungen der LittleBlitzerGUI und im Engines.LBE-File und habe nochmal neu begonnen. Nun läuft der 2.Versuch des Tests von Stockfish 130729 und das Ergebnis bisher ist wieder geradzu unglaublich gut - allerdings ist das noch ein sehr, sehr früher Zwischenstand und mit nur 3 Cores (wegen der zur erwartenden nächsten Hitzewelle am Wocheende) geht es auch nicht so schnell vorwärts. Aber wenn das Ergebnis auch nur annähernd so bleibt und selbst wenn der zu erwartende Stockfish-typische Sinkflug ab Partie 5000 noch einkalkuliert wird, dann wäre es immer noch ein Riesen-Elo-Sprung. Ich nenne jetzt absichtlich noch keine Zahl, dazu sind zuwenige Partien absolviert, aber so einen Testanfang habe ich bei Stocki noch nie gehabt, nicht mal annähernd!!!
Allerdings ist der letzte Patch ja sehr interessant (Änderungen beim pruning können drastische Folgen haben) und hat evt. Auswirkungen auf die - bei Stocki ja nicht so dolle - Spielstärke bei kurzer Bedenkzeit und re. langsamer Hardware (also unter LS-Bedingungen (Bullet-Tempo und nur ein Core). Anders kann ich mir diesen unfaßbaren Teststart nicht erklären. Oder es ist wirklich ein statistischer Unfall. Dann wird sich das alles im Zuge von 10000 Partien noch normalisieren. Dagegen spricht aber, daß der erste Anlauf des Tests, den ich ja deshalb abgebrochen hatte, auch schon so gut war.

Ich bin jedenfalls sehr gespannt, wie es weitergeht. Das Endergebnis wird leider eine Woche brauchen, weil nur 3 Cores genutzt werden, aber ich werde sicher mal einen Zwischenstand hier zum Besten geben.

Stefan
Parent - By Stefan Pohl Date 2013-07-31 11:16
[quote="Stefan Pohl"]
Eigentlich wollte ich dazu schon posten, daß die Versionen so dicht beienander liegen (zeitlich), daß sie sich kaum unterscheiden können (Elo). Aber dann dachte ich mir, sicher ist sicher, ich teste die Version auch für die LS-Rangliste, zumindest lasse ich mal einen Test anlaufen und würde den dann ggf. nach 2000-2500 Partien wieder abbrechen.
Der Test läuft mittlerweile, allerdings nur auf einem meiner 2 Rechner, weil ich auf dem anderen die 1000 Partien von Komodo 5.1r2 gegen Stockfish 3 spiele, damit Komodo wieder auf die Mindestzahl von 10000 Partien kommt und danach will ich PanChess 00.537 auf diesem Rechner testen, weil ich das Peter Pan versprochen hatte und er erstmal eine kleine Entwicklerpause machen will.
Nun aber das Wesentliche: Den Test habe ich nach 350 Partien abgebrochen, weil (und das ist mal was Neues) das Ergebnis zu gut war! Ergo dachte ich, ich boote lieber den Rechner noch mal frisch, checke nochmal alle Einstellungen der LittleBlitzerGUI und im Engines.LBE-File und habe nochmal neu begonnen. Nun läuft der 2.Versuch des Tests von Stockfish 130729 und das Ergebnis bisher ist wieder geradzu unglaublich gut - allerdings ist das noch ein sehr, sehr früher Zwischenstand und mit nur 3 Cores (wegen der zur erwartenden nächsten Hitzewelle am Wocheende) geht es auch nicht so schnell vorwärts. Aber wenn das Ergebnis auch nur annähernd so bleibt und selbst wenn der zu erwartende Stockfish-typische Sinkflug ab Partie 5000 noch einkalkuliert wird, dann wäre es immer noch ein Riesen-Elo-Sprung. Ich nenne jetzt absichtlich noch keine Zahl, dazu sind zuwenige Partien absolviert, aber so einen Testanfang habe ich bei Stocki noch nie gehabt, nicht mal annähernd!!!
Allerdings ist der letzte Patch ja sehr interessant (Änderungen beim pruning können drastische Folgen haben) und hat evt. Auswirkungen auf die - bei Stocki ja nicht so dolle - Spielstärke bei kurzer Bedenkzeit und re. langsamer Hardware (also unter LS-Bedingungen (Bullet-Tempo und nur ein Core). Anders kann ich mir diesen unfaßbaren Teststart nicht erklären. Oder es ist wirklich ein statistischer Unfall. Dann wird sich das alles im Zuge von 10000 Partien noch normalisieren. Dagegen spricht aber, daß der erste Anlauf des Tests, den ich ja deshalb abgebrochen hatte, auch schon so gut war.

Ich bin jedenfalls sehr gespannt, wie es weitergeht. Das Endergebnis wird leider eine Woche brauchen, weil nur 3 Cores genutzt werden, aber ich werde sicher mal einen Zwischenstand hier zum Besten geben.

Stefan
[/quote]

Kleine Ergänzung: Also mit meinem Testrechner und den Einstellungen ist alles OK. Die Knotenzahlen, die Stocki und auch die Gegner anzeigen, sind völlig normal. Ebenso läuft laut TaskManager nix auf dem Rechner, was stören würde. Geht eigentlich auch nicht, da der Rechner praktisch "nackt" ist - bis auf Windoofs und der LittleBlitzerGUI ist eigentlich nichts drauf.
Parent - - By Stefan Schiffermüller Date 2013-07-31 11:24
[quote="Stefan Pohl"]
Allerdings ist der letzte Patch ja sehr interessant (Änderungen beim pruning können drastische Folgen haben) und hat evt. Auswirkungen auf die - bei Stocki ja nicht so dolle - Spielstärke bei kurzer Bedenkzeit und re. langsamer Hardware (also unter LS-Bedingungen (Bullet-Tempo und nur ein Core). Anders kann ich mir diesen unfaßbaren Teststart nicht erklären. Oder es ist wirklich ein statistischer Unfall. Dann wird sich das alles im Zuge von 10000 Partien noch normalisieren. Dagegen spricht aber, daß der erste Anlauf des Tests, den ich ja deshalb abgebrochen hatte, auch schon so gut war.
[/quote]
Klingt ja verdammt spannend. Aber dass der 2.Test-Anlauf auch so gut war, könnte (leider) daran liegen, dass im 2. Anlauf die selben Eröffnungen aufs Brett kamen. Wenn sonst kein Zufall im Spiel ist, dürften die Partien identisch sein.

Stefan
Parent - By Stefan Pohl Date 2013-07-31 11:35 Edited 2013-07-31 11:40
[quote="Stefan Schiffermüller"]
[quote="Stefan Pohl"]
Allerdings ist der letzte Patch ja sehr interessant (Änderungen beim pruning können drastische Folgen haben) und hat evt. Auswirkungen auf die - bei Stocki ja nicht so dolle - Spielstärke bei kurzer Bedenkzeit und re. langsamer Hardware (also unter LS-Bedingungen (Bullet-Tempo und nur ein Core). Anders kann ich mir diesen unfaßbaren Teststart nicht erklären. Oder es ist wirklich ein statistischer Unfall. Dann wird sich das alles im Zuge von 10000 Partien noch normalisieren. Dagegen spricht aber, daß der erste Anlauf des Tests, den ich ja deshalb abgebrochen hatte, auch schon so gut war.
[/quote]
Klingt ja verdammt spannend. Aber dass der 2.Test-Anlauf auch so gut war, könnte (leider) daran liegen, dass im 2. Anlauf die selben Eröffnungen aufs Brett kamen. Wenn sonst kein Zufall im Spiel ist, dürften die Partien identisch sein.

Stefan
[/quote]

Letzteres ist ein weit verbreiteter Irrglaube. Gerade bei meinen kurzen Bedenkzeiten können minimale Veränderungen (z.B. durch kurzfristiges Bremsen durch irgendeine Windowsfunktion) im System schon unterschiedliche Züge nach sich ziehen, und eine einzige Abweichung reicht ja schon für einen völlig anderen Partieverlauf.
Ich hatte schon mal den Fall, daß ich mal eine Engine getestet hatte und nach 30 Partien hatte sie nur 8 Punkte, was mir komisch vorkam. Da habe ich dann auch alles noch mal durchgecheckt und den Test mit völlig identischen Bedingungen neu gestartet und beim zweiten Versuch waren es dann 17 aus 30...
Beide Male war es derselbe, frisch gebootete Rechner, an dem zwischenzeitlich natürlich nichts verändert wurde.

Inzwischen ist das Stockfishergebnis mächtig im Sinkflug. Aber immer noch sehr gut. Man muß einfach abwarten. Ein paar Hundert Partien sind einfach zu wenig. Auch die Remisquote ist bisher Stockfish-untypisch hoch. Fast Ippo-mäßig.

Stefan
Parent - By Stefan Pohl Date 2013-08-01 05:39
[quote="Stefan Pohl"]

Ich bin jedenfalls sehr gespannt, wie es weitergeht. Das Endergebnis wird leider eine Woche brauchen, weil nur 3 Cores genutzt werden, aber ich werde sicher mal einen Zwischenstand hier zum Besten geben.

[/quote]

Guten Morgen,

Der Testlauf von Stockfish 130729 (timestamp 1375053681) läuft weiterhin, wenn auch nur auf 3 Cores und daher sehr gemächlich. Aber der Verlauf seit dem Start gestern war dramatisch: Zunächst ging es unfaßbar gut los (hatte deswegen sogar noch mal von vorn begonnen), dann folgte ein ebenso dramatischer Einbruch (auf ca. +5 Elo zu Stockfish 130727 (was zwar im Prinzip für eine nur 2 Tage neuere Version auch noch ganz gut wäre, aber nach dem anfänglichen Höhenrausch in Regionen jenseits der +30 Elo war das schon eine heftige "Bruchlandung")). Über Nacht stieg die Erfolgsquote nun wieder an, und zwar auf ca. +15 Elo (allerdings erst knapp 1400 von 10000 Partien gespielt). Das wäre natürlich für eine Version, die sich nur durch einen einzigen Patch vom Vorgänger unterscheidet, schlicht sensationell, allerdings sind in früheren Testruns von Stockfish im weiteren Verlauf immer noch beträchtliche Einbußen des Erfolgsscores aufgetreten, sodaß man schlußendlich ein Plus von ca. +5 Elo erwarten müßte (was ja immer noch gut wäre (s.o.)). Allerdings verlief der Testrun bisher absolut atypisch im Vergleich den vielen anderen Stocki-Testruns, die ich schon gemacht hatte und der Patch modifiziert ja auch das Pruning, hat also direkte Auswirkungen auf das Suchverhalten. Daher wäre es denkbar, daß der Tesrun auch weiterhin atypisch verläuft, aber das muß man abwarten. Die Remsiquote, die ja bis gestern Abend sehr hoch war (weit über 50%), ist inzwischen auf das Stockfish-übliche Maß von ca. 47% gefallen. Auffallend auch das bisher sehr gute Abschneiden gegen Komodo CCT: Im Einzelvergleich sind bisher 137 Partien gespielt und Stocki liegt knapp über 50% (!). Auch gegen Critter 1.6a läuft es sehr gut (54%). Wie immer (also schlecht) läuft es gegen Houdini 3 (ein echtes Bullet-Biest).

Es bleibt auf jeden Fall spannend.

Der Testrun von PanChess 00.537 läuft auch seit kurzem auf meinem anderen Notebook. Wenn alles glatt geht, sollten beide Ergebnisse am kommenden Mittwoch online gehen (Zeitangaben wie immer ohne Gewähr). Heute habe ich schnell noch die 1000 Partien von Komodo 5.1r2 gegen Stockfish 3 in die LS-Rangliste reingerechnet - das war nötig geworden, da die alte Entwicklungsversion von Stockfish (130601), gegen die Komodo 5.1r2 ursprünglich seine 1000 Stockfish-Partien absolviert hatte, aus der Rangliste entfernt wurde (ich will nicht mehr als 3 Entwicklungsversionen einer Engine in der Liste haben, wegen möglicher Verzerrungen). Am Elorating von Komodo 5.1r2 hat sich nichts geändert: weiterhin 3080 LS-Elo.

Stefan
Parent - - By Thomas Zipproth Date 2013-07-31 12:36
Hallo Stefan,

du hast schon Recht,  die Aussage steht noch auf etwas wackligen Füßen und ist auch der Begeisterung über die aktuellen Fortschritte von StockFish geschuldet.
Allerdings habe ich auch darüber nachgedacht, wie ich es am besten formuliere, und deswegen "auf demselben Level" und nicht "gleichwertig" oder "gleiche  Elozahl" verwendet. Auf der Stockfish Seite steht diese Formulierung ja sogar gegenüber Houdini. Deswegen und auch aufgrund der Tatsache, das Stockfish gegen Komodo im direkten Vergleich vorne lag, und um vielleicht eine kleine Diskussion auszulösen, habe ich dann diese Formulierung gewählt.

Klar ist aber, das eine endgültige Aussage nur von einer Rangliste wie z.B. deiner kommen kann. Diese Tests sollen ja keine "Konkurrenz" zu irgendeiner Rangliste darstellen, sondern nur die aktuell sehr spannende Entwicklung von Stockfish reflektieren. Momentan hab ich 2 I7 Quadcores für 3 Wochen frei, und bin am Überlegen, ob ich weiterhin kleinere Tests machen soll oder sie besser im Projekt mitrechnen lasse. Wahrscheinlich ist letzteres sinnvoller, aber weniger interessant.

Thomas
Parent - - By Tom Paul Date 2013-07-31 13:44
Würde dir auch empfehlen die zwei Rechner zu stiften.
Wir haben inzwischen genug Tests LS-Ratinglist und auch von anderen Leuten mit kurzen bis langen Bedenkzeiten, jetzt kommt noch mein Test mit sehr langer Bedenkzeit hinzu und sobald dieser fertig ist und ich gehe mal davon aus, dass ich bis dahin weiß wie man die eigene Maschine stiftet, werde ich meine 4 Rechner stiften, denn für Houdini 4 muss Stockfish m.M.n. sehr viele ELOs dazu legen.

Schätze Houdini 4 ist zwischen 50-100 ELO stärker als Houdini 3 und da kann das Stockfish Team wirklich jeden einzelnen Kern gebrauchen, auch kann ich mir den Kauf von Houdini 4 im Endeffekt sparen.
Parent - By Stefan Pohl Date 2013-07-31 13:54
[quote="Tom Paul"]
auch kann ich mir den Kauf von Houdini 4 im Endeffekt sparen.
[/quote]

Das solltest du dir noch mal überlegen. Kommerzielle Spitzenengines werden nur weiterentwickelt, wenn sie auch gekauft werden. Und ich für meinen Teil möchte, daß Houdini weiterentwickelt wird...

Gruß - Stefan
Parent - By Stefan Pohl Date 2013-07-31 13:59
[quote="Tom Paul"]
Würde dir auch empfehlen die zwei Rechner zu stiften.
[/quote]

Oder halt einen stiften und einen fürs Privatvergnügen... Wär doch auch schon was und man kann trotzdem noch schön was selber machen.

Stefan
Parent - By Bram Mourik Date 2013-08-01 12:04
[quote="Tom Paul"]
Würde dir auch empfehlen die zwei Rechner zu stiften.
Wir haben inzwischen genug Tests LS-Ratinglist und auch von anderen Leuten mit kurzen bis langen Bedenkzeiten, jetzt kommt noch mein Test mit sehr langer Bedenkzeit hinzu und sobald dieser fertig ist und ich gehe mal davon aus, dass ich bis dahin weiß wie man die eigene Maschine stiftet, werde ich meine 4 Rechner stiften, denn für Houdini 4 muss Stockfish m.M.n. sehr viele ELOs dazu legen.

Schätze Houdini 4 ist zwischen 50-100 ELO stärker als Houdini 3 und da kann das Stockfish Team wirklich jeden einzelnen Kern gebrauchen, auch kann ich mir den Kauf von Houdini 4 im Endeffekt sparen.
[/quote]

Hallo Tom, bist du ein Houdini 4 tester ? Ich bin gespannt wieviel besser H4 sein werdet
Grusse Bram
Parent - - By Stefan Pohl Date 2013-07-31 13:52 Edited 2013-07-31 13:56
[quote="Thomas Zipproth"]
Hallo Stefan,

du hast schon Recht,  die Aussage steht noch auf etwas wackligen Füßen und ist auch der Begeisterung über die aktuellen Fortschritte von StockFish geschuldet.
Allerdings habe ich auch darüber nachgedacht, wie ich es am besten formuliere, und deswegen "auf demselben Level" und nicht "gleichwertig" oder "gleiche  Elozahl" verwendet. Auf der Stockfish Seite steht diese Formulierung ja sogar gegenüber Houdini. Deswegen und auch aufgrund der Tatsache, das Stockfish gegen Komodo im direkten Vergleich vorne lag, und um vielleicht eine kleine Diskussion auszulösen, habe ich dann diese Formulierung gewählt.

Klar ist aber, das eine endgültige Aussage nur von einer Rangliste wie z.B. deiner kommen kann. Diese Tests sollen ja keine "Konkurrenz" zu irgendeiner Rangliste darstellen, sondern nur die aktuell sehr spannende Entwicklung von Stockfish reflektieren. Momentan hab ich 2 I7 Quadcores für 3 Wochen frei, und bin am Überlegen, ob ich weiterhin kleinere Tests machen soll oder sie besser im Projekt mitrechnen lasse. Wahrscheinlich ist letzteres sinnvoller, aber weniger interessant.

Thomas
[/quote]

Ich bin auch Stockfish-begeistert und kann das gut nachvollziehen. Daher teste ich ja nun auch Version 130729 (die dritte innerhalb einer guten Woche - ich hab echt einen an der Waffel...). Nach sensationellem Start ist inzwischen Normalität beim Erfolgsscore eingekehrt, es sieht aber immer noch nach einem guten Patch und somit einem Zuwachs gegenüber der letzten Version aus, deren Testergebnis ich ja heute früh online gestellt hatte. Und die ist ja nur 2 Tage älter (!!!). Nach einem Monat der Stagnation scheint es jetzt wieder richtig vorwärts zu gehen. Ich fände es natürlich super, wenn du deine Hardware zumindest zeitweise dem Stockfish-Team "spenden" würdest. Obwohl nach einer kleinen Zwischenflaute mittlerweile wieder über 100 Cores laufen. Aber mehr ist in diesem Fall auf jeden Fall besser. Natürlich ist das nicht so spannend. Aber auch ich habe des öfteren mal Tests für die LS-Rangliste, die ich nicht so spannend finde. Das muß man durch. Naja, man muß nicht, aber im Dienste der guten Sache sollte man...
Falls nicht noch ein echter Einbruch bei meinem aktuellen Testrun kommt und ich diesen bis zum Ende durchlaufen lasse (und das hab ich eigentlich vor), können wir dann ja schön die Ergebnisse mit deinen vergleichen, weil wir dann ja die gleiche Version getestet haben und du hast die gleichen Vorgabestellungen verwendet (lobenswert!) und die doppelte LS-Bedenkzeit mit identischen Verhältnis zwischen Basiszeit und Fischerbonus (Schön, wenn jemand außer mir versteht worauf es ankommt). Jetzt müßte ich nur noch wissen, welche Knotenzahl die LittleBlitzerGUI bei dir für die Engines (Houdini, Stocki, Komodo) ausgibt, dann können wir genau ausrechnen, um wieviel mehr Knoten die Engines bei dir berechnet haben. Dann können wir daraus ableiten ob und wieviel besser Stockfish mit diesem Plus an Knoten (mehr Zeit+schnellere Cores) gegen Houdini und Komodo abschneidet. Das könnte dann im Hinblick aufs nächste TCEC interessant werden, falls meine Beobachtung/Theorie stimmt, daß Stockfish von mehr Knoten deutlich mehr profitiert als Houdini und auch Komodo.
(Bei mir sind die Knotenzahlen, die die LittleBlitzerGUI ausgibt übrigens ca. 2.2 Mio Kn/s für Houdini, 1.8 für Stocki und 1.5 für Komodo CCT).

Beste Grüße - Stefan

P.S: Das Endergebnis meines Stockfish-Testruns wird aber wie schon erwähnt ca. 1 Woche brauchen!
Parent - - By Thomas Zipproth Date 2013-08-01 10:06
[quote="Stefan Pohl"]
Dann können wir daraus ableiten ob und wieviel besser Stockfish mit diesem Plus an Knoten (mehr Zeit+schnellere Cores) gegen Houdini und Komodo abschneidet. Das könnte dann im Hinblick aufs nächste TCEC interessant werden, falls meine Beobachtung/Theorie stimmt, daß Stockfish von mehr Knoten deutlich mehr profitiert als Houdini und auch Komodo.
(Bei mir sind die Knotenzahlen, die die LittleBlitzerGUI ausgibt übrigens ca. 2.2 Mio Kn/s für Houdini, 1.8 für Stocki und 1.5 für Komodo CCT).
[/quote]

Stimmt, bin auf das Ergebnis gespannt, meine Knotenzahlen sind:

Code:
Houdini 3:                                3.02  Mio Kn/s
stockfish_13072901_x64_modern_sse42.exe:  2.44  Mio Kn/s
KomodoCCT:                                2.01  Mio Kn/s


Grüße,
Thomas
Parent - - By Stefan Pohl Date 2013-08-02 05:15
[quote="Thomas Zipproth"]
[quote="Stefan Pohl"]
Dann können wir daraus ableiten ob und wieviel besser Stockfish mit diesem Plus an Knoten (mehr Zeit+schnellere Cores) gegen Houdini und Komodo abschneidet. Das könnte dann im Hinblick aufs nächste TCEC interessant werden, falls meine Beobachtung/Theorie stimmt, daß Stockfish von mehr Knoten deutlich mehr profitiert als Houdini und auch Komodo.
(Bei mir sind die Knotenzahlen, die die LittleBlitzerGUI ausgibt übrigens ca. 2.2 Mio Kn/s für Houdini, 1.8 für Stocki und 1.5 für Komodo CCT).
[/quote]

Stimmt, bin auf das Ergebnis gespannt, meine Knotenzahlen sind:

Code:
Houdini 3:                                3.02  Mio Kn/s
stockfish_13072901_x64_modern_sse42.exe:  2.44  Mio Kn/s
KomodoCCT:                                2.01  Mio Kn/s


Grüße,
Thomas
[/quote]

Danke für die Info. Also ist deine Hardware ca. 1.36 mal schneller als meine. Dazu doppelte Bedenkzeit. Also ist der Knotenfaktor, den die Engines bei dir mehr haben, 2.72.
Das merken wir uns mal für kommenden Mittwoch, wenn das Ergebnis bei mir (hoffentlich) vorliegt.

Stefan
Up Topic Hauptforen / CSS-Forum / Test der aktuellen Stockfish Version vom 29.07
1 2 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill