Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / LS-Rangliste: Stockfish 131111
1 2 Previous Next  
- - By Stefan Pohl Date 2013-11-15 12:32
The result of Stockfish 131111 is now online.

http://ls-ratinglist.beepworld.de

Stefan

(Perhaps you have to clear your browsercache or reload the website)
Parent - By Stefan Pohl Date 2013-11-15 12:36
[quote="Stefan Pohl"]
The result of Stockfish 131111 is now online.

http://ls-ratinglist.beepworld.de

Stefan

(Perhaps you have to clear your browsercache or reload the website)
[/quote]

Leider hat es ganz knapp nicht gereicht, um im Einzelvergleich Houdini 3 die erste Niederlage nach 70 Siegen in Folge beizubringen. Aber es war diesmal denkbar knapp (49.25%) und bis zu Partie 600 von 1000 in diesem Einzelvergleich lag Stockfish 131111 knapp über 50%. Schade. Dennoch hat diese Version insgesamt (gegen alle 10 Gegner) wieder etwas zugelegt (+8 Elo).

Stefan
Parent - - By Patrick Götz (Mod.) Date 2013-11-15 12:50
Habe schon mit Spannung drauf gewartet, Danke!
8 Elopunkte in 9 Tage - ohne Worte.
Gibt es auch eine Möglichkeit mehr als nur die letzten 3 Stockfish-Versionen zu sehen? Vielleicht sogar ein komplettes Rating-Archiv? Wäre interessant um zu sehen wieviel Stockfish z.B. im letzten Monat zugelegt hat.
Gruß
Patrick
Parent - - By Stefan Pohl Date 2013-11-15 12:55 Edited 2013-11-15 12:58
[quote="Patrick Götz"]
Habe schon mit Spannung drauf gewartet, Danke!
8 Elopunkte in 9 Tage - ohne Worte.
Gibt es auch eine Möglichkeit mehr als nur die letzten 3 Stockfish-Versionen zu sehen? Vielleicht sogar ein komplettes Rating-Archiv? Wäre interessant um zu sehen wieviel Stockfish z.B. im letzten Monat zugelegt hat.
Gruß
Patrick
[/quote]

Auf der Unterseite "aborted & deleted" (Rubrik "deleted betas/development/outdated-versions") findest du auf meiner Website alle Stockfish Development-Versionen seit Stockfish 3 mit Elozahl und Zahl der gespielten Partien, die aus der LS-Rangliste entfernt wurden...Kopiere es hier mal rein:

Stockfish 130519: 3037 Elo (11000 games)
Stockfish 130601: 3046 Elo (13000 games)
Stockfish 130623: 3054 Elo (13000 games)
Stockfish 130724: 3055 Elo (10000 games)
Stockfish 130727: 3061 Elo (10000 games)
Stockfish 130729: 3068 Elo (11000 games)
Stockfish 130809: 3073 Elo (14000 games)
Stockfish 130826: 3075 Elo (10000 games)
Stockfish 130830: 3081 Elo (10000 games)
Stockfish 130910: 3091 Elo (12000 games)
Stockfish 131008: 3104 Elo (12000 games)

Gruß - Stefan
Parent - By Patrick Götz (Mod.) Date 2013-11-15 12:57
Danke.
Parent - - By Stefan Pohl Date 2013-11-15 13:14
[quote="Stefan Pohl"]
[quote="Patrick Götz"]
Habe schon mit Spannung drauf gewartet, Danke!
8 Elopunkte in 9 Tage - ohne Worte.
Gibt es auch eine Möglichkeit mehr als nur die letzten 3 Stockfish-Versionen zu sehen? Vielleicht sogar ein komplettes Rating-Archiv? Wäre interessant um zu sehen wieviel Stockfish z.B. im letzten Monat zugelegt hat.
Gruß
Patrick
[/quote]

Auf der Unterseite "aborted & deleted" (Rubrik "deleted betas/development/outdated-versions") findest du auf meiner Website alle Stockfish Development-Versionen seit Stockfish 3 mit Elozahl und Zahl der gespielten Partien, die aus der LS-Rangliste entfernt wurden...Kopiere es hier mal rein:

Stockfish 130519: 3037 Elo (11000 games)
Stockfish 130601: 3046 Elo (13000 games)
Stockfish 130623: 3054 Elo (13000 games)
Stockfish 130724: 3055 Elo (10000 games)
Stockfish 130727: 3061 Elo (10000 games)
Stockfish 130729: 3068 Elo (11000 games)
Stockfish 130809: 3073 Elo (14000 games)
Stockfish 130826: 3075 Elo (10000 games)
Stockfish 130830: 3081 Elo (10000 games)
Stockfish 130910: 3091 Elo (12000 games)
Stockfish 131008: 3104 Elo (12000 games)

Gruß - Stefan
[/quote]

Wenn wir das Ganze mal näher betrachten, so sehen wir, daß Stockfish in den letzten (knapp) 6 Monaten (Version 130519 im Vergleich zur brandaktuellen 131111) unfaßbare +85 Elo zugelegt hat (3037->3122 Elo). Also ein Tagesschnitt von ca. +0.5 Elo pro Tag. Auf diesem hohen Niveau ist das unglaublich viel. Natürlich gab es auch mal Phasen, wo es stagnierte und dann ging es wieder einen größeren Schritt vorwärts. Aber unter dem Strich +0.5 Elo pro Tag zu schaffen, das ist wirklich kaum zu glauben. Aufs Jahr gerechnet wären das +182 Elo...Wer soll da auf Dauer Schritt halten? Fraglich ist allerdings m.E., ob es in diesem Tempo wirklich ad infinitum weitergehen kann, besonders mit der jetzigen Methode der vielen kleinen Optimierungs-Patches. Ohne irgendeine grundlegende Neuerung glaube ich nicht so recht daran, daß diese unglaubliche Entwicklung auf Dauer so weitergeht. Allerdings ist das nur eine Vermutung. Denn das Stockfish-Projekt in seiner jetzigen Form ist ja etwas noch nie zuvor dagewesenes (offene Test- und Entwicklungsumgebung mit derartig viel Hardware und Human-Brain-power), insofern sind jedwede Prognosen natürlich rein spekulativ. Auf jeden Fall ist das Stockfishprojekt das Interessanteste, was ich in mehr als 30 Jahren Computerschach erlebt habe. Kann es kaum erwarten zu sehen, wie es sich weiterentwickelt...

Stefan
Parent - - By Tom Paul Date 2013-11-15 13:44
Wer sich mal näher die Partie Bouquet vs Stockfish angeschaut hatte, der stellt fest:
42. 0.00 danach:
Stockfish ist am verlieren und wird 100% verlieren wenn Bouquet keine Ungenauigkeit macht.

Habe mir die Züge die nach 42. 0.00 gespielt wurden näher angeschaut.
Mit Stockfishbases gewinnt Bouquet.
Hätte Bouquet TB dann hätte Bouquet 100% diese Partie gewonnen.

Somit hat Stockfish aufgrund mangelnder TB, 0.5 Punkte an Houdini verloren und 0.5 Punkte an Bouquet verloren.

PS. bei 0.00 geben Syzygybases remis an 100%
Parent - - By Benno Hartwig Date 2013-11-15 14:04
[quote="Tom Paul"]Stockfish ist am verlieren und wird 100% verlieren wenn Bouquet keine Ungenauigkeit macht.[/quote]Seit 5 Zügen glaubt SF nun wieder an das Remis, während Bouquet mit ca. +0,5 moderat optimistisch bleibt.
Wem (Mensch oder Engine) ist in komplizierten Situation denn ein Spiel ohne 'Ungenauigkeiten' zuzutrauen?
Und wer beurteilt im Moment 'genauer'?

Benno
Parent - - By Tom Paul Date 2013-11-15 14:08
Glück für Stockfish das Bouquet gepatzt hatte,
mit TB hätte Bouquet das Spiel ab dem Zeitpunkt wo die Bewertung beiderseits hoch war gewonnen.
mit TB hätte Stockfish die Partie ab 0.00 Bewertung mit TB Unterstützung remis gehalten. ->man sollte sich nicht darauf verlassen das der Gegner patzt.
Parent - - By Benno Hartwig Date 2013-11-15 14:21
[quote="Tom Paul"]mit TB hätte Stockfish die Partie ab 0.00 Bewertung mit TB Unterstützung remis gehalten[/quote]Wenn die TB-Integration auch für dieses 16-core-System gut gelungen wäre. Wenn sie nicht eine empfindliche Bremse darstellt!
Wenn die SF-Leute oder MC aber meinen, dass diese Bremse ggf. so schädliche ist, dass man lieber auf die TBs jetzt verzichten sollte, dann bin ich nicht derjenige, der es besser wissen könnte. Und, du wirst darüber nicht erstaunt sein, dir traue ich es auch nicht zu.
Du solltest die TBs nicht isoliert betrachten, denn ein gebremster SF hätte dank schlechterer Suchtiefen ggf. gar nicht erst diese Positionen erreichen können.
Die Einflüsse müssen halt bewertet und verglichen werden. Und MCs Urteil möchte ich da erstmal für das Verrlässlichste halten.

Benno
Parent - By Andreas Aicher Date 2013-11-15 15:04
interessant finde ich, bei der ganzen Aufregung, dass ausgerechnet zwei Engines vorne liegen, die keine TB`s verwenden, das jetzt aber völlig ohne Wertung

Andreas
Parent - By Stefan Pohl Date 2013-11-15 18:41
[quote="Benno Hartwig"]
[quote="Tom Paul"]mit TB hätte Stockfish die Partie ab 0.00 Bewertung mit TB Unterstützung remis gehalten[/quote]Wenn die TB-Integration auch für dieses 16-core-System gut gelungen wäre. Wenn sie nicht eine empfindliche Bremse darstellt!
Wenn die SF-Leute oder MC aber meinen, dass diese Bremse ggf. so schädliche ist, dass man lieber auf die TBs jetzt verzichten sollte, dann bin ich nicht derjenige, der es besser wissen könnte. Und, du wirst darüber nicht erstaunt sein, dir traue ich es auch nicht zu.
Du solltest die TBs nicht isoliert betrachten, denn ein gebremster SF hätte dank schlechterer Suchtiefen ggf. gar nicht erst diese Positionen erreichen können.
Die Einflüsse müssen halt bewertet und verglichen werden. Und MCs Urteil möchte ich da erstmal für das Verrlässlichste halten.

Benno
[/quote]

Sehr richtig! Mein Test von Stockfish mit den Syzygy-Bases war zwar statistisch sehr sicher (2*10000 Partien), aber es kam nur der singlecore-Betrieb unter die Testlupe (da brachten die Bases +11 Elo). Im MP-Modus, noch dazu mit 16 Kernen, die ggf. alle gleichzeitig auf ein- und dieselben Bases zugreifen wollen, kann es völlig anders aussehen. Da kann das Ganze zur Bremse mutieren, die Elo kostet.

Stefan
Parent - - By Ernest Bonnem Date 2013-11-15 21:40
[quote="Benno Hartwig"]Wenn die TB-Integration auch für dieses 16-core-System gut gelungen wäre.[/quote]Ich weiß nicht, warum in TCEC, die Robbobases nicht benützt sind. Besonders bei Bouquet, der von Robbolito/Ivanhoe stammt...
Parent - - By Stefan Pohl Date 2013-11-16 04:26
[quote="Ernest Bonnem"]
[quote="Benno Hartwig"]Wenn die TB-Integration auch für dieses 16-core-System gut gelungen wäre.[/quote]Ich weiß nicht, warum in TCEC, die Robbobases nicht benützt sind. Besonders bei Bouquet, der von Robbolito/Ivanhoe stammt...
[/quote]

Ganz einfach: Weil Bouquet keine Endspiel-Bases unterstützt...weder Robbobases noch sonst irgendein Format.

Stefan
Parent - - By Tom Paul Date 2013-11-16 08:03
Da dachte wohl noch jemand, dass es besser ist ohne TB zu spielen.
Somit hatte Bouquet 2x seinen Gewinn gegen Stockfish verpasst und 1x gegen Komodo
Die anderen Partien habe ich mir nicht angeschaut, vielleicht sind da auch noch Punkte verloren gegangen, jedenfalls hätte Bouquet jetzt nicht 8.5 sondern 11.5 Punkte!
Und wäre nach SB Wertung auf Platz 2 vor Komodo!!!
Parent - - By sachista Date 2013-11-16 08:17
[quote="Tom Paul"]
Somit hatte Bouquet 2x seinen Gewinn gegen Stockfish verpasst und 1x gegen Komodo
Die anderen Partien habe ich mir nicht angeschaut, vielleicht sind da auch noch Punkte verloren gegangen, jedenfalls hätte Bouquet jetzt nicht 8.5 sondern 11.5 Punkte!
[/quote]

Bouquet hat also nicht nur jeweils den Gewinn verpasst, sondern die drei Partien auch noch verloren?
Parent - By Tom Paul Date 2013-11-16 09:39
Mein Fehler nur 1.5 Punkte dazu, Bouquet hatte vielleicht noch bei anderen Gegner 1.5 übrig gelassen.
Parent - - By Peter Osthoff Date 2013-11-15 13:50
Ich habe den Fortschritt mal geplottet mit einer logarithmisch approximierten Kurve. Sieht eigentlich wie eine Gerade aus, da in den bisherigen Zahlenwerten keine Abflachung zu erkennen ist. Danach erreicht Stockfish ca. im Februar 2014 die Spielstärke von Houdini 3. Und falls Houdini 4 wie angekündigt nochmals 40-50 Elo-Punkte zulegt, wird der Wert im Mai 2014 eingeholt.

Parent - By Tom Paul Date 2013-11-15 14:05 Edited 2013-11-15 14:09
Die Frage ist doch zu welchem Zeitpunkt wird Stockfish Houdini überholen?

Sagen wir R. H. braucht für die Entwicklung von Houdini 4 +50 ELO. Zeitspanne für die Entwicklung von H3-H4 und H4-H5.

Wenn Stockfish im Mai die Stärke von H4 haben wird, dann wird H4.5 zu diesem Zeitpunkt z.B. 25 ELO stärker sein.
Parent - - By U. Haug Date 2013-11-15 14:09
[quote="Peter Osthoff"]
Ich habe den Fortschritt mal geplottet mit einer logarithmisch approximierten Kurve. Sieht eigentlich wie eine Gerade aus, da in den bisherigen Zahlenwerten keine Abflachung zu erkennen ist. Danach erreicht Stockfish ca. im Februar 2014 die Spielstärke von Houdini 3. Und falls Houdini 4 wie angekündigt nochmals 40-50 Elo-Punkte zulegt, wird der Wert im Mai 2014 eingeholt.

[/quote]

Schönes Schaubild, Peter.
Der Seriosität halber hättest du die Selbstverständlichkeit hinzufügen dürfen, dass deine Prognosen nur dann zutreffend wären, wenn die aktuelle Entwicklung noch ein halbes Jahr genau so rasant weiter geht.

Ulrich
Parent - By Benno Hartwig Date 2013-11-15 14:24
[quote="U. Haug"]Der Seriosität halber hättest du die Selbstverständlichkeit hinzufügen dürfen, dass deine Prognosen nur dann zutreffend wären, wenn die aktuelle Entwicklung noch ein halbes Jahr genau so rasant weiter geht.[/quote]Hat das nicht jeder so verstanden?
Und hat nicht jeder da auch sofort die Herde von Fragezeichen gesehen?
Aber man darf ja mal träumen. Und faszinierend ist ja sicher schon, was da in den letzten Monaten so im SF-Umfeld geschieht, oder?
Ich bin gespannt, ob dies im Computerschach oder auch auf anderen Themenfeldern ein Vorbild sein kann.

Benno
Parent - - By Stefan Pohl Date 2013-11-15 18:22
Sehr schönes Diagramm. Und es scheint auch für die Vergangenheit korrekt zu sein, denn soweit ich mich entsinne, ging es mit dem offenen Testframework Februar/März 2013 los. Und bis dahin war Stockfish 2.3.1 die beste Version. Und die liegt in der LS-Rangliste bei 2995 Elo. Und die Gerade, die du dort im Diagramm verzeichnet hast, schneidet die 3000 Elo Grundlinie des Diagramms etwa zu diesem Zeitpunkt.

Man darf wirklich gespannt sein, ob es wirklich in diesem Tempo (eines linearen Eloanstiegs) weitergeht...
Ich werde auf jeden Fall weiter Stockfishe testen, soweit andere Engines die Zeit dafür lassen, und die Elozahlen aller getesteten Versionen werden auf meiner Website auch in Zukunft immer einsehbar sein.

Es bleibt auf jeden Fall spannend. Besonders in näherer Zukunft, wenn es darum geht, ob Stockfish die neue Nummer 1 der Welt wird. Wie lange wird Houdini gegenhalten können? Wird Komodo der lachende Dritte?
Stay tuned!

Stefan
Parent - - By Frank Quisinsky Date 2013-11-15 21:30 Edited 2013-11-15 21:38
Hallo Stefan,

im Grunde ist Stockfish die Nummer 1.
Wenn da nicht die vielen Remispartien wären.

Die Remisquote ist um 7-8% höher als bei Houdini (Version vom 03.11.2013 mit den neuen Endspieldatenbanken).
Es werden zu viele Remispartien im Übergang zum Endspiel abgegeben. Meist durch falscher Tausch von Leichtfiguren, es entstehen oft Endspiele mit ungleichfarbigen Läufern. Auch fehlt die Bissigkeit aus einer Remisstellung noch zu versuchen einen Gewinn zu zaubern.

Ein weiterer Fehler liegt in der Taktik.
Es kann nicht sein, dass 80-90% der schnellen Gewinnpartien mit weiß erspielt werden und Stockfish mit schwarz deutlich passiver spielt. Da stimmt irgend etwas nicht bei den Parametern bzw. dem Feintuning. Ansonsten von allen getesteten Engines die Engines welche nach wie vor die schnellsten und meisten kurzen Partien gewinnt ... ca. um 5% besser als bei Houdini. Ach hinsichtlich schnelle Verlustpartien ist Houdini nur ganz minimal besser. Der Zügedurchschnitt liegt 8 unter dem Houdini (bei Houdini 94% und bei Stockfish 86%).

Wenn ich mir die Analysen anschaue ist Stockfish klar Houdini vorzuziehen, denn Houdini verliert deutlich mehr, dafür ist bei Stockfish die Remisquote zu hoch. Denke wenn die Probleme aus der Engine raus sind, dann sollte Stockfish eigentlich nach allen Statistiken die ich gemacht habe vor Houdini liegen bzw. im Spiel gegen die schwächeren ähnlich gute Resultate erzielen.

Hoffe das sich die Leute die Stockfish testen auch mal die Partien genauer ansehen und vernünftige Statistiken machen als nur Stockfish - Stockfish ohne sich mal anzusehen was da überhaupt gezaubert wird. Jede meiner Statistiken sprechen im Taktik Bereich für weiß und schwarz Partien eine völlig andere Sprache, als ob zwei unterschiedliche Engines im Mittelspiel am Werk sind.

Ich schätze ...
Besserer Abtausch bei Leichtfiguren um falsch feldrige Läufer zu vermeiden ... 10 -15 ELO.
Mehr Aggressivität im Mittelspiel als schwarzer wird ca. 20 ELO bringen, als weißer überragende Statistiken ... warum nicht als schwarzer?? Werte ich nur Mittelspielpartien aus, sind es gar 31 ELO Differenz zwischen Stockfish weiß und schwarz.
Remispartien vermeiden könnte gar 20 ELO bringen. Aber der Parameter hierfür ist nicht gut genug, zeigt kaum Wirkung.

Wenn das Team das in den Griff bekommt ... ist Stockfish der Wahnsinn !!!

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2013-11-15 21:43
Und dafür muss ich kein Garry sein um das zu sehen.
Sondern einfach mal Statistiken anfertigen und danach in die Partien schauen ...
Es wird dann einfach schnell sehr deutlich.
Parent - - By Frank Quisinsky Date 2013-11-15 21:57 Edited 2013-11-15 22:03
Zum der Wahnsinn ...
Und wäre dann auf Dauer nur durch Strategie zu bezwingen.
Und das kann und macht ja Komodo.

Glaube die Engines bei Langzeitanalysen sind nach dem Stand der Entwicklung eher Stockfish und Komodo in Kombination. Houdini hat zu viele Mittelspiellücken (Herzstück der Schachpartie in dem sich dann der Weg fürs Endspiel bei der Spielstärke schon offenbart ist).

Nehme ich Smarthink und Spark (sehr gute taktische Bewertungsfunktionen) und bewerte Mittelspielzüge in offenen Stellungen liegen zwar Stockfish und Houdini sehr eng zusammen und sind beide sehr stark aber Houdini übersieht dabei zu viel und schaufelt sich im Mittelspiel das eigene Grab wenn es gegen Gegner wie Stockfish und Komodo ins Endspiel geht.

Insofern ...
Houdini ist stark, sehr stark aber die Stärken die sich bei Komodo und Stockfish herauskristallisieren sind überlegener als die von Houdini, weil Houdini zu viele Lücken im Mittelspiel hat die dann gnadenlos ausgenutzt werden, sofern Houdini durch seine wirklich vorhandene Stärke bei den Bauernstrukturen im Endspiel dann nicht doch noch ein Remis erringt (pauschalisiert). Übrigens, das ist auch von Critter die Stärke (die Bauernstrukturen im Endspiel). Das macht eigentlich kaum eine Engine so gut wie diese beiden. Als ob ...
Parent - - By Frank Quisinsky Date 2013-11-15 22:09
Tja und das Phänomen Houdini ...
Hat so eine geringe Remisquote und macht irgend etwas was mir verborgen bleibt, auch durch meine Statistiken.
Letztendlich legt Houdini seine Gegner recht früh flach ... also auch das Mittelspiel aber übersieht hier eben auch einiges was zu viel mehr Verlustpartien führt als z. B. bei Stockfish, aber auch zu mehr Gewinnpartien (wohl wegen dem Stockfish Schwarz Taktik Problem).

Also bei Houdini liegt die Stärke über dessen was ich mittels Stastistiken und eigener Spielstärke in der Lage bin festzustellen. Bleibt mir einfach verborgen. Bei Stockfish als weißer im Mittelspiel wird ständig Druck ausgeübt ... immer druckvolle Züge und immer wieder neue Drohungen und neue Drohungen. Houdini spielt das ruhiger aber schlägt zu wenn sich die Möglichkeit ergibt aber hier auch nicht immer als wenn gute Züge einfach überrechnet werden.

Houdini bleibt für mich ein Rätsel ... diese geringe Remisquote und dieses merkwürdige Mittelspiel ist für mich nicht erklärbar. Genug ... sind nur meine Eindrücke, nicht mehr und nicht weniger.
Parent - - By Ernest Bonnem Date 2013-11-15 23:30
Sehr interessant, Frank!
Merci!
Parent - By Frank Quisinsky Date 2013-11-16 06:25
Hi Ernest,

sind nur ein paar Eindrücke, kein Problem.
Müssen auch nicht alle so hundertprozentig sein, weil ich mit ca. 800-1000 Partien pro Engine für solche Statistiken nicht genug Partien habe. Habe mir hier und da aber andere Partien hinzugeholt.

Wenn wir nicht die Möglichkeit hätten viele Eng-Eng zu haben, wäre das alles gar nicht möglich. Wir wären alle blind bei der enormen Spielstärke. Das kann wahrscheinlich auch kein Garry (kürzlich erwähnt auf der Stockfish Seite) oder sonst wer mit bloßen Schachverstand sehen). Selbst die stärksten Schachspieler der Welt sind beim Schnellschach gegenüber den TOP-3 schon um 300 ELO unterlegen. Da liegen 6 Spielstärkeklassen dazwischen. Verstehe auch die Aufruhr im TalkChess nicht zum WM Match. Das wäre ja fast so als wenn ich Schachcomputer Partien bei einer Spielstärke von 2.200 (die besten Geräte) mit AnMon auf einen Dual Core 3GHz Rechner mit einem Core analysiere. Aber OK, auf jedes Event stürzt sich die Community so ganz frei nach ... wir haben ja sonst nichts.

Trotz der hohen Spielstärken heute ... Computerschach war mal interessanter. Heute haben wir ein Level erreicht ... die TOP 20 der Engines würden ein Schnellschachturnier der Category 26 spielen ... es gab noch kein Menschenturnier der Category 23 ... das wir selbst nur noch durch Statistik auseinandernehmen können.

Und daher ... nach wie vor ...
Es fehlt uns eine vernünftige Statistik GUI.
Was ChessBase hier seit Jahren anbietet ist ein Witz, nicht zu gebrauchen weil kaum was vernünftiges vorhanden.
Jede gute Statistik ist von Hand zu Fuss zu erledigen und mit einem wahnsinnigen Aufwand verbunden.

Ich denke immer um Programme wirklich zu verbessern ... bei dem Stand heute ... brauchen wir eine Statistik GUI.
Dabei bleibe ich ...

Gruß
Frank
Parent - - By Stefan Pohl Date 2013-11-16 04:20
[quote="Frank Quisinsky"]
Hallo Stefan,

im Grunde ist Stockfish die Nummer 1.
Wenn da nicht die vielen Remispartien wären.

Remispartien vermeiden könnte gar 20 ELO bringen. Aber der Parameter hierfür ist nicht gut genug, zeigt kaum Wirkung.

Wenn das Team das in den Griff bekommt ... ist Stockfish der Wahnsinn !!!

[/quote]

Tja, das ist wohl ein grundlegendes Problem, das das Stockfishteam eben leider nach wie vor (noch) nicht richtig in den Griff bekommt. Und du hast Recht: Der Remis-Faktor Parameter zeigt kaum Wirkung, selbst dann nicht, wenn man ihn über +35 einstellt. Stockfish bewertet sehr extrem, daher müßte man den Remis-Faktor noch wesentlich höher einstellen, als erlaubt ist (+0.5 ist ja das Maximum, was man überhaupt einstellen kann). Entscheidend ist aber für Ranglistentests und große Turniere (TCEC) natürlich sowieso nur die default-Einstellung.
Man sieht es ja schon an den Ergebnissen (ohne zig Partien durchgehen zu müssen): Gegen Houdini 3 scort Stockfish im Einzelvergleich fast 50%, liegt aber trotzdem insgesamt noch 26 Elo hinter Houdini 3 (im LS top 10 tournament), eben weil gegen die etwas schwächeren Gegner einfach weniger Punkte geholt werden. Das liegt fast immer an einer zu hohen Remisanfälligkeit - so auch in diesem Fall.
Aber es gibt ja Hoffnung. Man betrachte die LS-Rangliste mit den aktuellsten 3 Stockfish-Versionen und man sieht, daß die Remisquote in letzter Zeit signifikant gesenkt werden konnte:

Stockfish 131111 x64s   3122    5    5 10000   58%  3065   46%
Stockfish 131102 x64s   3114    5    5 11000   57%  3065   47%
Stockfish 131022 x64s   3112    5    5 10000   57%  3064   49%

Also immerhin von 49% auf 46% konnte die Remisquote gedrückt werden - in ca. 3 Wochen(!). Scheint also, als würde man des Problems langsam Herr werden.

Stefan
Parent - - By Frank Quisinsky Date 2013-11-16 06:06 Edited 2013-11-16 06:14
Hallo Stefan,

genau, übrigens Deine Liste stimmt mit meiner sehr gut überein, obwohl ich für die Partie 22,5 Minute gebe (Ponder = on). Die ELO Differenzen zwischen den Engines ist fast gleich. Unglaublich, wirft über den Haufen die Sache mit den Clones ... ich setze deutlich mehr Gegner ein etc..

Na ja, ich bin noch nicht so weit um wirklich besser zu vergleichen, setze nur einen einzigen i7, vierte Generation mit 4.3 GHz ein.

Machte in der Nacht mal eine Abtauschstatistik der Remispartien um herauszufinden ob ich hier sehen kann warum ...

Drei Dinge sind aufgefallen ...

1. Houdini und Komodo halten das Turmpaar länger im Rennen ... um 5 Züge.
2. In ausgeglichenen Stellungen bei Zugnummer 30 tauscht Stockfish durchschnittlich 6!!! Züge vorher die Dame ab.
3. Das Läuferpaar wird bei Stockfish offenbar zu hoch bewertet. Stockfish hält die Läufer länger im Spiel, was bedeutet das es öfters zu den Konstellation ungleicher Läufer kommt.

Auch bei diesen Statistiken ...
Es ist klar zu sehen, dass Stockfish in ausgeglichenen Stellungen wenig einfällt und auf Remis spielt.

Dann mal witziger Weise den ChessChallenger 7 Test gemacht ...
"fällt mir nichts ein, spiele ich doch den König von g1, g8 nach h1, g1 ... dieser unnötige Zug den jeder Schachcomputerfreak der ersten Stunde hasst.
... der verbotene Zug für Computerschachprogramme ...

Bei meinen 800 Partien je Engine ...
Houdini = 2x
Stockfish = 14x
Komodo = 0x

Bitte nicht falsch verstehen, Stockfish ist kein Remisschieber schon alleine deswegen weil Stockfish am häufigsten Partien unter 50 Züge bis zum Matt gewinnt. Aber ist nichts drin in der Stellung sind diese ganzen Anhaltspunkte ausschlaggebend dafür das auf Remis gespielt wird und das alles und ganz sicher noch viel mehr ... ist für die hohe Remisquote verantwortlich.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2013-11-16 06:37 Edited 2013-11-16 06:39
Korrektur:
Ist nichts drin in der Mittelspielstellung ...

Bei Eng-Eng Partien werden die Partien durchschnittlich um zug 65-80 entschieden. Und da fast alle anderen den TOP-3 hier unterlegen sind macht es keinen Sinn im späten Mittelspiel auf Remis zu spielen nur weil die Stellung remislich ist.

Ein schönes Testverfahren wäre ...
Ausgegliche Stellungen suchen ca. um Zug 40 die remislich sind.

Datenbank anlegen und dann ganz einfach ...

Stockfish gegen Quazar spielen lassen.
Quazar ist die zäheste aller Engines.

Houdini hat bei 22,5 Minuten Partien den zweithöchsten Partiedurchschnitt mit 94 Züge.
In der Regel haben Engines einen Partiedurchschnitt von 88-91 Züge.

Quazar aber hat einen Partiedurchschnitt von 100 Züge und liegt 6 Züge über den von Houdini.

Wenn das Stockfish Team hier etwas tun will mit Eng-Eng Partien und die Spielstärke hoch schrauben will, die Remisquote gering halten will ...

Dann
Remisdatenbank anlegen und gegen Quazar spielen lassen.
Sind dann Verbesserungen zu sehen geht die Spielstärke nach oben !!!

So einfach kann das sein ...
Wenn ein wenig analysiert wird.

Gruß
Frank

Nach dem Motto einsetzen was vorhanden ist. auch wenn Quazar ca. 275 ELO schlechter ist ... aber eher im Stellungsaufbau und im Mittelspiel.
Bei wenigen Figuren auf dem Brett wird das Programm zu einer Festung.
Parent - - By Frank Quisinsky Date 2013-11-16 06:55
Gegen das Turm Problem ...
Turmpaar und richtige Bauernstrukturen bei Turmendspielen ...

Das ist bei Stockfish auch so ein Problem ...
Stellungen sammeln und gegen Ktulu spielen lassen.

Das war das Aushängeschild von Rahman, sein Lieblingsthema waren Turmendspiele.
Wenn Ktulu in ein solches Endspiel gekommen ist konnten sich und können sich noch heute alle warm anziehen.

Denke immer bei Engines auf dem Niveau der TOPs muss gezielt getestet werden gegen die herausragenden Stärken der anderen.
Und hier nehme ich dann nicht Stockfish - Houdini ... oder Stockfish gegen Komodo ... sondern picke mir die Schwachpunkte raus und nehme dann die Gegner die das besonders gut können.

Selbst mache ich am liebsten Mittelspielstatistiken in offenen Stellungen.
Hier sind Spark und Smarthink sehr gut, aber auch Stockfish ... Wenn die drei in Analyse Kombi einen Angriff nicht sehen ist es unwahrscheinlich das es andere Engines können.

Bei Quazar denke ich immer ... der muss den Quellcode der Turmendspiele von Rahman haben.
Quazar und Ktulu sind hier sehr gleich.

Gruß
Frank
Parent - - By Jörg Oster Date 2013-11-16 07:51
Hallo Frank,

wow, jede Menge an Infos, die du da lieferst.
Wie erstellst du diese Statistiken?
Und ja, ich finde auch, eine GUI mit mehr solcher Funktionen fehlt wirklich.

Thema Stockfish und der Testing Framework: Da legst du den Finger in eine offene Wunde.
Mittlerweile sind je etliche Millionen Testspiele absolviert. Diese verschwinden einfach ins Nirwana. Was wäre das für eine Datenbasis...
Aber dort zählt halt leider nur, ob es ein Patch über die 2 Teststages schafft, oder nicht. Aber niemand kann dann wirklich der Ursache auf den Grund gehen, warum nicht.
Das ist einer der größten Fehler des ganzen Testaufbaus in meinen Augen.

Gruß, Jörg.
Parent - By Frank Quisinsky Date 2013-11-16 08:27
Hallo Jörg,

dieses Testing Framework bei Stockfish ist herausragend.
Endlich mal eine wirklich gute Idee in der Engine Entwicklung.

Aber warum werden die Möglichkeiten die dieses Testing Framework bietet nicht gezielter genutzt?
Will ich alles automatisieren kommt als Ergebnis etwas unpersönliches heraus.

Wir hätten einen ChessChallenger 7 des Jahres 2013 kreiert.
Stockfish bleibt eine reine Rechenmaschine ohne persönlicher Note.
Die Nummer 1 sollte aber glänzen und verblüffen denn Computerschach muss mal weg von der rohen Gewalt hin zur wirklichen "künstlichen Intelligenz".

Ziel des Frameworks sollte es vielmehr sein die Schwachpunkte herauszufinden und diese gezielt zu bekämpfen.
Weg von dem Ziel jetzt zunächst mal ELOs zu erarbeiten, hin zu dem Ziel die persönliche Note hineinzubringen.

Es geht nur in Kombination.
Wenn denn die Schwachpunkte draußen sind, kann der Testing Framework wieder starten ...

Denke die Kombination macht es ...
Fehler finden beheben ...
Testing Framework ...
Fehler suchen und beheben ...
Testing Framework ...
Fehler suchen und beheben ...
Testing Framework ...

Die Statistiken erstelle ich mit einer älteren ChessBase 7 Version, die bringt das gleiche zu Stande wie die aktuellen ChessBase Versionen. Mit einer nicht mehr ganz so neuen ChessAssistant Version, mit den Tools von Norm Pollock und meist nutze ich Scid. Überlege mir wie kann ich eine Statsitik erstellen und meist muss ich dann anhand von Figurenfelder Suche arbeiten. Letztendlich habe ich ca. 90 kleine Datenbanken zu verschiedenen Themenbereiche. Spiele ich die Partien im Schnellverfahren durch sortiere ich die Partien in die Datenbanken. Das alles hat den aber auch wieder den Nachteil, dass ich dann Partien finde die ich 5 Themen zuordnen könnte. Das sehe ich direkt nicht meist wenn ich mir eine gute Partie nochmals anschauen. Dann habe ich oft ein Ergebnis, dass ich eine Partie gar in 5 Datenbanken habe. In meinen ca. 90 Datenbanken herrscht das bloße Chaos und dann kommt wieder alles in die Sicherung weil ich total überfordert bin. Dann krame ich den ganzen Mist wieder raus und versuche erneut etwas und habe dann wieder eine neue Idee wie ich was auswerten könnte. Mit dem Ergebnis das jede fünfte Idee dann wirklich mal etwas bringt. Ich verwalte in meinen Datenbanken ein absolutes Chaos über das ich selbst kaum noch Herr werde. Dann denke ich mir, alles für die Katz ... aber egal, das ganze Schachspiel ist im Grunde ein reines Chaos, also warum nicht auch meine kleinen Datenbanken. Wäre ich hier ein Ordnungsfantatiker hätte ich am Ende nur noch eine Datenbank, also die Grundausstattung.

Habe damit angefangen als ich mir die Mühe machte etwas zu den Spielstilen der Engines herauszufinden.
Ich bin da ganz ehrlich ...

Das war tödlich, damit hätte ich besser nie angefangen.
Verfluchte Scheiße ... denn das ist ein Endlos Thema.

Wäre so als ne Datenbank zu organisieren wie viele Schritte gehe ich täglich und wie kann ich diese so optimieren um weniger gehen zu müssen aber dabei mehr zu erledigen. Letzendlich würde ich die Stadtwerke anschreiben ob sie nicht Seilbahnen bauen könnten. Verstehst Du ... BullShit der Versuch aber das lässt mich einfach nicht mehr los.

Gruß
Frank
Parent - - By Tom Paul Date 2013-11-16 09:34
-Wenn du eine offene Linie hast oder zwei nebeneinander, dann findet Stockfish im Multivariantenmodus zu 99% richtig heraus, welcher Turm wo hingehört.
Bei nur einer Variante wird öfters der falsche Turm genommen. Da bin ich sogar ohne Stockfish besser.
-Stockfish tauscht zu schnell und zu oft Figuren ab. Und verursacht sich selbst oft ein Eröffnungsremis. Selbst wenn der Gegner 300-400 ELO schwächer ist.
-Stockfish spielt manchmal zu aggressiv.
->z.B. Stockfish sieht 30 Züge weit und bewertet die Stellung mit +0.50 für sich. Spielt das dann und hat Remis.
->habe in so einer Partie erst alle Figuren maximal verbessert, da die gegnerische Engine sowieso nichts bzw. kaum etwas machen konnte und dann erst Stockfish seinen aggressiven Plan spielen lassen und da bewertet Stockfish die Stellung mit +1.50.
Da reicht es manchmal schon nur seinen König besser zu postieren um ein + +1.00 zu bekommen.
-Stockfish entwickelt gerne den Gegner.
-Stockfish zieht oft mit Figuren einfach nur hin und her anstatt diese maximal zu verbessern.
-Stockfish bewertet zu oft 0.00 obwohl da nix 0.00 ist! Wie bei Stockfish vs Komodo in der Eröffnung, da war Komodo besser, oder bei Bouquet Stockfish erst 0.00 und dann +1.03 und mit TB hätte Bouquet sogar gewonnen also von 0.00 nicht 1.03 sondern 1-0.
-Stockfish 2-20 Spielbare Züge alle mit 0.00 Tiefe 35 in der Eröffnung!!! z.B. gegen eine 400 ELO schwächere Engine.
Auf Tiefe 30-34 gab es einen Zug davon, der +0.50 Vorteil geben würde.
Das Problem ist, dass Stockfish einfach irgendeinen dieser 20 Züge spielt also wird in 20 gleichen Partien nur einmal dieser Zug gespielt. Somit wird 19 mal der Gewinn verschenkt.
-Manchmal wird die Stellung mit +1.50 Vorteil geschlossen und endet Remis, weil es keine Möglichkeit zum Durchbrechen gibt.
Es wäre besser die Stellung nicht zu schließen und stattdessen einen Vorteil von +1.49 - 0.00 in Kauf zu nehmen-> gewinnt gegen eine Schwäche Engine selbst mit 0.00.
-Zu wenig Bedenkzeit wird für die ersten Züge und die gesamte Eröffnung genommen.
-Zu wenig Bedenkzeit wird für Stellungen genommen, wo mehrere Züge mit ungefähr gleich höher Bewertung spielbar sind z.B. 4x 0.40-0.60, da wird oft das Potential der schlechter Bewerteten Züge nicht erkannt, weil die benötigte Tiefe wegen nicht ausreichender Zeit nicht erreicht wurde.
-Zu wenig Bedenkzeit für Stellungen wo sich die Bewertung schlagartig veränderte also +0.20 -> +0.60 diesen Vorteil muss man verwerten sonst ist er futsch also muss man hier mehr Nachdenken also bis die nächsten Züge +0.60 oder mehr einbringen und kein 2 sek. Nachdenken.
-Zu viel Bedenkzeit wo es nur einen legalen Zug gibt. Only Move
-Zu viel Bedenkzeit wo der beste Zug 0.00 und der zweitbeste -5.00 ergibt. Easy Move
-Es wird nicht verglichen wie gut die eigenen Figuren im Vergleich zu ihren Kontrahenten stehen also Dame vs Dame, Springer vs Springer.
-Wenn es zwei Züge gibt 0.00 der eine stellt gar keine Drohung auf der andere 5 Drohungen positionelle Drohungen, nicht taktische, da wird oft der falsche Zug gespielt.
-Es ist besser einen 0.00 - 0.19 Vorteil in Kauf zu nehmen und keine Figuren abzutauschen, anstatt einen 0.20 Vorteil und alle Figuren bis auf die Bauern sind weg und Remis.
-besser 0.45 Vorteil und Spiel in eine Richtung also 0.50 Vorteil und der Gegner spielt mit also in zwei Richtungen.
Parent - By Tom Paul Date 2013-11-16 18:19
Und jetzt schaut euch einfach mal Partie Nr. 59 Stockfish vs Komodo an.
Parent - - By Michael Scheidl Date 2013-11-17 09:31
Das ist eine beachtliche Auflistung von Schwächen, die offenbar gründlicher Beobachtung entsprang. Jedoch: Da es sich um eine Top 3-Engine handelt, läßt sich dann eine ebenso lange Liste von Stärken herstellen? Denn immerhin überwiegen ja anscheinend die Stärken gegen jede andere Engine, außer eventuell gegen Houdini oder Komodo.
Parent - By Tom Paul Date 2013-11-17 10:15
Da stellt sich die Frage was sind Stärken und Schwächen?

Z.B. Zeiteinteilung
Was ich dazu geschrieben habe bedeutet, dass Stockfish das nicht perfekt beherrscht, also weder Stärke noch Schwäche, aber vielleicht besser oder schlechter darin ist als der Gegner.
Die Frage ist wer ist der Gegner?
Bestes Beispiel ist da Komodo als Gegner, da passieren Stockfish die meisten (Ungenauigkeiten) wenn man so will.

1) Gewinnt Stockfish eine Partie gegen eine andere Engine aufgrund besserer Zeiteinteilung, dann müsste das eine Stärke sein.
2) Verliert Stockfish eine Partie gegen eine andere Engine, weil diese eine bessere Zeiteinteilung hat, dann müsste das eine Schwäche von Stockfish sein.

Ein Stärke / Schwäche Vergleich wird da auch sehr schwer.
Z.B. Raum oder Zeiteinteilung oder Entwicklung usw.
Je 1000 Punkte. Evtl. kann man hier auch im 10000 oder 100000 Bereich einteilen.
Wenn die Engine in der Zeiteinteilung 0-333 erreicht ist sie schwach.
Wenn die Engine 334-666 erreicht ist sie weder schwach noch stark.
Wenn die Engine 667-1000 erreicht ist sie stark.

Dürfte aber mit 667 Punkten gegen eine Engine mit 1000 Punkten in der Zeiteinteilung immer verlieren wenn es auf die Zeiteinteilung ankommt.
Parent - - By Frank Quisinsky Date 2013-11-17 11:20
Hi Michael,

es ist genau anders herum so.
Stockfish ist jetzt schon Komodo und Houdini überlegen. Im direkten Vergleich leicht überlegen.
Die Schwächen die im Programm sind führen eher dazu das gegen die schwächeren unnötig Punkte abgegeben werden.

Die Gründe wurden ja sehr schön zusammengefasst.
Glaube ehrlich gesagt nicht daran das Houdini (trotz neuer Version) noch lange vor Stockfish bleibt.
Arbeiten mehrerer sind innerhalb kurzer Zeit besser als Arbeiten einzelner.

Zeigte die Vergangenheit schon so oft auf.
Schon 2004 hatten wir in der Engine Forschung bei Arena einen Stand der heute noch nicht erreicht ist.

Denke eher, dass andere Entwickler dem Stockfish Team nacheifern werden.

VG
Frank
Parent - - By Simon Gros Date 2013-11-17 12:12
Das ist absolut zutreffend! Dieses etwas schwächere Abschneiden gegen nicht ganz so starke Gegner ist noch immer vorhanden bei Stockfish.
Siehe Test der CEGT mit einem doch recht aktuellen Stockfish (Version vom 28.10.):
http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_single/19.html
Die einzelnen Begegnungen gegen Houdini 3, Komodo 6 und Critter 1.6 wurden allesamt gewonnen, gegen die Gegner aus den unteren Bereichen sind die Resultate zum Teil deutlich niedriger als erwartet.
Simon Gros
Parent - - By Michael Scheidl Date 2013-11-17 20:05
Zitat:
Die einzelnen Begegnungen gegen Houdini 3, Komodo 6 und Critter 1.6 wurden allesamt gewonnen

Sehr eindrucksvoll! Das ist doch eigentlich zum Beispiel für Fernschachspieler wichtiger als ein Gesamtranking (dort #2), wenn anzunehmen ist daß die Gegner weitaus überwiegend mit denselben drei, vier Topengines analysieren...?
Parent - - By U. Haug Date 2013-11-17 20:13
[quote="Michael Scheidl"]
Zitat:
Die einzelnen Begegnungen gegen Houdini 3, Komodo 6 und Critter 1.6 wurden allesamt gewonnen

Sehr eindrucksvoll! Das ist doch eigentlich zum Beispiel für Fernschachspieler wichtiger als ein Gesamtranking (dort #2), wenn anzunehmen ist daß die Gegner weitaus überwiegend mit denselben drei, vier Topengines analysieren...?


Da ist 'was dran, Michael.
Wobei im Fernschach von den erfolgreichen Spielern dann natürlich schon nochmal mit anderen Bedenkzeiten und auch interaktiv analysiert wird.

Ulrich
Parent - By Frank Quisinsky Date 2013-11-18 03:05
Hi,

wobei ich mir keinesfalls vorstellen kann, dass in Houdini ein echter Wert "Stand seit geraumer Zeit" für Fernschachspieler liegt.
Stockfish nimmt zu mit mehr Zeit während Komodo gleich bleibt und Houdini deutlich abnimmt an Spielstärke.

Maximal bei Abtausch Kombinationen oder Bauernketten würde ich Houdini einsetzen. Hin- und wieder spielt Houdini auch im Mittelspiel einen guten Zug der gewinnbringend ist aber genauso oft übersieht das Programm auch gute Züge. Interessant ist GullChess der von der Spielweise ein wenig vergleichbarer zu Komodo ist.

Haben nun ein paar Programme mehr als noch vor kurzer Zeit die für Fernschachspieler interessanter geworden sind. Die Houdini Hype geht aber in 2013 so langsam vorbei. Bin gespannt auf Houdini 4 aber an einen echten Gewinn an Spielstärke kann ich nicht so recht glauben. Selbst wenn wären 30 ELO bei dem Entwicklungstempo von Stockfish und GullChess schnell aufgeholt.

Und dann gibt es auch noch Equinox mit sehr großen Sprüngen und einer baldigen Veröffentlichung. Dann sind es schon fünf Programme die sehr eng zusammen liegen. Die Spitze rückt näher zusammen und hinsichtlich Qualität bei längeren Bedenkzeiten produzieren meines Erachtens andere Programme als Houdini hochwertigeres.

Gruß
Frank
Parent - By Tom Paul Date 2013-11-17 12:21
Auf gleicher Tiefe könnte/müsste Komodo stärker sein als Stockfish.

Stockfish rechnet seine Gegner auseinander Tiefe 40.
Komodo manövriert seine Gegner auseinander Tiefe 25.
Da dürfte es für Stockfish auf Tiefe 25 schlecht aussehen.
Bzw. gegen einen Komodo Tiefe 40.
Parent - By Tom Paul Date 2013-11-17 20:31
-Remis durch Threefold Repetition wird nicht vermieden bzw. ist nicht programmiert.
Partie 66
Stockfish vs Gull
7 Züge Eröffnungsvorgabe.
+24 Züge wurden gespielt.
Bei Zug 31 Remis.
Partie endet mit 20 Figuren auf dem Brett.
Parent - By Horst Sikorsky Date 2013-11-16 12:44
ich habe  Quazar 0.4x64 runtergeladen.
Der ist Ja Blind in Turmendspielen-Eine Engine aus der Steinzeit
Beste Grüße Horst
Parent - - By Dirk Triebel Date 2013-11-17 10:33
Servus,

bei mir ist ebenso der Testlauf mit Stocki 111113 beendet. Nach meinen Tests liegt Stocki klar vorn. Natürlich habe ich nicht so viel Partien wie du, jedoch wird gegen mehr verschiedene engines gespielt.
Momentan wurden 50Partien "Jeder gegen Jeden" gespielt.
Ebenso war die Rechenzeit ne andere und Ponder on:

CPU:          3.1 GHz Intel Core i7-2670 QM
OS:           Windows 7 64-Bit
Tool:         Fritz 13 Gui
Cores:        All Engines 1 Core
Hash-Table:   512 MB
Time control: 1min + 1sec.
Tablebases:   None
Openings:     no book
Ponder:       On
Lerning:       OFF
Elo Berechnung: Elostat - ELO Eichung Houdini 1.5a = 3081 (nach deiner Liste)
Ebenso teste ich noch mit 10min+5s. Da ist der Stockfish noch stärker im Moment. Der Stocki braucht offenbar echt Rechenzeit u ist dann extrem stark. Übrigens war der 051113 Stocki bei mir auch schon sehr stark.

Aber wie ich auch schon mal sagte, kann man die verschiedenen Listen auch nicht miteinander vergleichen - da jede engine unterschiedlich bei unterschiedlichen Zeiten ist.
Naja, nur wem es interessiert... .

    Program                                        Elo    +   -   Games   Score   Av.Op.  Draws               
               
  1 Stockfish 111113 64 SSE4.2     : 3186   13  13  1750    66.5 %   3067   40.7 %               
  2 Houdini 3 Pro x64                    : 3172   13  13  1750    64.7 %   3067   40.5 %               
  3 Stockfish 051113 64 SSE4.2     : 3169   12  12  1750    64.3 %   3067   42.6 %               
  4 Stockfish 290913 64 SSE4.2     : 3155   12  12  1750    62.3 %   3068   43.7 %               
  5 Stockfish 050913 64 SSE4.2     : 3145   12  12  1750    60.9 %   3068   45.3 %               
  6 Stockfish 150913 64 SSE4.2     : 3142   12  12  1750    60.5 %   3068   48.1 %               
  7 Robodini 1.1                            : 3142   13  13  1750    60.5 %   3068   39.9 %               
  8 Komodo 6 64-bit                      : 3131   12  12  1750    59.0 %   3068   43.3 %               
  9 Houdini 3 Pro x64 tactic            : 3129   13  13  1750    58.6 %   3068   39.4 %               
10 Stockfish 4 64 SSE4.2             : 3106   12  12  1750    55.3 %   3069   46.5 %               
11 Houdini 2.0c Pro x64               : 3094   13  13  1750    53.6 %   3069   39.4 %               
12 Critter 1.6a 64-bit                   : 3089   12  12  1750    52.8 %   3070   46.2 %               
13 Strelka 5.5 x64                       : 3089   12  12  1750    52.8 %   3070   47.8 %               
14 Houdini 2.0b Pro x64               : 3085   13  13  1750    52.2 %   3070   39.3 %               
15 Houdini 1.5a x64                     : 3081   13  13  1750    51.6 %   3070   39.0 %               
16 Critter 1.4a 64-bit SSE4           : 3079   12  12  1750    51.3 %   3070   46.2 %               
17 Strelka 5.7 MP                         : 3078   12  12  1750    51.1 %   3070   45.1 %               
18 Komodo CCT 64-bit                  : 3076   12  12  1750    50.9 %   3070   41.6 %               
19 Bouquet 1.8 x64                      : 3069   12  12  1750    49.8 %   3070   45.1 %               
20 Gull 2.3 x64                            : 3068   12  12  1750    49.7 %   3070   42.5 %               
21 Stockfish 3 JA 64bit SSE4.2      : 3062   12  12  1750    48.8 %   3070   42.6 %               
22 Mars 1 SSE x64                       : 3056   12  12  1750    47.9 %   3070   48.3 %               
23 Komodo 5 64-bit                     : 3054   12  12  1750    47.7 %   3071   41.7 %               
24 Komodo 5.1 64-bit                  : 3052   12  12  1750    47.3 %   3071   41.4 %               
25 PanChess 00.537 x64              : 3038   12  12  1750    45.3 %   3071   46.8 %               
26 Fire 2.2 xTreme x64                : 3031   12  12  1750    44.3 %   3071   46.6 %               
27 Gull 2.2 x64                            : 3030   12  12  1750    44.2 %   3071   43.3 %               
28 IvanHoe 50kQ x64 SSE4.2       : 3028   12  12  1750    43.7 %   3071   47.5 %               
29 Bouquet _1.6 x64                    : 3016   12  12  1750    42.0 %   3072   42.7 %               
30 Firenzina 2.3.1 xTreme x64sse : 3001   12  12  1750    40.0 %   3072   44.1 %               
31 Komodo64 3_sse                     : 2999   13  13  1750    39.6 %   3072   36.8 %               
32 Bouquet beta.1 x64                 : 2999   12  12  1750    39.6 %   3072   45.4 %               
33 Deep Rybka 4.1 SSE42 x64      : 2995   13  13  1750    39.0 %   3072   37.0 %               
34 Gull 2.1 x64                            : 2989   13  13  1750    38.3 %   3072   40.7 %               
35 Gull II beta2 x64                     : 2955   13  13  1750    33.6 %   3073   39.8 %               
36 Sting SF JA 111210 64bit         : 2932   13  13  1750    30.6 %   3074   37.9 %               

Games        :  31500 (finished)     
     
White Wins   :  10553 (33.5 %)     
Black Wins   :   7430 (23.6 %)     
Draws        :  13517 (42.9 %)     
Unfinished   :      0     
     
White Perf.  : 55.0 %     
Black Perf.  : 45.0 %     
     
ECO A =   1791 Games ( 5.7 %)     
ECO B =   5030 Games (16.0 %)     
ECO C =  17346 Games (55.1 %)     
ECO D =   7187 Games (22.8 %)     
ECO E =    146 Games ( 0.5 %)     

1 Stockfish 111113 64 SSE4.2: 3186  1750 (+807,=713,-230), 66.5 %           
           
Houdini 3 Pro x64               :  50 (+ 16,= 21,- 13), 53.0 %           
Robodini 1.1                       :  50 (+ 16,= 29,-  5), 61.0 %           
Houdini 3 Pro x64 tactic       :  50 (+ 18,= 16,- 16), 52.0 %           
Stockfish 050913 64 SSE4.2:  50 (+ 10,= 32,-  8), 52.0 %           
Houdini 2.0c Pro x64           :  50 (+ 22,= 21,-  7), 65.0 %           
Mars 1 SSE x64                  :  50 (+ 35,=  9,-  6), 79.0 %           
Critter 1.6a 64-bit               :  50 (+ 21,= 19,- 10), 61.0 %           
PanChess 00.537 x64          :  50 (+ 28,= 18,-  4), 74.0 %           
Houdini 2.0b Pro x64           :  50 (+ 29,= 13,-  8), 71.0 %           
Critter 1.4a 64-bit SSE4      :  50 (+ 25,= 17,-  8), 67.0 %           
Strelka 5.5 x64                  :  50 (+ 17,= 27,-  6), 61.0 %           
Houdini 1.5a x64                :  50 (+ 22,= 13,- 15), 57.0 %           
Stockfish 4 64 SSE4.2         :  50 (+ 14,= 31,-  5), 59.0 %           
Komodo 5 64-bit                 :  50 (+ 21,= 19,- 10), 61.0 %           
IvanHoe 50kQ x64 SSE4.2   :  50 (+ 34,= 11,-  5), 79.0 %           
Komodo CCT 64-bit             :  50 (+ 21,= 20,-  9), 62.0 %           
Stockfish 3 JA 64bit SSE4.2 :  50 (+ 22,= 26,-  2), 70.0 %           
Fire 2.2 xTreme x64            :  50 (+ 25,= 20,-  5), 70.0 %           
Bouquet _1.6 x64               :  50 (+ 32,= 13,-  5), 77.0 %           
Deep Rybka 4.1 SSE42 x64 :  50 (+ 27,= 16,-  7), 70.0 %           
Komodo64 3_sse                :  50 (+ 22,= 27,-  1), 71.0 %           
Gull 2.1 x64                       :  50 (+ 26,= 19,-  5), 71.0 %           
Gull II beta2 x64                :  50 (+ 36,= 13,-  1), 85.0 %           
Sting SF JA 111210 64bit    :  50 (+ 35,= 14,-  1), 84.0 %           
Komodo 5.1 64-bit             :  50 (+ 23,= 20,-  7), 66.0 %           
Gull 2.2 x64                       :  50 (+ 33,=  9,-  8), 75.0 %           
Bouquet beta.1 x64            :  50 (+ 27,= 17,-  6), 71.0 %           
Firenzina 2.3.1 xTreme x64sse :  50 (+ 32,= 12,-  6), 76.0 %           
Bouquet 1.8 x64               :  50 (+ 18,= 25,-  7), 61.0 %           
Stockfish 150913 64 SSE4.2:  50 (+ 12,= 36,-  2), 60.0 %           
Stockfish 290913 64 SSE4.2:  50 (+ 18,= 30,-  2), 66.0 %           
Komodo 6 64-bit               :  50 (+ 18,= 21,- 11), 57.0 %           
Strelka 5.7 MP                  :  50 (+ 17,= 25,-  8), 59.0 %           
Gull 2.3 x64                      :  50 (+ 25,= 19,-  6), 69.0 %           
Stockfish 051113 64 SSE4.2:  50 (+ 10,= 35,-  5), 55.0 %           
           
Sorry für die schiefen Zeilen  .

Gruß,
Dirk
Parent - - By Stefan Pohl Date 2013-11-17 14:01
[quote="Dirk Triebel"]
Servus,

bei mir ist ebenso der Testlauf mit Stocki 111113 beendet. Nach meinen Tests liegt Stocki klar vorn. Natürlich habe ich nicht so viel Partien wie du, jedoch wird gegen mehr verschiedene engines gespielt.
Momentan wurden 50Partien "Jeder gegen Jeden" gespielt.
Ebenso war die Rechenzeit ne andere und Ponder on:

CPU:          3.1 GHz Intel Core i7-2670 QM
OS:           Windows 7 64-Bit
Tool:         Fritz 13 Gui
Cores:        All Engines 1 Core
Hash-Table:   512 MB
Time control: 1min + 1sec.
Tablebases:   None
Openings:     no book
Ponder:       On
Lerning:       OFF
Elo Berechnung: Elostat - ELO Eichung Houdini 1.5a = 3081 (nach deiner Liste)
Ebenso teste ich noch mit 10min+5s. Da ist der Stockfish noch stärker im Moment. Der Stocki braucht offenbar echt Rechenzeit u ist dann extrem stark. Übrigens war der 051113 Stocki bei mir auch schon sehr stark.

Aber wie ich auch schon mal sagte, kann man die verschiedenen Listen auch nicht miteinander vergleichen - da jede engine unterschiedlich bei unterschiedlichen Zeiten ist.
Naja, nur wem es interessiert... .

    Program                                        Elo    +   -   Games   Score   Av.Op.  Draws               
               
  1 Stockfish 111113 64 SSE4.2     : 3186   13  13  1750    66.5 %   3067   40.7 %               
  2 Houdini 3 Pro x64                    : 3172   13  13  1750    64.7 %   3067   40.5 %               
  3 Stockfish 051113 64 SSE4.2     : 3169   12  12  1750    64.3 %   3067   42.6 %               
  4 Stockfish 290913 64 SSE4.2     : 3155   12  12  1750    62.3 %   3068   43.7 %               
  5 Stockfish 050913 64 SSE4.2     : 3145   12  12  1750    60.9 %   3068   45.3 %               
  6 Stockfish 150913 64 SSE4.2     : 3142   12  12  1750    60.5 %   3068   48.1 %               
  7 Robodini 1.1                            : 3142   13  13  1750    60.5 %   3068   39.9 %               
  8 Komodo 6 64-bit                      : 3131   12  12  1750    59.0 %   3068   43.3 %               
  9 Houdini 3 Pro x64 tactic            : 3129   13  13  1750    58.6 %   3068   39.4 %               
10 Stockfish 4 64 SSE4.2             : 3106   12  12  1750    55.3 %   3069   46.5 %               
11 Houdini 2.0c Pro x64               : 3094   13  13  1750    53.6 %   3069   39.4 %               
12 Critter 1.6a 64-bit                   : 3089   12  12  1750    52.8 %   3070   46.2 %               
13 Strelka 5.5 x64                       : 3089   12  12  1750    52.8 %   3070   47.8 %               
14 Houdini 2.0b Pro x64               : 3085   13  13  1750    52.2 %   3070   39.3 %               
15 Houdini 1.5a x64                     : 3081   13  13  1750    51.6 %   3070   39.0 %               
16 Critter 1.4a 64-bit SSE4           : 3079   12  12  1750    51.3 %   3070   46.2 %               
17 Strelka 5.7 MP                         : 3078   12  12  1750    51.1 %   3070   45.1 %               
18 Komodo CCT 64-bit                  : 3076   12  12  1750    50.9 %   3070   41.6 %               
19 Bouquet 1.8 x64                      : 3069   12  12  1750    49.8 %   3070   45.1 %               
20 Gull 2.3 x64                            : 3068   12  12  1750    49.7 %   3070   42.5 %               
21 Stockfish 3 JA 64bit SSE4.2      : 3062   12  12  1750    48.8 %   3070   42.6 %               
22 Mars 1 SSE x64                       : 3056   12  12  1750    47.9 %   3070   48.3 %               
23 Komodo 5 64-bit                     : 3054   12  12  1750    47.7 %   3071   41.7 %               
24 Komodo 5.1 64-bit                  : 3052   12  12  1750    47.3 %   3071   41.4 %               
25 PanChess 00.537 x64              : 3038   12  12  1750    45.3 %   3071   46.8 %               
26 Fire 2.2 xTreme x64                : 3031   12  12  1750    44.3 %   3071   46.6 %               
27 Gull 2.2 x64                            : 3030   12  12  1750    44.2 %   3071   43.3 %               
28 IvanHoe 50kQ x64 SSE4.2       : 3028   12  12  1750    43.7 %   3071   47.5 %               
29 Bouquet _1.6 x64                    : 3016   12  12  1750    42.0 %   3072   42.7 %               
30 Firenzina 2.3.1 xTreme x64sse : 3001   12  12  1750    40.0 %   3072   44.1 %               
31 Komodo64 3_sse                     : 2999   13  13  1750    39.6 %   3072   36.8 %               
32 Bouquet beta.1 x64                 : 2999   12  12  1750    39.6 %   3072   45.4 %               
33 Deep Rybka 4.1 SSE42 x64      : 2995   13  13  1750    39.0 %   3072   37.0 %               
34 Gull 2.1 x64                            : 2989   13  13  1750    38.3 %   3072   40.7 %               
35 Gull II beta2 x64                     : 2955   13  13  1750    33.6 %   3073   39.8 %               
36 Sting SF JA 111210 64bit         : 2932   13  13  1750    30.6 %   3074   37.9 %               

Games        :  31500 (finished)     
     
White Wins   :  10553 (33.5 %)     
Black Wins   :   7430 (23.6 %)     
Draws        :  13517 (42.9 %)     
Unfinished   :      0     
     
White Perf.  : 55.0 %     
Black Perf.  : 45.0 %     
     
ECO A =   1791 Games ( 5.7 %)     
ECO B =   5030 Games (16.0 %)     
ECO C =  17346 Games (55.1 %)     
ECO D =   7187 Games (22.8 %)     
ECO E =    146 Games ( 0.5 %)     

1 Stockfish 111113 64 SSE4.2: 3186  1750 (+807,=713,-230), 66.5 %           
           
Houdini 3 Pro x64               :  50 (+ 16,= 21,- 13), 53.0 %           
Robodini 1.1                       :  50 (+ 16,= 29,-  5), 61.0 %           
Houdini 3 Pro x64 tactic       :  50 (+ 18,= 16,- 16), 52.0 %           
Stockfish 050913 64 SSE4.2:  50 (+ 10,= 32,-  8), 52.0 %           
Houdini 2.0c Pro x64           :  50 (+ 22,= 21,-  7), 65.0 %           
Mars 1 SSE x64                  :  50 (+ 35,=  9,-  6), 79.0 %           
Critter 1.6a 64-bit               :  50 (+ 21,= 19,- 10), 61.0 %           
PanChess 00.537 x64          :  50 (+ 28,= 18,-  4), 74.0 %           
Houdini 2.0b Pro x64           :  50 (+ 29,= 13,-  8), 71.0 %           
Critter 1.4a 64-bit SSE4      :  50 (+ 25,= 17,-  8), 67.0 %           
Strelka 5.5 x64                  :  50 (+ 17,= 27,-  6), 61.0 %           
Houdini 1.5a x64                :  50 (+ 22,= 13,- 15), 57.0 %           
Stockfish 4 64 SSE4.2         :  50 (+ 14,= 31,-  5), 59.0 %           
Komodo 5 64-bit                 :  50 (+ 21,= 19,- 10), 61.0 %           
IvanHoe 50kQ x64 SSE4.2   :  50 (+ 34,= 11,-  5), 79.0 %           
Komodo CCT 64-bit             :  50 (+ 21,= 20,-  9), 62.0 %           
Stockfish 3 JA 64bit SSE4.2 :  50 (+ 22,= 26,-  2), 70.0 %           
Fire 2.2 xTreme x64            :  50 (+ 25,= 20,-  5), 70.0 %           
Bouquet _1.6 x64               :  50 (+ 32,= 13,-  5), 77.0 %           
Deep Rybka 4.1 SSE42 x64 :  50 (+ 27,= 16,-  7), 70.0 %           
Komodo64 3_sse                :  50 (+ 22,= 27,-  1), 71.0 %           
Gull 2.1 x64                       :  50 (+ 26,= 19,-  5), 71.0 %           
Gull II beta2 x64                :  50 (+ 36,= 13,-  1), 85.0 %           
Sting SF JA 111210 64bit    :  50 (+ 35,= 14,-  1), 84.0 %           
Komodo 5.1 64-bit             :  50 (+ 23,= 20,-  7), 66.0 %           
Gull 2.2 x64                       :  50 (+ 33,=  9,-  8), 75.0 %           
Bouquet beta.1 x64            :  50 (+ 27,= 17,-  6), 71.0 %           
Firenzina 2.3.1 xTreme x64sse :  50 (+ 32,= 12,-  6), 76.0 %           
Bouquet 1.8 x64               :  50 (+ 18,= 25,-  7), 61.0 %           
Stockfish 150913 64 SSE4.2:  50 (+ 12,= 36,-  2), 60.0 %           
Stockfish 290913 64 SSE4.2:  50 (+ 18,= 30,-  2), 66.0 %           
Komodo 6 64-bit               :  50 (+ 18,= 21,- 11), 57.0 %           
Strelka 5.7 MP                  :  50 (+ 17,= 25,-  8), 59.0 %           
Gull 2.3 x64                      :  50 (+ 25,= 19,-  6), 69.0 %           
Stockfish 051113 64 SSE4.2:  50 (+ 10,= 35,-  5), 55.0 %           
           
Sorry für die schiefen Zeilen  .

Gruß,
Dirk
[/quote]

Das Ergebnis überrascht mich überhaupt nicht. Ich war, bin und bleibe der Meinung, daß stark selektiv rechnende Engines mit mehr Bedenkzeit und/oder schnellerer Hardware (beides ist bei dir gegeben, wenn der Unterschied auch nicht sooo groß ist) überproportional an Spielstärke zulegen. Daher wundert es mich nicht, daß die selektivste Engine, nämlich Stockfish, bei dir besser abschneidet als bei mir. Mit der Gegnerbandbreite dürfte das weniger zu tun haben, bzw. bei der Remisanfälligkkeit von Stockfish dürfte das für Stockfish sogar eher ein Nachteil sein.

gruß - Stefan
Parent - By Dirk Triebel Date 2013-11-17 14:30
Was mich aber bei der Stocki 111113 so erstaunt ist, dass er hier das weniger Remis offenbar in Gewinnpartien ummünzen konnte - was die hohe Elo dann bringt. Ebenso bringt das Pondern bei Stocki recht viel, da er viele Ponderhits (wahrscheinlich aufgrund der Tiefe) hat und so noch mehr Zeit zur Verfügung hat.

1 Stockfish 111113 64 SSE4.2: 3186  1750 (+807,=713,-230), 66.5 %
3 Stockfish 051113 64 SSE4.2: 3169  1750 (+752,=746,-252), 64.3 %
2 Houdini 3 Pro x64                : 3172  1750 (+778,=708,-264), 64.7 %

Gruß,
Dirk
Parent - - By Simon Gros Date 2013-11-17 15:52
Danke für die Liste. Interessant da ponder on.
Das folgende sieht allerdings sehr einseitig aus:  
     
ECO A =   1791 Games ( 5.7 %)     
ECO B =   5030 Games (16.0 %)     
ECO C =  17346 Games (55.1 %)     
ECO D =   7187 Games (22.8 %)     
ECO E =    146 Games ( 0.5 %)     

Kaum Spiele aus dem ECO-A und vor allem E? Weshalb?
Simon Gros
Up Topic Hauptforen / CSS-Forum / LS-Rangliste: Stockfish 131111
1 2 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill