LS-Rangliste: Stockfish hats geschafft...

By Stefan Pohl Date 2013-09-04 11:13 Edited 2013-09-04 11:17

Vor Freude habe ich ganz vergessen zu erwähnen, daß Stockfish 130830 (ganz nebenbei) auch Komodo 5.1r2 überholt hat und somit die zweitbeste, aktuelle mp-Engine überhaupt ist...Nur Houdini 3 ist noch stärker. Das allerdings erheblich, zumindest im LS-Tempo.
Für mich als Stockfishfan ist das ein echter Feiertag

Stefan

By Michael Scheidl Date 2013-09-04 12:11

Sehr gut, da muß ich mir demnächst eine aktuelle Entwicklungsversion installieren.

P.S. Der falscher Läufer-Bug der 4er-Version fiel bereits unangenehm auf. Ein Grund mehr sich eine neuere zu holen.

By Thomas Zipproth Date 2013-09-04 12:56

Danke für den Test, ein wirklich großer Erfolg für Stockfish.

Und natürlich ein Erfolg all derer, die als Entwickler, durch Spenden von Rechenzeit oder als Engine Tester und Ranglisten Betreiber an der Weiterentwicklung mitgewirkt haben.
Zur Zeit habe ich das Testen eingestellt und versuche mich selbst an einigen Engine Verbesserungen, mal sehen was dabei rauskommt.

Thomas

By Stefan Pohl Date 2013-09-04 16:03

[quote="Thomas Zipproth"]
Zur Zeit habe ich das Testen eingestellt und versuche mich selbst an einigen Engine Verbesserungen, mal sehen was dabei rauskommt.

Thomas
[/quote]

Das höre ich immer gerne. Wenn es sich um eine Engine im Top-Bereich handelt, wäre es mir ein Freude, deine Verbesserung in der LS-Rangliste zu testen. Ich habe nur die Bedingung, daß ich keine rein privaten Versionen teste. Eine Version, die ich teste, muß prinzipiell öffentlich zugänglich oder käuflich erwerbbar sein. Joe Bodens System mit Paßwort auf Nachfrage ist diesbzgl. schon rel. grenzwertig, aber das lasse ich gerade noch als öffentlich durchgehen...

Stefan

By Thomas Zipproth Date 2013-09-04 18:58

Danke für das Angebot.

Falls mir ein erfolgversprechender Patch gelingt, werde ich ihn wohl über das Testframework in die Hauptversion einfließen lassen.
Ich denke es ist wohl am sinnvollsten, etwas zur Entwicklung von Stockfish selbst beizutragen.
Auf dem aktuellen Level ist es schon ziemlich schwer etwas neues zu finden, aber es ist auch interessant, nach Verbesserungsmöglichkeiten oder ganz neuen Ansätzen zu suchen.

Thomas

By Patrick Götz (Mod.) Date 2013-09-04 16:27

[quote="Thomas Zipproth"]
Zur Zeit habe ich das Testen eingestellt und versuche mich selbst an einigen Engine Verbesserungen, mal sehen was dabei rauskommt.

[/quote]
Warum benutzt Du dafür nicht auch das Stockfish Testing Framework?

By Thomas Zipproth Date 2013-09-04 18:40

Mache ich, sobald ich etwas habe was auch einigermaßen erfolgversprechend ist.
Momentan bin ich noch eher in der Lernphase, was die Stockfish Sourcen angeht.
Ich hab zwar ein oder zwei Patches die wohl mit 15s durchgehen würden, aber noch nichts was auch bei 60s Bestand hat.

Thomas

By Patrick Götz (Mod.) Date 2013-09-04 19:27

Marco Costalba hat einmal geschrieben, das keine privaten Vortests nötig sind.
Ich finde auch dass das Framework das viel effizienter kann, mit der genau nötigen Partienanzahl zum selektieren.
Die anderen Entwickler sehen derweil auch z.B. was nicht funktioniert, was dann auch nicht doppelt getestet werden muss.
Wenn einige Patches die 15s bestehen aber die 60s (knapp) nicht, dann packen einige derartige Patches mit anderen zusammenfassen, die dann zusammen eine neue Chance haben.
Ich sehe alles nur Argumente PRO Framework.
In der Gemeinschaft bringt es sicher auch mehr Spaß und ich stelle ja auch für Leute wie Dich extra meinen Computer zur Verfügung, den will ich genutzt sehen.

By Benno Hartwig Date 2013-09-04 19:31

[quote="Patrick Götz"]Marco Costalba hat einmal geschrieben, das keine privaten Vortests nötig sind. [/quote]Faszinierend!
Wenn ich bedenke, wie viele Versuche ich schon kompilierte, und dass keiner davon eine Verbesserung darstellte und vieles echte Verschlechterungen, dann bin ich eigentlich ganz froh darüber, dass ich damit niemanden behelligte.
Benno

By Thomas Zipproth Date 2013-09-04 20:40

Stimmt schon, ich wollte nur einige Zeit Erfahrung sammeln, bevor ich etwas Eigenes versuche.
Es stecken doch schon über 5 Jahre Entwicklungsarbeit in Stockfish, dauert einige Zeit, das alles zu verstehen bzw. rauszufinden, wo es noch Verbesserungsmöglichkeiten geben könnte.

Thomas

By Patrick Götz (Mod.) Date 2013-09-04 15:52

[quote="Stefan Pohl"]
Vor Freude habe ich ganz vergessen zu erwähnen, daß Stockfish 130830 (ganz nebenbei) auch Komodo 5.1r2 überholt hat und somit die zweitbeste, aktuelle mp-Engine überhaupt ist...Nur Houdini 3 ist noch stärker. Das allerdings erheblich, zumindest im LS-Tempo.
Für mich als Stockfishfan ist das ein echter Feiertag

[/quote]

Das sind wirklich tolle Neuigkeiten, danke für Deine Arbeit Stefan!

By Andreas Aicher Date 2013-09-05 14:59

Hallo Stefan,
sehr schön, dass Stockfish auch bei Dir so erfolgreich ist.
Ich habe meine Meinung von früher, bezüglich Deiner Liste überdacht und bin nun überzeugt, dass es neben anderen Listen durchaus einen Blick wert ist.
Meine Kritik von damals stammt aus der Zeit, in der Stocki, ich glaube es nicht in die top ten geschafft hat und ich grundsätzlich eine ambivalente Einstellung zu Ippolit Derivaten habe.
Es war früher, bei älteren Stockfishversionen durchaus so, es wurde ja auch im Forum diskutiert, bei längeren BZ überproportional zu profitieren, vielleicht eine kleine Schwäche, dies scheint sich inzwischen relativiert zu haben.
Natürlich nicht, dass Stockfish jetzt mit mehr BZ schwächer spielen würde, als ältere Versionen, nein ganz und gar nicht, auch da ist eine Steigerung zu beobachten, doch nicht mehr in diesem Ausmass.
Aber das ist nur mein subjektiver Eindruck.

schöne Grüsse
Andreas

By Michael Scheidl Date 2013-09-05 15:38

Stockfish ist kein Ippolit-Derivat sondern stammt von Glaurung ab.

By Andreas Aicher Date 2013-09-05 17:34

Hallo Michael,
das ist mir natürlich bekannt, ich habe sogar kurze Zeit Glaurung auf dem Mac getestet, das war 2008, also noch für Mac 10.4 Tiger.
Mein Posting bedeutete ja, da waren unter den Top Ten fast ausschliesslich Ippolits, eben Stockfish nicht, war das so missverständlich formuliert ?

By Stefan Pohl Date 2013-09-06 04:05

[quote="Andreas Aicher"]
Hallo Stefan,
sehr schön, dass Stockfish auch bei Dir so erfolgreich ist.
Ich habe meine Meinung von früher, bezüglich Deiner Liste überdacht
[/quote]

Danke.
Da will ich dir mal ein prinzipielles Lob aussprechen. Völlig unabhängig davon, daß es um meine Liste geht, finde ich es toll, daß es hier auch Menschen gibt (Dich!), die ihre Standpunkte hinterfragen, überdenken und ggf. auch ändern. Diese Tugend ist hier bei vielen leider nicht sehr ausgeprägt. Dabei macht es zumindest für mich den Reiz am Computerschach aus, daß sich das Computerschach dank neuer Hard- und Software-Entwicklungen immer wieder so stark verändert hat und es immer wieder regelrechte Paradigmenwechsel gegeben hat. Das zu erkennen, zu akzeptieren und möglichst sogar zu begrüßen, gehört beim Computerschach dazu - bzw. sollte dazu gehören!

Stefan

By Andreas Aicher Date 2013-09-07 19:16

Hallo Stefan,
danke für Deine netten Worte.
Ich habe inzwischen erkannt, dass es zu einseitig ist, eine Rangliste allein danach zu beurteilen, ob sie eine Aussage zur Analysefähigkeit einer Engine treffen kann.
Ich glaube inzwischen, dass das mit kurzen Partien auch möglich ist, dass es Ausreisser nach oben und unten gibt.

Interessant für mich war, zu entdeckten, dass bei geringer BZ manchmal doch sehr schöne Angriffspartien zustandekommen, das mag auch daran liegen, dass die richtige Verteidigung in der kurzen Zeit nicht gefunden wurden.
Aber die schönsten Partien der Geschichte, zB Anderssen-Kieseritzky, Rubinstein-Rotlewi, die schönsten Tal Kombinationen, nur durch Fehler der Gegner, die sozusagen mitspielten, zustandekamen.

schöne Grüsse
Andreas

By Andreas Aicher Date 2013-09-07 19:27

habe ganz zu erwähnen vergessen, man sieht, da Du mehrere Stockfishversionen immer sehr zeitnah testest, ob und wieweit Stockfish sich verbessern konnte, das ist sehr spannend, man ist fast zeitnah dabei (ich bin ja auch "Stocki-Fan").
Auch den Vergleich der verschiedenen Ranglisten, mit verschiedenen BZ ist ja sehr aufschlussreich.

schöne Grüsse
Andreas

By Stefan Pohl Date 2013-09-08 10:49

[quote="Andreas Aicher"]
habe ganz zu erwähnen vergessen, man sieht, da Du mehrere Stockfishversionen immer sehr zeitnah testest, ob und wieweit Stockfish sich verbessern konnte, das ist sehr spannend, man ist fast zeitnah dabei (ich bin ja auch "Stocki-Fan").
Andreas
[/quote]

So ist das auch gedacht...
Zur Zeit läuft ja nun erst mal Bouquet 1.8. Danach könnte es mit einem weiteren Stockfish weitergehen. Mal sehen. Es ist aber so (und bleibt auch so), daß andere Top-Engine-Releases Priorität haben, wenn sie erscheinen, denn Stockfishe teste ich ja nun sehr häufig, da muß Stocki dann auch mal zurücktreten und warten, bis wieder Test-Kapazitäten frei sind...

Stefan

By Joe Boden Date 2013-09-04 12:54

Ich freu mich schon auf Deinen Test, Stefan.

Bei mir im Turnier schafft die neuere 300813 allerdings die C1-Norm bis jetzt nicht und liegt 3 Punkte hinter der originalen 260813.

Aber ich erhoffe mir, dass Dein Test da mehr verwertbare Daten liefert. Und viel Spass dabei!

Siehe auch hier zur Erklärung: http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?tid=5995

Zitat:

1 Stockfish 260813 64 SSE4.2 [new] X 0.0 1.5 1.5 2.0 1.0 1.5 1.5 1.0 2.0 1.0 2.0 1.0 1.5 2.5 2.5 1.0 1.5 2.0 1.5 2.0 3.0 2.0 3.0 38.5 / 53 919.75 72.64%
2 Houdini 3 Pro x64 2.0 X 0.5 1.5 1.0 0.0 1.0 1.5 2.0 3.0 2.0 1.0 1.5 1.5 2.0 2.0 1.5 1.0 0.5 2.0 2.0 3.0 2.0 3.0 37.5 / 53 910.25 70.75%
3 Stockmeister260813 [new] 0.5 1.5 X 1.5 1.0 1.0 2.5 1.5 1.0 0.5 0.5 2.0 2.0 1.0 2.5 2.0 1.5 1.5 2.0 2.0 1.5 2.5 2.0 3.0 37.0 / 53 885.00 69.81%
4 Stockfish 4 64 SSE4.2 4t 1.5 0.5 1.5 X 2.0 2.0 1.5 0.5 0.0 1.0 0.5 2.0 1.0 1.0 2.0 2.5 1.5 2.5 1.5 1.5 1.5 2.5 2.0 3.0 35.5 / 53 851.00 66.98%
5 Stockfish 300813 64 SSE4.2 4t 1.0 1.0 1.0 1.0 X 1.0 0.0 1.5 1.0 1.0 0.5 1.0 1.5 2.0 2.0 3.0 2.0 1.5 1.5 2.0 1.5 3.0 2.0 3.0 35.0 / 53 805.00 66.04%

By R. Richter Date 2013-09-04 13:34

Das ist sehr erfreulich Stefan und da ich deine Liste für die exakteste halte ist es umso erfreulicher...

By Simon Gros Date 2013-09-04 18:12

Sowohl bei der IPON, der CEGT 40/4 als auch bei der CEGT 40/20 liegt selbst Stockfish 4 Release bereits vor Houdini 1.5!
Nichts Neues also ...
Simon Gros

By Stefan Pohl Date 2013-09-05 04:25

[quote="Simon Gros"]
Sowohl bei der IPON, der CEGT 40/4 als auch bei der CEGT 40/20 liegt selbst Stockfish 4 Release bereits vor Houdini 1.5!
Nichts Neues also ...
Simon Gros
[/quote]

Du vergleichst hier Äpfel mit Birnen. Es ist nichst Neues, daß Stockfish mit längeren Bedenkzeiten zulegt, bzw. umgekehrt im Bullet nicht gut zurecht kommt und Houdini der König des Bullets ist.
Bei wenig Bedenkzeit trennt sich erst die Spreu vom Weizen. Nur eine Engine, die auch mit wenig Zeit oder langsamer Hardware klarkommt ist wirklich stark, denn mit wenig Ressourcen (Zeit + Hardware) viel Leistung zu bringen ist die wahre (Programmier-)Kunst.
Daher ist es für Stockfish ein Meilenstein, nun unter den harten LS-Bedingungen (also eben mit wenig Ressourcen und nur gegen wirklich starke Gegner) auch Houdini 1.5a überholt zu haben, nicht nur unter den gemütlichen Bedingungen anderer Ranglisten, daran war vor einigen Monaten noch nicht zu denken.

Stefan

By Simon Gros Date 2013-09-05 08:14

Diese Aussage überrascht mich doch sehr. Bislang konnte ich keine Hinweise darauf finden, daß Stockfish bei kurzen (sehr kurzen) Bedenkzeiten schlechter abschneidet als andere Programme oder speziell im Vergleich zu Houdini?
Ich führe mal alles auf was ich finden konnte, genügend Spiele vorausgesetzt, und zwar in der Reihenfolge von kurz nach lang bezüglich der Bedenkzeit:
CEGT 40/04
Houdini 3 x64 1CPU   Wertung 3076 / Spiele 3700
Stockfish 4 x64 1CPU Wertung 3032 / Spiele 1700 = - 44

IPON 5' + 3"
Houdini 3 x64 1CPU   Wertung 3068 / Spiele 2850
Stockfish 4 x64 1CPU Wertung 3015 / Spiele 2850 = - 53

CEGT 40/20
Houdini 3 x64 1CPU   Wertung 3048 / Spiele 1950
Stockfish 4 x64 1CPU Wertung 3006 / Spiele 822 = - 42

Meiner Meinung kann man nicht darauf schließen Stockfish eine "Blitz- oder Bulletschwäche" nachzusagen.
Lt. dem zur Zeit laufenden CEGT 40/04 Test mit dem 4-Core-Stockfish 4 sieht es sogar nach einer weiteren Verkürzung des Abstandes zu Houdini 3 aus!
(http://cegt.siteboard.eu/f6t894-testing-stockfish-4-0-x64-4cpu.html)
Dort beträgt der Abstand nur noch 42 Punkte, allerdings bei noch sehr wenigen Spielen.
Simon Gros

By Stefan Pohl Date 2013-09-05 12:58

[quote="Simon Gros"]
Diese Aussage überrascht mich doch sehr. Bislang konnte ich keine Hinweise darauf finden, daß Stockfish bei kurzen (sehr kurzen) Bedenkzeiten schlechter abschneidet als andere Programme
[/quote]

Ich habe schon welche gefunden. Guckst du hier: http://www.fastgm.de/

Stefan

By Simon Gros Date 2013-09-05 19:14

Also das ist nun wirklich äußerst dürftig und dazu noch die verwendeten Bedenkzeiten ..., was in aller Welt soll das be-/nachweisen und/oder messen? Haben Sie noch eine andere Liste oder einen anderen Vergleich im Petto? Immerhin habe ich bereits 3 "Gegenbeweise" geliefert, allesamt von sehr bekannten und sehr guten Listen. Ich hoffe da kommt noch deutlich mehr von Ihnen! Ansonsten bleibt für mich nur die (fast) gesicherte Annahme, daß Stockfish (wie alle anderen Programme auch) weder profitiert noch verliert bei kurzen/langen Bedenkzeiten.
Simon Gros

By Stefan Pohl Date 2013-09-08 11:03

[quote="Simon Gros"]
Also das ist nun wirklich äußerst dürftig und dazu noch die verwendeten Bedenkzeiten ..., was in aller Welt soll das be-/nachweisen und/oder messen? Haben Sie noch eine andere Liste oder einen anderen Vergleich im Petto? Immerhin habe ich bereits 3 "Gegenbeweise" geliefert, allesamt von sehr bekannten und sehr guten Listen. Ich hoffe da kommt noch deutlich mehr von Ihnen!
[/quote]

Mehr braucht da nicht zu kommen. Das Projekt von Andreas Strangmüller ist die einzige Testarbeit, die wirklich Vergleiche zwischen den Leistungen der Engines mit mehr oder weniger Zeit erlaubt, denn es wurde nur ein einziger Parameter geändert (nämlich die Zeit) und es wurden sehr viele Partien gespielt (240+4 läuft noch).
Verschiedene Listen miteinander zu vergleichen, bringt nichts. Dort sind zu viele Bedingungen (und die CEGT 40/4 testet nicht mal gegen einheitliche Gegner!) anders, daher sind Änderungen der Elo-Leistung einer Engine nicht auf einen einzelnen Parameter zurückzuführen. Das ist kein Gegenbeweis, sondern statistischer Nonsens. Davon abgesehen, daß alle 3 der angeführten Listen viel zu ungenau sind, als das man irgendeinen wirklich brauchbaren Vergleich anstellen könnte. Denn bei jedwedem Vergleich addieren sich die Errorbars. Die IPON hat alleine eine Errorbar von 10. Die CEGT 40/20 von ca. 15. Bei der CEGT 40/4 schwankt das stark, aber bei Stockfish 4 sind es 13 Elo. Allein das gibt eine Fehlerbandbreite bei Vergleichen zwischen diesen Listen von insgesamt ca. 38 Elo. Da kann man nichts mehr rauslesen, wenn es nicht sehr krasse Unterschiede sind.
Genau darum macht Andreas Strangmüller ja sein wegweisendes Testprojekt. Dort gibt es einheitliche Bedingungen und (wenn beendet) sehr, sehr kleine Errorbars. Nur dort sind statistisch sinnvolle Rückschlüsse auf das Verhalten der Engines bei mehr oder weniger Zeit möglich.

Stefan

By Simon Gros Date 2013-09-10 17:57

Nun, ich sehe in den von ihnen genannten Listen lediglich totales Chaos bei der "Stufe" 3.75 sec./game + 0.0375 sec./move, danach sind die Zahlen im Stockfish 3 Umfeld sehr eng zusammen und bewegen sich deutlich weniger. 3.75 + 0.0375 ist meiner Meinung totaler Unsinn übrigens auch die nächsten 2 Zeitvorgaben. Daraus zu schließen, daß sich Stockfish bei längeren Bedenkzeiten steigert, würde ich mir nicht zutrauen zu behaupten und dies trotz der hohen Anzahl an Spielen. Es wurden bisher nur Ultra-Ultra-Bullet und Ultra-Bullet gespielt, und wer sagt denn, daß Stockfish 3 sich bei "normalen" Bedenkzeiten nicht wieder nach unten bewegt im Vergleich zu seinem Umfeld?
Simon Gros

By Stefan Pohl Date 2013-09-11 01:20

[quote="Simon Gros"]
3.75 + 0.0375 ist meiner Meinung totaler Unsinn übrigens auch die nächsten 2 Zeitvorgaben.
[/quote]

Wenn also 60''+600ms als Bedenkzeit "totaler Unsinn" sind, dann ist jede vernünftige Debatte oder Argumentation unmöglich.

Stefan

By Andreas Aicher Date 2013-09-07 23:24

Hallo Simon,
in der neuen CCRL/40/40 Quad-Liste ist Stockfish nur noch 20 CElo hinter Houdini 3, dafür 20 CElo vor Komodo 5.1, jeweils 4 CPU.
Es sind aber noch nicht allzuviele Partien gespielt, was nicht verwundert, bei dieser BZ, aber immerhin, mehr als Fingerzeig.

http://www.computerchess.org.uk/ccrl/4040/
1 Houdini 3 64-bit 4CPU 3248 +15 −15 69.2% −124.6 44.4% 1397
2 Stockfish 4 64-bit 4CPU 3228 +27 −27 62.8% −76.2 58.1% 382
3 Komodo 5.1 MP 64-bit 4CPU 3208 +23 −23 61.7% −71.0 54.6% 562

Andreas

By Ingo Bauer Date 2013-09-08 08:08

[quote="Andreas Aicher"]
Hallo Simon,
in der neuen CCRL/40/40 Quad-Liste ist Stockfish nur noch 20 CElo hinter Houdini 3, dafür 20 CElo vor Komodo 5.1, jeweils 4 CPU.
Es sind aber noch nicht allzuviele Partien gespielt, was nicht verwundert, bei dieser BZ, aber immerhin, mehr als Fingerzeig.

http://www.computerchess.org.uk/ccrl/4040/
1 Houdini 3 64-bit 4CPU 3248 +15 −15 69.2% −124.6 44.4% 1397
2 Stockfish 4 64-bit 4CPU 3228 +27 −27 62.8% −76.2 58.1% 382
3 Komodo 5.1 MP 64-bit 4CPU 3208 +23 −23 61.7% −71.0 54.6% 562

Andreas
[/quote]

Interessant zu sehen gegen wie viele wirklich verschiedene Engines Stockfish spielen mußte!?

Das ist meiner Meinung nach eine Schwäche im Konzept dort.

Ingo

Ingo

By Ralf Mueller Date 2013-09-05 11:16

Zitat:

Nur eine Engine, die auch mit wenig Zeit oder langsamer Hardware klarkommt ist wirklich stark, denn mit wenig Ressourcen (Zeit + Hardware) viel Leistung zu bringen ist die wahre (Programmier-)Kunst.
Daher ist es für Stockfish ein Meilenstein, nun unter den harten LS-Bedingungen (also eben mit wenig Ressourcen und nur gegen wirklich starke Gegner) auch Houdini 1.5a überholt zu haben, nicht nur unter den gemütlichen Bedingungen anderer Ranglisten, daran war vor einigen Monaten noch nicht zu denken.

Hallo Stefan,
ich möchte jetzt nicht wieder einen Glaubenskrieg lostreten.

Für mich sind das einfach unterschiedliche Stärken - die eine Engine ist eben bei kürzeren Bedenkzeiten besser, die andere bei längeren. Es gibt eben nicht die ultimative Rangliste, die für alle Bedenkzeiten gilt. Aber es ist gut zu wissen, wie sich da die Engines unterschiedlich verhalten. Es ist eben nicht so, dass die Engines bei längeren Bedenkzeiten nur näher zusammenrücken, sondern dass sie tatsächlich auch die Plätze vertauschen können. Für mich beispielsweise ist im Zweifel die Spielstärke bei längeren Bedenkzeiten wichtiger, da ja beim Analysieren und Spielen die kurzen Bedenkzeiten recht irrelevant werden. Dennoch schaue ich hin und wieder auch bei dir vorbei. Kannst du meinen Standpunkt nachvollziehen?

By Stefan Pohl Date 2013-09-05 13:14

[quote="Ralf Mueller"]

Zitat:

Hallo Stefan,
ich möchte jetzt nicht wieder einen Glaubenskrieg lostreten.

Absolut. Ich würde auch nie behaupten, daß meine Liste die allein seligmachende ist. Ich persönlich finde es halt aus prinzipiellen Erwägungen heraus beeindruckend, wenn mit wenig Ressourcen viel Elo-Leistung erzeugt wird (daher bewundere ich auch bis heute Ed Schröder und sein Milano/Polgar-Programm!). Und da ist Houdini einfach besser als alle anderen. Außerdem machen ja auch mehr und mehr Engines den Schritt hin zu den Mobil-Geräten, die ja viel weniger Leistung haben als ein normaler PC. Da wird die Stärke mit wenig Knoten (sei es durch kürzere Bedenkzeit oder eben langsamere Hardware, das kommt ja aufs selbe raus) dann auch durchaus praxisrelevant.
Zudem läßt meine beschränkte finanzielle Ausstattung (und daraus folgend: beschränkte Hardwareausstattung) auch nur dann eine genaue Rangliste zu, wenn ich mich auf den Top-Bereich konzentriere und mit kurzen Bedenkzeiten teste. Daher fiel die Wahl der Testbedingungen leicht.
Außerdem muß man ja noch bedenken, daß es bei Ranglisten ja nicht nur darum geht die Engines in einer Reihenfolge einzuordnen, sondern sehr wichtig ist ja auch immer die Erkenntnis, um wie viel eine neue Engine-Version im Vergleich zur alten Version zugelegt hat. Und da spielt es ja keine Rolle, ob eine Engine mit mehr Zeit besser zurecht kommt, oder nicht, weil das ja für ihre Vorgängerversion auch schon gilt, sondern nur darauf, daß man möglichst genau mißt, weil die Zuwächse oft recht gering sind und sich die Errorbars bei einem Vergleich zweier Engineversionen ja addieren. Und dafür ist die LS-Rangliste einfach am besten geeignet, weil sie mit Abstand am genausten ist. Die vielen Stockfishtests der development-Versionen haben oft so geringe Zuwächse erbracht, daß man in anderen Ranglisten diese gar nicht hätte erfassen können.

Dazu diese Aufstellung aller Stockfishtests in der LS-Rangliste ab Stockfish 3:

Stockfish 130430: 3020 Elo (12000 games) (=Stockfish 3)
Stockfish 130519: 3037 Elo (11000 games)
Stockfish 130601: 3046 Elo (13000 games)
Stockfish 130623: 3054 Elo (13000 games)
Stockfish 130724: 3055 Elo (10000 games)
Stockfish 130727: 3061 Elo (10000 games)
Stockfish 130729: 3068 Elo (11000 games)
Stockfish 130809: 3073 Elo (14000 games)
Stockfish 130820: 3070 Elo (10000 games) (=Stockfish 4)
Stockfish 130826: 3075 Elo (10000 games)
Stockfish 130830: 3084 Elo (10000 games)

Stefan

By Roland del Rio Date 2013-09-05 14:26

Hallo Stefan.

Finde es sehr erstaunlich, wie genau deine Messungen den Ergebnissen des Stockfish-Frameworks entsprechen.
Mit der Ausnahme der offiziellen SF4 (und den Ausreisser habe ich auch schon gemessen) passt das ja immer zusammen.
Erstaunt bin ich deshalb, weil nicht anzunehmen ist, dass die Tests gegen ein Teilnehmerfeld immer den Ergebnissen
des SF Test gegen nur die Vorgängerversion entsprechen, wenn zwischen den Versionen nur sehr geringe Spielstärkeunterschiede
liegen. Meine Test gegen einzelne Engines zeigen ein gemischteres Bild, aber insgesamt stimmt die Richtung natürlich,
z.B. SF4 ist immer Stärker als SF3.
Ein Grund könnte sein, dass du mit ähnlich kurzen Bedenkzeiten testest, wie die SF Entwickler, und somit bestimmte Verbesserungen
messen kannst, die bei längeren Bedenkzeiten nicht mehr so leicht nachzuweisen wären, oder vielleicht auch gar nicht mehr existieren.
So wie viele SF patches im zweiten Testlauf mit "langer" Bedenkzeit durchfallen, sollten die Patches mit noch längeren Bedenkzeiten
vermutlich ebenfalls nicht immer bestehen. Ich vermute Mal, die SF Entwickler haben hier schon fleißig getestet, ab wann sich
längere Tests noch lohnen, das Ergebnis wird aber sicherlich ein Kompromiss, zwischen Genauigkeit und Aufwand der Test sein.

Zitat:

um wie viel eine neue Engine-Version im Vergleich zur alten Version zugelegt hat. Und da spielt es ja keine Rolle, ob eine Engine mit mehr Zeit besser zurecht kommt, oder nicht, weil das ja für ihre Vorgängerversion auch schon gilt

Vermutlich verstehe ich das falsch, aber es gibt natürlich haufenweise Verbesserungen einer Engine, die sie im Vergleich zur letzten Version mit
"kürzerer Bedenkzeit besser zurechtkommen" lassen, jede Optimierung des Suchalgorithmen ist als solche zu sehen. Eine Verbesserung des
Suchalgorithmus lässt die Engine mit der Resource Zeit effizienter umgehen und die Auswirkung steigt, je knapper diese Resource ist.

Viele Grüße
Roland

By Stefan Pohl Date 2013-09-06 03:56

[quote="Roland del Rio"]
Hallo Stefan.

Finde es sehr erstaunlich, wie genau deine Messungen den Ergebnissen des Stockfish-Frameworks entsprechen.
Mit der Ausnahme der offiziellen SF4 (und den Ausreisser habe ich auch schon gemessen) passt das ja immer zusammen.
Erstaunt bin ich deshalb, weil nicht anzunehmen ist, dass die Tests gegen ein Teilnehmerfeld immer den Ergebnissen
des SF Test gegen nur die Vorgängerversion entsprechen, wenn zwischen den Versionen nur sehr geringe Spielstärkeunterschiede
liegen. Meine Test gegen einzelne Engines zeigen ein gemischteres Bild, aber insgesamt stimmt die Richtung natürlich,
z.B. SF4 ist immer Stärker als SF3.
Ein Grund könnte sein, dass du mit ähnlich kurzen Bedenkzeiten testest, wie die SF Entwickler,
[/quote]

Naja, also das stimmt so eigentlich nicht, da ich mit 0.5 Sekunden Fischerbonus teste und die SF-Entwickler mit 0.05 Sekunden Fischerbonus. Das ist ein ganz erheblicher Unterschied, gerade bei längeren Partien müssen die Engines bei mir nie extrem schnell ziehen, es ist immer eine halbe Sekunde Bedenkzeit pro Zug vorhanden, was für eine ordentliche Baumsuche reicht. Bei den SF-Tests ist das nicht gegeben.

Stefan

By Stefan Pohl Date 2013-09-06 04:00

[quote="Roland del Rio"]

Zitat:

Nein, das verstehst du nicht falsch. Natürlich hast du prinzipiell Recht, es kann durchaus auch Verbesserungen geben, die eine Engine mit mehr Zeit besser oder schlechter zurechtkommen lassen, allerdings (und damit hast du nicht Recht) ist das nicht häufig (bzw. haufenweise) der Fall, sondern eher die Ausnahme. Im allgemeinen bleiben die prinzipiellen Charakteristika einer Engine auch mit Verbesserungen erhalten (Junior wird und wurde nie ein schwerblütiger Positionsspieler, Stockfish wurde bisher noch nicht zum wirklich guten Bulletspieler).

Stefan

By Benno Hartwig Date 2013-09-06 04:47 Edited 2013-09-06 04:49

[quote="Stefan Pohl"]Nur eine Engine, die auch mit wenig Zeit oder langsamer Hardware klarkommt ist wirklich stark, denn mit wenig Ressourcen (Zeit + Hardware) viel Leistung zu bringen ist die wahre (Programmier-)Kunst.[/quote]Na, das ist wohl nur deine höchstpersönliche Meinung.

Es geht immer um Spielstärkevergleiche, nie um absolute Leistung.
Wenn die eine Engine mit wenig Ressourcen besser klar kommt als eine andere, klar, dann ist das mehr-Leistung.
Aber wenn sie mit reichlich Ressourcen messbar weniger anzufangen weiß als eine andere, dann ist das eine Schwäche, und sie ist genau so eklatant.
Und der Anwender wird dann eben wählen, ob ihm die Schwäche oder die Stärke wichtiger ist.
Er wird ggf. wählen, welche Engine seinen Interessen am besten entgegen kommt.
Mein Eindruck: dir ist eben die kurz-Zeit-Leistung wichtiger.

Aber: so riesig sind die Unterschiede wohl auch gar nicht. Die lassen sich wohl nur mit wirklich laaangen Versuchsreihen wirklich belegen.

Benno

By Stefan Pohl Date 2013-09-06 08:05

[quote="Benno Hartwig"]
[quote="Stefan Pohl"]Nur eine Engine, die auch mit wenig Zeit oder langsamer Hardware klarkommt ist wirklich stark, denn mit wenig Ressourcen (Zeit + Hardware) viel Leistung zu bringen ist die wahre (Programmier-)Kunst.[/quote]Na, das ist wohl nur deine höchstpersönliche Meinung.

Es geht immer um Spielstärkevergleiche, nie um absolute Leistung.
Wenn die eine Engine mit wenig Ressourcen besser klar kommt als eine andere, klar, dann ist das mehr-Leistung.
Aber wenn sie mit reichlich Ressourcen messbar weniger anzufangen weiß als eine andere, dann ist das eine Schwäche, und sie ist genau so eklatant.
Und der Anwender wird dann eben wählen, ob ihm die Schwäche oder die Stärke wichtiger ist.
Er wird ggf. wählen, welche Engine seinen Interessen am besten entgegen kommt.
Mein Eindruck: dir ist eben die kurz-Zeit-Leistung wichtiger.

Aber: so riesig sind die Unterschiede wohl auch gar nicht. Die lassen sich wohl nur mit wirklich laaangen Versuchsreihen wirklich belegen.

Benno
[/quote]

Stimme 100% zu.

Gruß - Stefan

By Benno Hartwig Date 2013-09-05 09:04

[quote="Stefan Pohl"]Hier der erste, sehr frühe Zwischenstand: Knapp 1500 Partien absolviert, +2.5 Elo zur Stockfish 130826 default...[/quote]Hast du nicht auch irgendwie die Befürchtung, dass du da Zeit und Strom investierst für ein Stück Software, an dem nur verständnislos an ein paar Stellen irgendwas kaputt gemacht wurde?
Ist es nicht so, als würdest du blind mit einem Schraubenzieher im Radio rumstochern, um hinterher zu testen, ob sich der Klang verbessert hat?

Dass die Engine dann gern abstürzt, hätte ein sehr wahrscheinliches Resultat sein können, oder dass sie total verbogen ist, und wenn die Software Glück hat, ist ihr Spiel unverändert geblieben. Ich denke, in diesem Umfeld agiert deine Forschung im Moment, und es ist dann einfach zu erwarten, dass der Stockmeister geringfügig schwächer oder stärker abschneidet.

Aber wenn es Spaß bringt, dann soll sicher gern jeder machen, was er möchte. Macht es Spaß, Stefan?

Benno

By Stefan Pohl Date 2013-09-05 12:56

[quote="Benno Hartwig"]
[quote="Stefan Pohl"]Hier der erste, sehr frühe Zwischenstand: Knapp 1500 Partien absolviert, +2.5 Elo zur Stockfish 130826 default...[/quote]Hast du nicht auch irgendwie die Befürchtung, dass du da Zeit und Strom investierst für ein Stück Software, an dem nur verständnislos an ein paar Stellen irgendwas kaputt gemacht wurde?
Ist es nicht so, als würdest du blind mit einem Schraubenzieher im Radio rumstochern, um hinterher zu testen, ob sich der Klang verbessert hat?

Dass die Engine dann gern abstürzt, hätte ein sehr wahrscheinliches Resultat sein können, oder dass sie total verbogen ist, und wenn die Software Glück hat, ist ihr Spiel unverändert geblieben. Ich denke, in diesem Umfeld agiert deine Forschung im Moment, und es ist dann einfach zu erwarten, dass der Stockmeister geringfügig schwächer oder stärker abschneidet.

Aber wenn es Spaß bringt, dann soll sicher gern jeder machen, was er möchte. Macht es Spaß, Stefan?

Benno
[/quote]

Hi Benno,

generell ist in letzter Zeit in Sachen Settings wenig passiert, ich wollte das einfach mal probieren. Zumal ich die neueste "normale" Stockfishversion gerade getestet habe und sonst im Top-Bereich nichts Neues zum Testen anliegt, ich also die Testzeit erübrigen kann.
Stabil ist die Version auf jeden Fall. Jetzt nach 1850 Partien liegt der Score genau auf dem Level von Stockfish 130826. Wenn die Änderungen wirklich so minimal sind, wie Horst sagt, dann werde ich wohl bei 2000 Partien oder so abbrechen. Immerhin zeigt sich so, daß meine Testmethodik prima genaue Resultate liefert - ist ja auch was. Auch wenn ich das schon nach den Tests der drei Komodo 5.1-Versionen wußte...
Ich habe übrigens gerade auch ein Setting entwickelt (für Stockfish), daß bei mir gegen Houdini 3 sehr gut scort (ein 100 Partien Match ging mit LS-Bedenkzeit 50-50 aus (der normale LS-Stockfishscore liegt gegen Houdini bei 41.55%)), dafür gegen andere nicht so. Wer mag, kanns ja mal ausprobieren (gut geeignet für playchess und das dortige Houdini-Milieu):
Mobility (Midgame)=115
Aggressiveness=130
Cowardice=110
Contempt Factor=25

Spielt (logischerweise) deutlich aggressiver. Bevor Nachfragen kommen, warum Cowardice und Aggressiveness hochgesetzt wurden: Das ist kein Widerspruch. Diese Parameter sind für die eigene (Cowardice) und gegnerische (Aggressiveness) Königssicherheit.

Stefan

By Frank Quisinsky Date 2013-09-06 06:03

Mobility (Midgame)=115

Hier würde ich eher runter setzen. Aggressivität hoch aber Mobility runter. Mobility höher und Aggressivität runter. Das mit den Setting ist nun so eine Sache, die höheren wurden ja schon auf Standard gesetzt. Denke da ist nur etwas rauszuholen wenn entgegengesetzt geschaltet wird. Steht beides hoch wird's Harakiri. Die anderen beiden finde ich sehr gut (Contemp ist ein echtes Problem, schrieb ich ja schon).

Viel Spaß damit

Frank

By Frank Quisinsky Date 2013-09-06 06:06 Edited 2013-09-06 06:11

Mobility (Midgame)=90 (ist eher in Ergänzug zu Contempt zu sehen, denn gerade im Mittelspiel in offenen Stellungen gibt es zu viele schnelle Remispartien). Also in Ergänzug zu höheren Contempt vermeiden.
Aggressiveness=140 (gar noch höher, hier ist einiges bei den letzten Versionen verloren gegangen auf Kosten der höheren Spielstärke, daher würde ich mit höheren Werte experimentieren).
Cowardice=105 (würde eher gerinfügig setzen)
Contempt Factor=25 (so wie von Dir gesetzt belassen oder vielleicht 20).

Wäre so meine Idee nach dem derzeitigen Spielstil angepasst.
Nur viel bringen wird es wahrscheinlich nicht mehr so wie einst bei PHQ in der 2.1.1

Viele Grüße
Frank

Stockfish nimmt etwas zu bei mehr Zeit. Daher wirken sich Settings besser mit mehr Zeit aus.
Wurde ja für mich auch überraschend kürzlich in einem hier geposteten Test ausführlich dargestellt.

By Stefan Pohl Date 2013-09-06 08:10

[quote="Frank Quisinsky"]
Mobility (Midgame)=115

Hier würde ich eher runter setzen. Aggressivität hoch aber Mobility runter. Mobility höher und Aggressivität runter. Das mit den Setting ist nun so eine Sache, die höheren wurden ja schon auf Standard gesetzt. Denke da ist nur etwas rauszuholen wenn entgegengesetzt geschaltet wird. Steht beides hoch wird's Harakiri. Die anderen beiden finde ich sehr gut (Contemp ist ein echtes Problem, schrieb ich ja schon).

Viel Spaß damit

Frank
[/quote]

Kann ja jeder machen, wie er mag. Das von mir gepostete Setting spielt halt schön und scort gut gegen Houdini und auf playchess kann ich mit meiner langsamen Hardware nur mal einen Lucky Punch landen, wenn Stockfish richtig aggressiv zur Sache geht. Habe gestern mal wieder einen vollen Punkt gegen einen 16 Core Houdini mit über 2600 playchess-Elo geholt. Mit meinem 4 Core Notebook. Das war schon schön.

Stefan

By Ludwig Burgin Date 2013-09-05 10:08

Hallo Stefan

Spiele mit Stockfish schon seit ein paar Tagen im Maschinenraummit den Settings von Dr. Joe,die er freundlicherweise auf seiner H.P.zur Verfügung stellt.Die Ergebnisse kann man durchaus als interessant bezeichnen.Nachteilig wirken sich überzogene Veränderungen bei verlorenen Partien im verwendeten Buch und möglicherweise in einem wenn überhaupt vorhandenen Enginelernen.

Gruß Ludwig