Verschiedene Stockis im direkten Vergleich

By Benno Hartwig Date 2013-12-13 12:56 Edited 2013-12-13 13:07

Interessant finde ich

Code:

Stockfish DD  - Stockfish 3.0    : 69.0 - 31.0 
Stockfish DD  - Stockfish 2.3.1  : 62.5 - 37.5

Vermutlich hat der schnöde Zufall dafür gesorgt, dass sich SF231 hier noch besser wehren konnte. Ein Hinweis dann auf die stattliche Fehlerlastigkeit auch der anderen Ergebnisse.

Aber wenn du Lust hast, dann lässt du diese beiden Begegnungen noch mal mit deutlich mehr Partien laufen.
Sie könnten aus meiner Sicht auch weniger Bedenkzeit haben. Auch bei z.B. 1m+0,5s werden durchweg nur 1 bis 2 Plys weniger durchgerechnet. Nach meinem Eindruck siehst du dann Ergebnisse, die nicht sonderlichen von 3+1-Ergebnissen abweichen.

Benno

By Bernhard Traven Date 2013-12-14 09:56

Benno, der test kam nicht von mir, dass war ein netzfund.
habe es nur nur aus informativen zwecken hier gepostet...
lasse gerade Fire 3 gegen Stocki DD in nem mini-test laufen, in 4h wissen wir dann mehr...

By Benno Hartwig Date 2013-12-14 12:26

> in 4h wissen wir dann mehr...

Wie viel wissen wir denn dann mehr?
Die von dir hier gepostete Liste führt halt so schön vor Augen, wie sehr zufallsbelastet Einschätzungen sind, die auf nur-100-Partien-Tests beruhen.
Benno

By Bernhard Traven Date 2013-12-14 13:53

das glaube ich dir gern, dass die wenigen partien mit sicherheit keine umfassende aussage treffen können.
soll doch bloß nen dezenten hinweis auf die (eventuelle) spielstärke geben...
ich benütze gern den NunnTest (nur 40partien), schlage jetzt nicht die hände über dem kopf zusammen,
aber wie schon geschrieben: soll doch nur grob die richtung weisen...
wenn Stefan seine mega-tests laufen läßt, dann wissen wir mehr...

By Stefan Pohl Date 2013-12-14 15:36

Bernhard Traven schrieb:

So isses! Aber los gehts mit Fire frühestens Montagabend, vorher ist der Komodo TCECr Testrun nicht durch (bisher +18 Elo nach 3500 Partien). Und da Fire z.Zt. nicht im LS-top10-tournament vertreten ist, muß er gegen alle 11 Gegner spielen, also 11000 Partien, statt "nur" 10000, wie Komodo, der ja nicht gegen seinen Vorgänger spielen muß, der sich ja im LS-top10-tournament befindet. Daher dauert es mindestens bis Freitag, bis der Fire 3 Test durch ist. Zuvor muß ich auch noch genau durchmessen, welche der Fire-Compiles auf meinem Sytemen am schnellsten ist. Ob ich das Montag noch schaffe, weiß ich nicht, evt. geht es erst Dienstag früh los und dann wirds mit Freitag knapp...
Stay tuned!

Stefan

By Hauke Lutz Date 2013-12-14 22:52

Nach 3500 Partien +18 ELO zu Komodo6 ist sehenswert, finde ich, gerade wenn man bedenkt das es nur etwas über 2 Monate seit dem Erscheinen von Komodo6 vergangen sind.

By Stefan Pohl Date 2013-12-15 12:12

Hauke Lutz schrieb:

Nach 3500 Partien +18 ELO zu Komodo6 ist sehenswert, finde ich, gerade wenn man bedenkt das es nur etwas über 2 Monate seit dem Erscheinen von Komodo6 vergangen sind.

Zur Halbzeit ist die Lage unverändert. Die gute Nachricht ist, daß die bugfix-Version bisher problemlos läuft und keinerlei Crashes generiert hat...
Da Chiron 2 angeblich 40 Elo besser sein soll als V1.5 könnte es gerade so reichen, um in den unteren Bereich der LS-Rangliste einzuziehen und die 30%-Regel zu schaffen. Daher habe ich mich zum Kauf entschlossen, zumal es noch einen Frühkäufer-Rabatt gab und ich nur knapp 18€ zahlen mußte. Chiron 2 werde ich dann nach Fire 3 testen, also Ende der kommenden Woche. Dadurch verschiebt sich Sting SF4 natürlich nochmals nach hinten. Dafür bitte ich um Verständnis. Viel zu tun im Moment. Aber über die Feiertage sollte es ja ruhiger werden, da müßte ich alles auf den aktuellen Stand bringen können...

Stefan

By Benno Hartwig Date 2013-12-15 10:09

> schlage jetzt nicht die hände über dem kopf zusammen

Ne, mache ich nicht, und vielleicht quake ich manchmal auch zu viel, sorry.

Auch 100-Partien-Tests geben häufig schon ganz plausible Ergebnisse.
Nur sind solche, die recht krass von der Realität abweichen auch noch ziemlich häufig.
Und man steht halt da mit seinem einsamen Ergebnis und weiß nicht, ob es solch ein noch recht wahrscheinlicher krasser Ausrutscher ist.

An diesen Stocki-Ergebnissen fand ich so 'nett':

Stockfish 3.0 - Stockfish 2.3.1 : 53.0 - 47.0
bedeutet für sich genommen: SF3.0 war um war um ca. 21 ELO stärker als SF2.3.1 (Vielleicht wirklich ein ganz plausibler Wert)

Aber:
Stockfish DD - Stockfish 3.0 : 69.0 - 31.0
bedeutet: SFDD war um 141 ELO der Version 3.0 überlegen

Stockfish DD - Stockfish 2.3.1 : 62.5 - 37.5
bedeutet: SFDD war um 92 ELO der Version 2.3.1 überlegen

Woraus die mutige Schätzung "2.3.1 ist um 49 ELO stärker als 3.0" entstehen könnte

Solche Diskrepanzen (hier immerhin 49+21 ELO = 70 ELO) sind nach meiner Erfahrung bei 100 Partien durchaus unangenehm häufig.
Und vermutlich auch noch größere!

Meine Meinung:
Ein Erfolg in einem 100-Partien-Match kann Motivation geben, die Sache mal genauer anzusehen.
Er sagt für sich genommen aber noch sehr wenig aus.

Benno

By Bernhard Traven Date 2013-12-15 10:29

bei Stefan's liste entdecke ich folgende ergebnisse:

Stockfish DD x64s 3120
Stockfish 4 x64s 3067
Stockfish 3 x64s 3019
Stockfish 2.3.1 x64s 2995

Code:

Woraus die mutige Schätzung "2.3.1 ist um 49 ELO stärker als 3.0" entstehen könnte

das untermauert natürlich deine these, dass bei einer geringen partienanzahl durchaus schwere
ungenauigkeiten auftreten können!!

aber wie schon geschrieben Benno, diese statistik war ein netzfund, ich habe sie hier nur
rein aus informativen zwecken gepostet...

By Guest Date 2013-12-15 11:10

Bernhard Traven schrieb:

bei Stefan's liste entdecke ich folgende ergebnisse:

Stockfish DD x64s 3120
Stockfish 4 x64s 3067
Stockfish 3 x64s 3019
Stockfish 2.3.1 x64s 2995

Code:

Woraus die mutige Schätzung "2.3.1 ist um 49 ELO stärker als 3.0" entstehen könnte

Code:

das untermauert natürlich deine these, dass bei einer geringen partienanzahl durchaus schwere
ungenauigkeiten auftreten können!!

...

herr prof. elo hat sein system n i c h t für solche mini wettkämpfe entwickelt, daher ist die anwendung auf solche nicht zulässig