Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Enttäuschendes Zwischenergebnis von Stockfish 4 im LS-test
- - By Stefan Pohl Date 2013-08-22 07:34
Hallo,

nunmehr sind 3300 von 10000 Partien absolviert (also das erste Drittel) und Stockfish 4 liegt z.Zt. 5 Elo schlechter als der Gesamtscore von Stockfish 130809 (die letzte und beste development-Version, die in der LS-Rangliste verzeichnet ist).
Das ist natürlich noch innerhalb der Errorbar, aber daß Stockfish 4 (trotz zweier functional changes seit Stockfish 130809) eine Steigerung ist, glaube ich nicht mehr.
Endergebnis voraussichtlich Samstag.

Stefan
Parent - - By Michael Scheidl Date 2013-08-22 07:50
Danke. - Wegen +/- 5 Elo werden wir keine schlaflosen Nächte haben. Stockfish 4 tritt an, um der neue nTCEC Grand Champion zu werden!

Das wird spannend.
Parent - By Stefan Pohl Date 2013-08-22 07:52
[quote="Michael Scheidl"]
Danke. - Wegen +/- 5 Elo werden wir keine schlaflosen Nächte haben. Stockfish 4 tritt an, um der neue nTCEC Grand Champion zu werden!

Das wird spannend.
[/quote]

Nö, natürlich nicht. Bißchen schade wäre es trotzdem, wenn das Ergebnis so bliebe. Ich hatte eher wieder auf +5 bis +7 Elo gehofft...

Stefan
Parent - By Stefan Pohl Date 2013-08-22 07:51
Deckt sich übrigens gut mit dem IPON-Zwischenstand: nach  1411 Partien: +43 Elo zu Stockfish 3. Und mein Stockfish 4 Zwischenresultat (3300 Partien) liegt bei +48 Elo zu Stockfish 3.

Stefan
Parent - - By Benno Hartwig Date 2013-08-22 07:58
[quote="Stefan Pohl"]...aber daß Stockfish 4 (trotz zweier functional changes seit Stockfish 130809) eine Steigerung ist, glaube ich nicht mehr.[/quote]Eine Steigerung gegenüber der besten Development-Version? Warum hätte SF4 noch eine weitere Steigerung sein sollen?
Benno
Parent - By Stefan Pohl Date 2013-08-22 08:01
[quote="Benno Hartwig"]
[quote="Stefan Pohl"]...aber daß Stockfish 4 (trotz zweier functional changes seit Stockfish 130809) eine Steigerung ist, glaube ich nicht mehr.[/quote]Eine Steigerung gegenüber der besten Development-Version? Warum hätte SF4 noch eine weitere Steigerung sein sollen?
Benno
[/quote]

Weil es seitdem 2 functional changes gegeben hat, die beide im internen Test gegen die jeweils ältere Stockfish-development-version recht gut gescored haben. Steht doch alles auf der Downloadseite der development-versionen.
Aber ich poste es hier mal schnell hin:

Author: Tom Vijlbrief
Date: Tue Aug 13 14:20:02 2013 +0200
Timestamp: 1376396402

Bonus for a pawn in front of knight/bishop

Idea originated from a post of Don Dailey
on talkchess and reported by Eelco.

This is the last succesful attempt of a long
series of trials (as usually happens, the
'idea' alone is not enough).

Passed both short 15secs TC
LLR: 2.97 (-2.94,2.94)
Total: 7629 W: 1645 L: 1515 D: 4469

And long 60secs TC
LLR: 2.96 (-2.94,2.94)
Total: 10218 W: 1932 L: 1775 D: 6511
---------------------------------------

Author: Leonid Pechenik
Date: Sun Aug 18 09:13:57 2013 +0200
Timestamp: 1376810037

Further tweak movecount pruning

Passed both short TC
LLR: 2.95 (-2.94,2.94)
Total: 15140 W: 3125 L: 2976 D: 9039

And long TC
LLR: 2.95 (-2.94,2.94)
Total: 17118 W: 3165 L: 2974 D: 10979
--------------------------------------

Stefan
Parent - - By Benno Hartwig Date 2013-08-22 09:07
[quote="Stefan Pohl"]...Stockfish 4 liegt z.Zt. 5 Elo schlechter als der Gesamtscore von Stockfish 130809[/quote]Wieviele Partien braucht es ungefähr, um zwischen den beiden Thesen
- Engine A und B sind gleich stark
- Engine A ist um 5 ELO-Stärker als B
einigermaßen sicher zu entscheiden?
Benno
Parent - - By Stefan Pohl Date 2013-08-22 09:27
[quote="Benno Hartwig"]
[quote="Stefan Pohl"]...Stockfish 4 liegt z.Zt. 5 Elo schlechter als der Gesamtscore von Stockfish 130809[/quote]Wieviele Partien braucht es ungefähr, um zwischen den beiden Thesen
- Engine A und B sind gleich stark
- Engine A ist um 5 ELO-Stärker als B
einigermaßen sicher zu entscheiden?
Benno
[/quote]

Kommt ganz darauf an, was du unter "einigermaßen sicher" verstehst...
Bei der LS-Rangliste spiele ich mindestens 10000 Partien, das ergibt eine 95%-Errorbar von +/-5 Elo. Vergleicht man nun zwei Engineversionen, dann addieren sich die Errorbars, also hätte man theoretisch eine Unsicherheit von +/-10 Elo. Allerdings ist es zum Rand der Errorbar hin zunehmend unwahrscheinlicher, daß ein Score dort landet und zur Mitte hin wahrscheinlicher. Ergo würde ich sagen, daß zwei vollständige LS-testruns von 2 Engineversionen schon eine "einigermaßen sichere" Aussage erlauben, ob eine Version 5 Elo schwächer ist oder eher gleich stark.
Aber: Ganz sicher ist es nicht und wird es bei keinem Test je sein. Es ist alles Statistik und Wahrscheinlichkeit. Man kann nur die Unsicherheit reduzieren, aber nicht ausmerzen.

Stefan
Parent - - By Benno Hartwig Date 2013-08-22 10:43
[quote="Stefan Pohl"]Ergo würde ich sagen, daß zwei vollständige LS-testruns von 2 Engineversionen schon eine "einigermaßen sichere" Aussage erlauben, ob eine Version 5 Elo schwächer ist oder eher gleich stark.[/quote]Mag sein. Aber wir sind ja och nicht so weit. Bei 3300 oder 1500 Partien könnte die Wahrscheinlichkeit, dass bei zwei gleichstarken Engines irgendeine um rechnerisch 5 ELO vorn liegt, gar nicht so klein sein. Meine 'Enttäuschung' würde ich dann noch zügeln wollen.
Benno
Parent - By Stefan Pohl Date 2013-08-22 12:54
[quote="Benno Hartwig"]
[quote="Stefan Pohl"]Ergo würde ich sagen, daß zwei vollständige LS-testruns von 2 Engineversionen schon eine "einigermaßen sichere" Aussage erlauben, ob eine Version 5 Elo schwächer ist oder eher gleich stark.[/quote]Mag sein. Aber wir sind ja och nicht so weit. Bei 3300 oder 1500 Partien könnte die Wahrscheinlichkeit, dass bei zwei gleichstarken Engines irgendeine um rechnerisch 5 ELO vorn liegt, gar nicht so klein sein. Meine 'Enttäuschung' würde ich dann noch zügeln wollen.
Benno
[/quote]

Stimmt durchaus. Ich bin halt Enthusiast, besonders wenn es um Stockfish geht...Da ist dann auch mal etwas vorschnell die Enttäuschung da, wenn es mal nicht im Wochenrhythmus vorwärts geht.

Warten wir einfach das Endergebnis am Samstag ab.

Stefan
Parent - - By Rudolf Rohs Date 2013-08-22 09:59
Hi Stefan,

vielleicht ist Stockfish 4 besonders gegen Houdini geeicht?
Bisher steht er bei Ingo gut positiv gegen Houdini 3, aber negativ gegen Komodo.
Zufall oder zeigen sich bei Dir dieselben Tendenzen?

Gruß

Rudolf
Parent - By Stefan Pohl Date 2013-08-22 10:13
[quote="Rudolf Rohs"]
Hi Stefan,

vielleicht ist Stockfish 4 besonders gegen Houdini geeicht?
Bisher steht er bei Ingo gut positiv gegen Houdini 3, aber negativ gegen Komodo.
Zufall oder zeigen sich bei Dir dieselben Tendenzen?

Gruß

Rudolf
[/quote]

Die letzte von mir getestete development-Version ist vom 09.August (und damit sehr nah dran an Stockfish 4). Diese ist Teil des LS top10 tournaments und dort kannst du in der Kreuztabelle alle Einzelergebnisse einsehen.

http://ls-ratinglist.beepworld.de/ls-top10-tournament.htm

Stefan
Parent - - By Benno Hartwig Date 2013-08-22 10:49
[quote="Rudolf Rohs"]vielleicht ist Stockfish 4 besonders gegen Houdini geeicht?
Bisher steht er bei Ingo gut positiv gegen Houdini 3, aber negativ gegen Komodo.[/quote]Es wäre eine so immens große Sensation, wenn SF4 auf lange Sicht gegen H3 vorn liegen könnte, dass ich daran erst mal nicht glaube.
SF4 ist nicht so schrecklich weit hinter H3. OK. Dass SF4 jetzt aber führt, ist Zufall.

Benno
Parent - - By Stefan Pohl Date 2013-08-22 12:57
[quote="Benno Hartwig"]
[quote="Rudolf Rohs"]vielleicht ist Stockfish 4 besonders gegen Houdini geeicht?
Bisher steht er bei Ingo gut positiv gegen Houdini 3, aber negativ gegen Komodo.[/quote]Es wäre eine so immens große Sensation, wenn SF4 auf lange Sicht gegen H3 vorn liegen könnte, dass ich daran erst mal nicht glaube.
SF4 ist nicht so schrecklich weit hinter H3. OK. Dass SF4 jetzt aber führt, ist Zufall.

Benno
[/quote]

Gerade eben ist Stockfish übrigens beim IPON-testrun gegen Houdini 3 unter die 50%-Marke gerutscht.

Stefan
Parent - By Rudolf Rohs Date 2013-08-22 15:29
Und jetzt ist er wieder drüber.
Überraschend starke Leistung.

Gruß

Rudolf
Up Topic Hauptforen / CSS-Forum / Enttäuschendes Zwischenergebnis von Stockfish 4 im LS-test

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill