Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Little Stockfish 230314 test
- - By Ingo B. Date 2014-03-23 14:31
Hello

I wanted to know where a current Stockfish is rated with a reasonable time control and a field of opponents with much less "inbreading".

I started this as a private project just telling a few people but it seems that this is of interest for many as I got quite some response.

Some conditions as usually + 4pc SYZYGY bases for "Stockfish 230314 64 SSE4.2".

http://www.inwoba.de

Stockfish DD at 3072. This Version will not be included in the list, it is just to see where it is.

Bye
Ingo
Parent - - By Patrick Götz Date 2014-03-23 17:12
Diesen Test verfolge ich mit großer Spannung.

268.5  -  103.5    72.18%    Perf=3081
372 out of 3080 games played

Nach 372 Partien also +9 Elo zu DD...
Parent - - By Jörg Oster Date 2014-03-23 17:57
Laut dem letzten Regression Test, müsste sich da noch einiges tun! 
Parent - - By Ingo B. Date 2014-03-23 18:15
Jörg Oster schrieb:

Laut dem letzten Regression Test, müsste sich da noch einiges tun! 


Darauf beziehe ich mich ja mit dem "inbreeding" und der Bemerkung über zu kurze Zeitkontrollen (im Stockfishtest und bei anderen). Manche Liste zeigt 50 Elo zw. DD und einer aktuellen Version, da will ich doch mal etwas seriöser sehen was wirklich wahr ist.

Gruß
Ingo
Parent - By Jörg Oster Date 2014-03-24 11:14
Das hatte ich anders interpretiert.

Mittlerweile sind es ja annähernd 30 Punkte mehr. Ich denke, das trifft es ganz gut.
Das ist halt der Vorteil, wenn man gegen mehrere Gegner und höherer BZ spielen lässt.
Danke für den Test.

Grundsätzlich verstehe ich auch nicht, warum man nicht wenigstens die BZ etwas anhebt. Bei den vielen Rechnern, die zur Verfügung gestellt werden ...
Parent - - By Werner Mueller Date 2014-03-24 12:31
Ingo B. schrieb:

Jörg Oster schrieb:

Laut dem letzten Regression Test, müsste sich da noch einiges tun! 


Darauf beziehe ich mich ja mit dem "inbreeding" und der Bemerkung über zu kurze Zeitkontrollen (im Stockfishtest und bei anderen). Manche Liste zeigt 50 Elo zw. DD und einer aktuellen Version, da will ich doch mal etwas seriöser sehen was wirklich wahr ist.

Gruß
Ingo

Naja, m.E. spielen hier weniger 'imbreeding' oder zu kurze Bedenkzeiten die entscheidende Rolle, als vielmehr die unterschiedliche Elospreizung der jeweiligen Gegnerschaft.

Dass die Bedenkzeiten im Stockfishtest (oder auch int Stefans Liste) gar nicht soo daneben sein können, sieht man ja daran, dass auch in Deinem Test (2349 out of 3080) Stockfish sowohl gegen Houdini als auch gegen Komodo (und übrigens auch gegen alle anderen) im direkten Vergleich jeweils vorne liegt.

Und da hat der Frank (Quisinsky) schon Recht (wenn er nur nicht immer der Statistik und den ErrorBars die Schuld daran geben würde). Eine Ratingzahl hängt maßgebend von der gewählten Gegnerschaft ab.

Und noch eine Anmerkung (in Richtung Tom Paul): gegen schwächere Gegnerschaft besonders gut abzuschneiden muss nicht unbedingt DAS Ziel sein, denn es birgt natürlich auch die Gefahr einer Unsolidität, welche dann im Spiel (im direkten Vergleich!) gegen starke Gegnerschaft zum Tragen kommen kann (zumal es einem wirklich wurscht sein sollte, ob z.B. die alten Klassiker nun mit 80% oder 90% vermöbelt werden).
Parent - - By Gerhard Sonnabend Date 2014-03-24 15:07
Werner Mueller schrieb:

Naja, m.E. spielen hier weniger 'imbreeding' oder zu kurze Bedenkzeiten die entscheidende Rolle, als vielmehr die unterschiedliche Elospreizung der jeweiligen Gegnerschaft.
[...snip...]


Dies lese ich nun schon mindestens das zweite Mal.
In unseren Tests (CEGT) und auch für meine QBRL
ist das noch nie aufgefallen.

Gibt es irgendwo etwas "greifbares" zum Thema ?
Parent - - By Werner Mueller Date 2014-03-24 16:17
Gerhard Sonnabend schrieb:

Werner Mueller schrieb:

Naja, m.E. spielen hier weniger 'imbreeding' oder zu kurze Bedenkzeiten die entscheidende Rolle, als vielmehr die unterschiedliche Elospreizung der jeweiligen Gegnerschaft.
[...snip...]


Dies lese ich nun schon mindestens das zweite Mal.
In unseren Tests (CEGT) und auch für meine QBRL
ist das noch nie aufgefallen.

Gibt es irgendwo etwas "greifbares" zum Thema ?

Dein Argument bzw. Deine Bedenken waren ja, dass die Bedenkzeiten des Stockfishtestes zu kurz sein könnten (um evtl. Fortschritte zuverlässig beurteilen und somit erzielen zu können).
Mein Einwand war, dass Dein Test diese Bedenken nicht bestätigt, denn eine positive Bilanz gegen sämtliche Gegner kann ja nicht ganz die falsche Richtung gewesen sein.

Der ganze Rest (dass es DIE Testumgebung nicht gibt usw.) wäre ein Streit um des Kaisers Bart - wenn er einen soo langen (ich meine: Bart) denn gehabt hätte.
Parent - - By Gerhard Sonnabend Date 2014-03-24 19:33
Das war wohl auf Ingo gemünzt, oder ?
Parent - - By Werner Mueller Date 2014-03-24 20:42
Gerhard Sonnabend schrieb:

Das war wohl auf Ingo gemünzt, oder ?

Nö, oder hat er etwa einen langen Bart?
... übrigens: echt nicht.
Parent - - By Gerhard Sonnabend Date 2014-03-24 21:08
Werner Mueller schrieb:

Gerhard Sonnabend schrieb:

Das war wohl auf Ingo gemünzt, oder ?

Nö, oder hat er etwa einen langen Bart?
... übrigens: echt nicht.


Dies will aber so gar nicht passen:
Zitat Anfang:
Dein Argument bzw. Deine Bedenken waren ja, dass die Bedenkzeiten des Stockfishtestes zu kurz sein könnten
(um evtl. Fortschritte zuverlässig beurteilen und somit erzielen zu können). Mein Einwand war, dass Dein Test
diese Bedenken nicht bestätigt, denn eine positive Bilanz gegen sämtliche Gegner kann ja nicht ganz die falsche
Richtung gewesen sein.
:Zitat Ende

???
Was verstehe ich gerade nicht ?
Ich habe mich noch nie und nirgends über die Stockfish Inzuchttests geäussert ...
Obwohl ich etwas dazu sagen könnte.
Parent - By Werner Mueller Date 2014-03-25 01:58
Gerhard Sonnabend schrieb:

Werner Mueller schrieb:

Gerhard Sonnabend schrieb:

Das war wohl auf Ingo gemünzt, oder ?

Nö, oder hat er etwa einen langen Bart?
... übrigens: echt nicht.


Dies will aber so gar nicht passen:
Zitat Anfang:
Dein Argument bzw. Deine Bedenken waren ja, dass die Bedenkzeiten des Stockfishtestes zu kurz sein könnten
(um evtl. Fortschritte zuverlässig beurteilen und somit erzielen zu können). Mein Einwand war, dass Dein Test
diese Bedenken nicht bestätigt, denn eine positive Bilanz gegen sämtliche Gegner kann ja nicht ganz die falsche
Richtung gewesen sein.
:Zitat Ende

???
Was verstehe ich gerade nicht ?
Ich habe mich noch nie und nirgends über die Stockfish Inzuchttests geäussert ...
Obwohl ich etwas dazu sagen könnte.

Klar, Du hast Recht. Hatte irrtümlich angenommen, Dein Posting wäre von Ingo.

Auch Dein Einwand  Das_war_wohl_auf_Ingo_gemünzt,_oder_?  hat mich nicht auf die Spur gebracht (hatte ich so missverstanden, als wolltest Du andeuten, ich hätte irgendwas Böses in Richtung Ingo gemeint). 
Parent - - By Ingo B. Date 2014-03-24 17:11
Werner Mueller schrieb:

Naja, m.E. spielen hier weniger 'imbreeding' oder zu kurze Bedenkzeiten die entscheidende Rolle, als vielmehr die unterschiedliche Elospreizung der jeweiligen Gegnerschaft.


Immer wieder gelesen, aber ich habe noch nie ein valides Bsp dafür gesehen. Ich habe den Eindruck das hat mal jemand in die Welt gesetzt, und weil es so schön eingängig ist wird es wiederholt.
Fakt ist (), so lange genug Gegner vorhanden sind (Die nicht gerade zu 0 geschlagen werden) und die genug Spiele gegeneinander machen habe ich noch kein Bsp gesehen in dem die ELospreizung eine Rolle gespielt hätte. Die Behauptung ist nur Schall und Rauch.

Die Daten sind da (in meinem Download), nimm eine Engine aus meiner Liste, zähle die Punkte gegen die untere Hälfte der Gegnerschaft und gegen die obere Hälfte zusammen, erstelle zwei Liste und zeige mir wo das Ergebniss ausserhalb der dann erspielten Errorbar liegt (und statistisch darf das sogar bei einer von 20 Engines passieren!)

Werner Mueller schrieb:

Dass die Bedenkzeiten im Stockfishtest (oder auch int Stefans Liste) gar nicht soo daneben sein können, sieht man ja daran, dass auch in Deinem Test (2349 out of 3080) Stockfish sowohl gegen Houdini als auch gegen Komodo (und übrigens auch gegen alle anderen) im direkten Vergleich jeweils vorne liegt.


Den Stockfishtest bemängele ich hauptsächlich weil er ausschließlich gegen Stockfish testet. Das finde ich Konzeptionel so schlecht, dass ich nicht mal weiß wie viele Elo die in ihrem Test seit DD "erspielt" haben. Der LS Test hat zu viele gleiche Gegner und ist noch ein bischen zu kurz.
Was den "direkten" Vergleich betrifft ist der irrelevant für eine Elozahl, wengleich so natürlich die Spannung erhöht wird.

Werner Mueller schrieb:

... Eine Ratingzahl hängt maßgebend von der gewählten Gegnerschaft ab.


Das ist ein Allgemeinplatz. Natürlich könnte ich aus meiner Gegnerschaft die 8 raussuchen die am besten gegen Stockfish performen (o.u.). Dann wäre Stockfish schlechter (oder besser). Aber so lange ich ein ausgewogenes Feld habe spielt die oben angesprochene Spreizung (fast) keine Rolle (und mit Sicherheit nicht in meinem Test, dafür sind die erziehlten Scores gegen die Gegner ausgewogen genug). Das Schlüsselwort ist hier "ausgewogen". Ein Feld das zu 50%+ aus der selben Engine besteht darf ruhig bezweifelt werden - wenn es nach mir geht

Gruß
Ingo
Parent - - By Werner Mueller Date 2014-03-24 17:48
Ingo B. schrieb:

Das Schlüsselwort ist hier "ausgewogen".

So ist es.
Richtig ist aber auch, das jeder unter diesem Begriff etwas anderes verstehen kann.

Falls ich nichts Besseres zu tun habe, werde ich nach Ende Deines Tests mal die Ratingpunkte R(1) ... R(14) berechnen, wobei
R(1): Gegner: Houdini;
R(2): Gegner: Houdini, Komodo;
R(3): Gegner: Houdini, Komodo, Gull;
.
.
.
R(14): Gegner: alle
Parent - - By ? Date 2014-03-24 18:08
Werner Mueller schrieb:


Falls ich nichts Besseres zu tun habe, werde ich nach Ende Deines Tests mal die Ratingpunkte R(1) ... R(14) berechnen, wobei
R(1): Gegner: Houdini;
R(2): Gegner: Houdini, Komodo;
R(3): Gegner: Houdini, Komodo, Gull;
.
.
.
R(14): Gegner: alle


Kannst du gerne machen, aber gerade diese Engine eignet sich dafür nicht besonders. Ein kurzer Blick auf die momentane individuelle Performance verrät uns, das die Engine (bei 2894 Spielen) zw dem besten (3134) und dem schlechtesten (3093) Gegner gerade einmal 40 Elo Performanceunterschied hat. Aus Erfahrung weiß ich, dass das sehr wenig ist. Du wirst nicht viel Freude haben mit R(1) bis R(14) Da wird nicht viel bei rauskommen was ausserhalb der dann gültigen Errorbar ist (Es sei denn SF verliert oder gewinnt alle verbleibenden Spiele gegen eine Engine) Ich hatte schon durchaus Enignes die in diesem Feld mehr als 100 Elo Unterschied hatten.

Gruß
Ingo
Parent - - By Werner Mueller Date 2014-03-24 19:11
Ingo Bauer schrieb:

Werner Mueller schrieb:


Falls ich nichts Besseres zu tun habe, werde ich nach Ende Deines Tests mal die Ratingpunkte R(1) ... R(14) berechnen, wobei
R(1): Gegner: Houdini;
R(2): Gegner: Houdini, Komodo;
R(3): Gegner: Houdini, Komodo, Gull;
.
.
.
R(14): Gegner: alle


Kannst du gerne machen, aber gerade diese Engine eignet sich dafür nicht besonders. Ein kurzer Blick auf die momentane individuelle Performance verrät uns, das die Engine (bei 2894 Spielen) zw dem besten (3134) und dem schlechtesten (3093) Gegner gerade einmal 40 Elo Performanceunterschied hat. Aus Erfahrung weiß ich, dass das sehr wenig ist. Du wirst nicht viel Freude haben mit R(1) bis R(14) Da wird nicht viel bei rauskommen was ausserhalb der dann gültigen Errorbar ist (Es sei denn SF verliert oder gewinnt alle verbleibenden Spiele gegen eine Engine) Ich hatte schon durchaus Enignes die in diesem Feld mehr als 100 Elo Unterschied hatten.

Gruß
Ingo

50 Punkte Differenz zwischen DD und der getesteten Version für 'unseriös' halten (einerseits), und 40 Punkte als 'gerade mal' bezeichnen (andererseits), passt aber nicht ganz zusammen. (kleines verstecktes Foul von mir )

Eigentlich interessiert mich nur R(7) im Vergleich zu R(14) (wg. der Elo-Spreizung).

ABER: Ergebnis völlig wurscht - das ist keine Kritik an Deiner Liste (dazu habe ich keinerlei Anlass - ganz im Gegenteil). Es ist lediglich Kritik an Deiner Kritik.

btw.:
wenn unter 'Name' ein '?' eingetragen ist, gibt es beim Zitieren Salat.
Parent - By ? Date 2014-03-24 19:59
Werner Mueller schrieb:


50 Punkte Differenz zwischen DD und der getesteten Version für 'unseriös' halten (einerseits), und 40 Punkte als 'gerade mal' bezeichnen (andererseits), passt aber nicht ganz zusammen. (kleines verstecktes Foul von mir )



Sehr versteckt ... es ist ein Unterschied ob eine individuelle Performance auseinanderläuft oder ein Testfeld/Zeitkontrolle eine Abweichung produziert.

Gruß
Ingo

PS: Wenn ein "?" einen Fehler beim Zitieren verursacht ist das ein Fehler der forensoftware der repariert werden sollte, das mußt du nicht mir sagen! Versuchsweise trage ich mal ein echtes ? ein und lasse es versehentlich nicht leer, mal sehen was passiert.
Parent - - By Werner Mueller Date 2014-03-24 20:24
Ja, ich belasse es bei R(7) und R(14):

Die jeweiligen prozentualen Ergebnisse und die durchschnittlichen Gegnerschaft habe ich mit Exel berechnet, die sich ergebende Ratingzahl habe ich hier http://www.schachbund.de/anhang-21.html aus der Tabelle ausgelesen:

R(07) 65,09% 3003 +110 => 3113
R(14) 73,42% 2916 +175 => 3091

d.h. gegen die obere Hälfte des Feldes (mit einer Spreizung von 227 Punkten) errechnete sich ein Rating von 3113,
gegen das gesammte Feld (mit einer Spreizung von 319 Punkten) errechnet sich ein Rating von 3091.

Dieser Unterschied von 22 Punkten passt doch ganz wunderbar - jedenfalls zu dem, was ich erwartet habe.
Parent - - By Ingo B. Date 2014-03-24 21:24
Werner Mueller schrieb:

Ja, ich belasse es bei R(7) und R(14):

Die jeweiligen prozentualen Ergebnisse und die durchschnittlichen Gegnerschaft habe ich mit Exel berechnet, die sich ergebende Ratingzahl habe ich hier <a class='urs' href='http://www.schachbund.de/anhang-21.html'>http://www.schachbund.de/anhang-21.html</a> aus der Tabelle ausgelesen:

R(07) 65,09% 3003 +110 => 3113
R(14) 73,42% 2916 +175 => 3091

d.h. gegen die obere Hälfte des Feldes (mit einer Spreizung von 227 Punkten) errechnete sich ein Rating von 3113,
gegen das gesammte Feld (mit einer Spreizung von 319 Punkten) errechnet sich ein Rating von 3091.

Dieser Unterschied von 22 Punkten passt doch ganz wunderbar - jedenfalls zu dem, was ich erwartet habe.


Ja passt gut, ist nur falsch, weil die DWZ Liste Quatsch ist. (Deine % Werte stimmen ungefähr)

   2 SFish 230314               3090 3080.0 (2284.0 : 796.0)
                                     220.0 (114.5 : 105.5) Houdini 4                  3111
                                     220.0 (126.5 :  93.5) Komodo TCECr               3048
                                     220.0 (136.0 :  84.0) Gull 2.8                   3016
                                     220.0 (149.5 :  70.5) Critter 1.4a               2979
                                     220.0 (156.5 :  63.5) Equinox 2.02               2969
                                     220.0 (151.5 :  68.5) Deep Rybka 4.1             2957
                                     220.0 (168.0 :  52.0) Chiron 2                   2885
                                     220.0 (179.0 :  41.0) Hannibal 1.4b              2865
                                     220.0 (183.5 :  36.5) Senpai 1.0                 2836
                                     220.0 (182.5 :  37.5) Protector 1.5.0            2833
                                     220.0 (178.5 :  41.5) Naum 4.2                   2830
                                     220.0 (182.0 :  38.0) HIARCS 14 WCSC 32b         2816
                                     220.0 (190.5 :  29.5) Jonny 6.00                 2801
                                     220.0 (185.5 :  34.5) Deep Shredder 12           2800


Gegen die TOP 7 sind es 1002,5 Punkte bei 1540 Spielen, oder 65.1% gegen einen Gegnerdurchschnitt von 2981 ergibt das eine Eloperformance von 3089!
Gegen die LOW 7 sind es 1281,0 Punkte bei 1540 Spielen, oder 83,2% gegen einen Gegnerdurchschnitt von 2826 ergibt das eine Eloperformance von 3103!
Gegen alle sind es 2284 Punkte bei 3080 Spielen, oder 74,2% gegen einen Gegnerdurchschnitt von 2910 ergibt das eine Eloperformance von 3093! (Die 3 Elo Unterschied ist BAYES zu reiner Eloformel und die Gegnerelo sind mit Bayes berechnet, Elostat würde das genauer anzeigen, aber drei Elo rauf oder runter ...)

Fakt ist () SFish performte gegen die UNTERE Hälfte besser als gegen die Obere, deine Zahlen (Dank DWZ Liste) stimmen nicht.

Gugst du hier: http://de.wikipedia.org/wiki/Elo-Zahl die Formel aus dem erfundenen Bsp ein bischen umstellen und dann geht das. Du brauchst keine DWZ Liste um Eloperformance zu berechnen  - und frag mich nicht was an der DWZ Liste falsch ist. Die ELoformel ist so simpel das man Sie in den Taschenrechner tippen kann. (Auf Wunsch lasse ich dir gerne ein kleines Tool zukommen das das macht - ich brauche nur eine Email)

Gruß
Ingo

PS: Ich hoffe ICH habe mich nicht verrechnet.
Parent - - By Ingo B. Date 2014-03-24 22:01
Ich erstell obige Liste morgen Abend noch mal mit Elostat. Dann stimmen auch die Elozahlen.
Das wird aber nichts an der Performance obere gegen untere Hälfte ändern.

Gruß
Ingo
Parent - By Ingo B. Date 2014-03-25 06:44
Meine Eloschnitte hatte ich am Taschenrechner ausgerechnet. Bitte obige Rechnung vergessen. Die Eloformel stimmt zwar, aber bei den Eingangsdaten habe ich mich verrechnet.

Heute Abend nochmal - richtig!
Ingo
Parent - - By Werner Mueller Date 2014-03-24 21:33
Werner Mueller schrieb:

Korrektur wg. Tippfehler :

Die jeweiligen prozentualen Ergebnisse und die durchschnittlichen Gegnerschaft habe ich mit Exel berechnet, die sich ergebende Ratingzahl habe ich hier <a class='urs' href='http://www.schachbund.de/anhang-21.html'>http://www.schachbund.de/anhang-21.html</a> aus der Tabelle ausgelesen:

R(07) 65,09% 3003 +110 => 3113
(R(14) 73,42% 2916 +175 => 3091) die 73,42% waren falsch
R(14) 74,16% 2916 +181 => 3097

d.h. gegen die obere Hälfte des Feldes (mit einer Spreizung von 227 Punkten) errechnete sich ein Rating von 3113,
gegen das gesammte Feld (mit einer Spreizung von 319 Punkten) errechnet sich ein Rating von 3097.

Dieser Unterschied von nur noch 16 (statt 22) Punkten passt aber immer noch ganz gut.
Parent - - By Werner Mueller Date 2014-03-25 02:12
@ Ingo

Nun ist meine Differenz von
22 (Tippfehler) über
16 (Pi_mal_Daumen_Interpolation der DWZ-Tabelle, die aber im Prinzip schon stimmt) auf nur noch
12 (Gleichung Diff=RA-RB=400*log(EA/1-EA)) geschrumpft.

... bei diesem Wert muss ich mich geschlagen geben.

Was eigentlich jemand, wie man eine Excel-Tabelle hier einigermaßen lesbar hinbekommt?
Parent - By Ingo B. Date 2014-03-25 09:09
Werner Mueller schrieb:


22 (Tippfehler) über
16 (Pi_mal_Daumen_Interpolation der DWZ-Tabelle, die aber im Prinzip schon stimmt) auf nur noch
12 (Gleichung Diff=RA-RB=400*log(EA/1-EA)) geschrumpft.



Ich kann erst heute Abend nachrechnen, aber egal was rauskommt darf man nicht vergessen, dass bei 3080 eine Errorbar von ~10 ELo existiert, bei 1540 sind es auch noch mal so 13, 14 Elo.

Ich bin mal gespannt was ich heute Abend herrausbekomme, dann berechne ich aber die Eingangselo auch mit Elostat, damit die einfache Eloformel stimmt.
Deine 22 hätten mich doch sehr gewundert, insbesondere wil diese Engine sehr gleichmäßig gegen alle Gegner performt hat! Sie kann fast als Musterbsp für "Gegnerschaft egal" gelten! Finde ich persönlich viel ausgewogener als z.B. Houdini, auch wenn dessen Gesamtperformance natürlich besser war.

Gruß
Ingo
Parent - - By Ingo B. Date 2014-03-25 17:17
Hallo,

Jetzt noch einmal mit Elostat und hoffentlich richtig:

2 SFish 230314              : 3086  3080 (+1686,=1196,-198), 74.2 %

Houdini 4                     : 220 (+ 56,=117,- 47), 52.0 % 3097
Komodo TCECr                  : 220 (+ 65,=123,- 32), 57.5 % 3039
Gull 2.8                      : 220 (+ 76,=120,- 24), 61.8 % 3006
Critter 1.4a                  : 220 (+ 96,=107,- 17), 68.0 % 2967
Equinox 2.02                  : 220 (+114,= 85,- 21), 71.1 % 2963
Deep Rybka 4.1                : 220 (+ 99,=105,- 16), 68.9 % 2946
Chiron 2                      : 220 (+126,= 84,- 10), 76.4 % 2880
Hannibal 1.4b                 : 220 (+143,= 72,-  5), 81.4 % 2861
Senpai 1.0                    : 220 (+153,= 61,-  6), 83.4 % 2833
Protector 1.5.0               : 220 (+148,= 69,-  3), 83.0 % 2830
Naum 4.2                      : 220 (+142,= 73,-  5), 81.1 % 2828
HIARCS 14 WCSC 32b            : 220 (+148,= 68,-  4), 82.7 % 2816
Jonny 6.00                    : 220 (+164,= 53,-  3), 86.6 % 2802
Deep Shredder 12              : 220 (+156,= 59,-  5), 84.3 % 2800


Die oberen sieben haben einen Eloschnitt von 2957 Elo
Die unteren sieben haben einen Eloschnitt von 2824 Elo
Der Gesamtschnitt beträgt 2905 Elo


Die prozentualle Performance hatten wir schon gestern (ich hoffe die stimmt):

Eloperformance gegen die oberen 7  (65.1%) = 3065
Eloperformance gegen die unteren 7 (83.2%) = 3101
Eloperformance gegen alle 14            (74.2%) = 3088

Stockfish spielt gegen die schlechteren 7 Engines 36 Elo BESSER als gegen die besseren 7 und 13 Elo BESSER als gegen den Gegnerschnitt.
Stockfish spielt gegen die besseren 7 Engines 36 Elo SCHLECHTER als gegen schlechteren 7 und 23 Elo SCHLECHTER als gegen den Gegnerschnitt
(13+23=36, stimmt - deinen 12 kann ich nicht folgen. Nicht den 12, das kann Rundung sein, als das sie vielmehr verkehrt herum erscheinen)

Es bleibt also dabei, Stockfish spielt gegen die schlechteren Engines besser als gegen die besseren und wieder kein Hinweis das das Gegnerfeld zu breit gewesen wäre - wie auch bei ALLEN anderen Engines. Das ist ein Argument das bei menschlichen Spielern einleuchtet (weil die guten Angst haben gegen die schlechten zu verlieren) ist aber Mathematisch unhaltbar. Selbst "zu Null" Matchergebnisse zeigen nur, das die Anzahl der Partien noch nicht ausreicht - und man in einem solchen Fall mehr Spiele machen müßte (hatte ich noch nicht)!

Gruß
Ingo

PS: Die 2 Elo zw. Formel (3088) und Elostat (3086) sind Rundungsfehler - noch ein Grund warum das Auswerten runter bis extrem niedrige ELozahlen nichts bringt. Was nutzen Errorbars in denen der Rundungsfehler schon 50% groß sein kann?
Parent - - By Werner Mueller Date 2014-03-25 20:25
@ Ingo

Zunächst mal: das Thema ist für mich insofern durch, als sich meine Vermutung nicht bestätigt hat.

Der Unterschied in unseren Berechnungen der Stockfishschen Performance (gegen Gesamt, obere Hälfte, untere Hälfte) ist, dass ich die 'alten' Werte der Gegner nehme. Denn wenn z.B. Stockfish gegen die untere Hälfte schlecht performen würde, wäre dies nach der Gesamtverwurstung (die 'neuen' Werte der unteren Hälfte wären erhöht) weniger deutlich zu sehen.

Es ist ja ein alter Hut, dass man bei verschiedene Teilperformances die Gesamtperformance nicht einfach durch mitteln errechnen kann. Aber auch wenn man 'korrekt' die prozentuale Ausbeute bei gemittelter Gegnerstärke nimmt (geht grundsätzlich natürlich nur bei gleicher Partienzahl pro Gegner) und mit Hilfe von Diff=400*log(EA/1-EA) errechnet, kommt man argumentativ in Teufels Küche.
Eigentlich nicht erstaunlich, wenn man sich überlegt, was man damit eigentlich macht: fasst man derart mehrere Teilperformances zu einer Gesamtperformance zusammen, spielt es überhaupt keine Rolle mehr, gegen welchen Gegner (oder gegen welchen Gegner nicht) die Punkte erzielt wurden. Wenn da nicht mitunter Seltsames herauskäme, wäre es eher erstaunlich.

Schade, dass ich es nicht gebacken bekomme, hier eine Excel-Tabelle leserlich reinzubekommen.
Aber nur (kurz und gerundet) um Obiges zu belegen:

Gesamt:
Gegnerschnitt: 2916
%Punkte      : 74,16
Performance  : 2916 + 183 = 3099

Obere Hälfte:
Gegnerschnitt: 3003
%Punkte      : 65,1
Performance  : 3003 + 108 = 3111

Da kommen meine 12 Punkte her.

Aber nun kommts:

Untere Hälfte:
Gegnerschnitt: 2830
%Punkte      : 83,21
Performance  : 2830 + 278 = 3108

d.h. Performance obere Hälfte und untere Hälfte sind fast gleich, Gesamtperformance um 10 Punkte schlechter - jedenfalls (auch) nichts, was man mit dem allgemeinen Verständnis von 'Performance' vereinbaren könnte.
Parent - By Ingo B. Date 2014-03-25 21:20
Werner Mueller schrieb:

Der Unterschied in unseren Berechnungen der Stockfishschen Performance (gegen Gesamt, obere Hälfte, untere Hälfte) ist, dass ich die 'alten' Werte der Gegner nehme. Denn wenn z.B. Stockfish gegen die untere Hälfte schlecht performen würde, wäre dies nach der Gesamtverwurstung (die 'neuen' Werte der unteren Hälfte wären erhöht) weniger deutlich zu sehen.


Der zweite Teil ist korrekt und selbst der erste wäre richtig, nur leider sind die ELozahlen in einem laufenden Turnier statisch (was eigentlich nicht richtig ware) und mit Bayes errechnet, was wiederum abweicht von der Eloformel.

Werner Mueller schrieb:

Es ist ja ein alter Hut, dass man bei verschiedene Teilperformances die Gesamtperformance nicht einfach durch mitteln errechnen kann.


Hat ja auch niemand gemacht, wird aber wieder kommen, bin ich sicher

Werner Mueller schrieb:

Aber auch wenn man 'korrekt' die prozentuale Ausbeute bei gemittelter Gegnerstärke nimmt (geht grundsätzlich natürlich nur bei gleicher Partienzahl pro Gegner) und mit Hilfe von Diff=400*log(EA/1-EA) errechnet, kommt man argumentativ in Teufels Küche.
Eigentlich nicht erstaunlich, wenn man sich überlegt, was man damit eigentlich macht: fasst man derart mehrere Teilperformances zu einer Gesamtperformance zusammen, spielt es überhaupt keine Rolle mehr, gegen welchen Gegner (oder gegen welchen Gegner nicht) die Punkte erzielt wurden. Wenn da nicht mitunter Seltsames herauskäme, wäre es eher erstaunlich.


In der Praxis geht das aber wunderbar sofern die Gegnerschaft nur eine Varianz (im Sinne von Vielfälltig) besitzt die halbwegs repräsentativ ist. Siehe deine Berechnung ...

Werner Mueller schrieb:


Aber nur (kurz und gerundet) um Obiges zu belegen:
...


Wie gesagt, die ursprünglichen Elowerte dienen nur dem groben Vergleich um im laufenden Turnier zu sehen "wo es langgeht". Damit zu Rechnen ist unzulässig.

Aber hier mal die Elowerte VOR dem Turnier errechnet mit Elostat:

    Program                          Elo    +   -   Games   Score   Av.Op.  Draws

  1 Houdini 4                      : 3112   11  11  3300    76.4 %   2908   29.5 %
  3 Komodo TCECr                   : 3050   10   9  3300    68.9 %   2912   38.7 %
  4 Gull 2.8                       : 3016    9   9  3300    64.2 %   2914   40.9 %
  5 Critter 1.4a                   : 2977    9   9  3300    58.5 %   2917   46.5 %
  6 Equinox 2.02                   : 2973    9   9  3300    58.0 %   2917   46.8 %
  7 Deep Rybka 4.1                 : 2964    9   9  3300    56.6 %   2918   46.8 %
  9 Chiron 2                       : 2889    9   9  3300    45.1 %   2923   44.6 %
10 Hannibal 1.4b                  : 2871    9   9  3300    42.4 %   2924   42.5 %
11 Senpai 1.0                     : 2840    9   9  3300    37.8 %   2926   40.8 %
12 Naum 4.2                       : 2836    9   9  3300    37.2 %   2926   40.9 %
13 Protector 1.5.0                : 2833    9   9  3300    36.8 %   2927   42.4 %
14 HIARCS 14 WCSC 32b             : 2822    9   9  3300    35.3 %   2927   39.7 %
15 Jonny 6.00                     : 2804   10  10  3300    32.8 %   2929   36.5 %
16 Deep Shredder 12               : 2800   10  10  3300    32.3 %   2929   37.8 %


Deep Fritz und Stockfish DD habe ich einfach nur gelöscht aber - passt schon. Ansonsten sind das die ONE on ONE Werte und nicht die aus dem Gesamtturnier.

Jetzt hoffe ich das ich mich nicht wieder verrechne:

TOP7 Eloschnitt: 2997
LOW7 Eloschnitt: 2829
ALL14 Eloschnitt: 2913

So, damit kann man Rechnen:

Performance SF gegen:

TOP 7 = 65.1% bei 2997 = 3105 ELO
LOW7 = 83.2 bei 2829 = 3107 Elo
All14 = 74.2 bei 2913 = 3096

Ok, die Hälften sind wirklich ziemlich gleich (So gleich, dass das schon wieder zufällig ungewöhnlich ist. Normalerweise ist da schon ein Unterschied, aber eben keiner von Signifikanz sofern die zwei Hälften halbwegs repräsentativ sind - oder: Ist der Unterschied signifikant sind die Hälften nicht repräsentativ!)
Interessant auch, das bei dir wie bei mir die Performance gegen die obere und die untere Hälfte höher ist als gegen das Gesamtfeld. Das Ganze ist weniger als die Summer seiner Teile - nicht sehr intuitiv

Wir können hier rumrechnen so viel wir wollen, an diesem Bsp werden wir nicht ablesen, das eine Elospreizung eines Teilnehmerfeldes irgendwie relevant wäre.

Gruß
Ingo

PS: Sollte ich mich wieder im Eloschnitt verrechnet haben bin ich raus - weil völlig unfähig!
Parent - - By Tom Paul Date 2014-03-25 09:42
Das Stockfish gegen Stockfish getestet wird ist doch perfekt, weil Stockfish die stärkste Engine ist und das Konzept funktioniert doch.

Ich finde aber auch die Entwickler sollten sich die Partien von Komodo gegen Houdini anschauen und sich dazu die Zugvorschläge von Stockfish für Komodos Seite ansehen.
Da sieht man dann warum Komodo gewinnt und Stockfish nur Remis gespielt hätte. Dann weis man auch was bei Stockfish verbessert werden muss.
Oder Komodo gegen Stockfish. Im Endspiel hat Stockfish gegen Komodo seine großen Schwierigkeiten, weil Komodo zu positionell spielt und keine taktischen Fehler macht und sich somit nicht auseinanderrechnen lässt und Stockfish dieses Endspielwissen fehlt.

Ja im LS Test sollte die Teilnehmerzahl auf 15 erhöht werden.

Wenn ich schon so etwas sehe:
SFish 230314 - Deep Shredder 12 (2800)    185.5  -  34.5    84.32%    Perf=3092
Da weiß ich das die Vorgabestellungen schlecht gewählt sind und die schwächere Engine bevorteilt wird.
Shredder hätte bei mir Glück gehabt, wenn er 1 Punkt bekommen würde.
Parent - By ? Date 2014-03-25 16:15
Tom Paul schrieb:

...

Wenn ich schon so etwas sehe:
SFish 230314 - Deep Shredder 12 (2800)    185.5  -  34.5    84.32%    Perf=3092
Da weiß ich das die Vorgabestellungen schlecht gewählt sind und die schwächere Engine bevorteilt wird.
Shredder hätte bei mir Glück gehabt, wenn er 1 Punkt bekommen würde.


Herrlich.
Wenn sich Unwissenheit und Ignoranz paaren ist das tragisch, verbunden mit Überheblichkeit wird es komisch. Danke!



Ingo
Parent - By Stefan Pohl Date 2014-03-26 08:35
Tom Paul schrieb:


Ja im LS Test sollte die Teilnehmerzahl auf 15 erhöht werden.



Wie oft nun noch?
Das bringt keinen Unterschied. Wie oft muß ich mich hier eigentlich selbst zitieren???
Also noch ein allerletztes Mal:

(Zitatanfang)
"Ich habe aus meiner Top10 Datenbank die ersten 6 Engines entfernt, sodaß nur noch 5 Ippo-Derivate übrig blieben und das mal durch bayeselo laufen lassen. Vergleichen wir das mit dem kompletten Top10-Tournament.

Rank Name                    Elo    +    - games score oppo. draws
   1 Fire 3 x64s            3043    6    6  4000   53%  3025   62%
   2 Mars 1 avx             3037    6    6  4000   52%  3027   63%
   3 PanChess 00.537 x64    3035    6    6  4000   51%  3028   63%
   4 Bouquet 1.8 x64        3030    6    6  4000   50%  3029   60%
   5 Robbolito 0.085g3 x64  3000    5    5  4000   45%  3036   62%


Rank Name                    Elo    +    - games score oppo. draws
   1 Houdini 4 x64          3183    5    5 10000   67%  3060   43%
   2 Stockfish 131223 x64s  3129    5    5 10000   59%  3065   45%
   3 Komodo TCECr x64       3120    5    5 10000   57%  3066   45%
   4 Gull R600 x64          3075    5    4 10000   51%  3070   52%
   5 Critter 1.6a x64       3065    5    5 10000   49%  3071   55%
   6 Strelka 5.5 x64        3061    5    5 10000   49%  3072   55%
   7 Fire 3 x64s            3044    5    5 10000   46%  3074   55%
   8 Mars 1 avx             3038    5    5 10000   45%  3074   56%
   9 PanChess 00.537 x64    3034    5    5 10000   44%  3075   55%
  10 Bouquet 1.8 x64        3030    5    5 10000   44%  3075   53%
  11 Robbolito 0.085g3 x64  3000    5    5 10000   39%  3078   53%

Die Ergebnisse sind praktisch identisch. Drei der fünf Engines (Fire, Mars, PanChess) weichen jeweils um einen (!!!) Elopunkt ab. Eine Engine (Bouquet) ist komplett identisch und Robbo 0.085g3 ist ja der vorgegeben Fixpunkt. Und daß trotz der exorbitant gestiegenen Remisquote (weil die Ippos gerade gegeneinander extrem oft remisieren) und eines viel niedrigeren Elodurchschnitts der Gegner und der Tatsache, daß jede Engine nur noch gegen 4 Gegner gespielt hat.
Also genau das, was man bei einer großen Anzahl von Partien erwartet. Unabhängig von Gegnerzahl und Gegnertyp und Gegner-Verwandschaftsgrad, kommt unter dem Strich immer dasselbe raus. Innerhalb der Errorbar, versteht sich.

Hier das Ergebnis für den oberen Bereich, also ohne die ganzen Ippo-Derivate.

Rank Name                    Elo    +    - games score oppo. draws
   1 Houdini 4 x64          3174    6    7  4000   60%  3100   45%
   2 Stockfish 140106 x64s  3146    6    7  4000   56%  3107   47%
   3 Komodo TCECr x64       3117    7    6  4000   50%  3114   46%
   4 Gull R600 x64          3074    7    7  4000   43%  3125   50%
   5 Critter 1.6a x64       3064    7    7  4000   41%  3128   50%


Rank Name                    Elo    +    - games score oppo. draws
   1 Houdini 4 x64          3182    5    5 10000   67%  3061   43%
   2 Stockfish 140106 x64s  3144    5    5 10000   61%  3064   45%
   3 Komodo TCECr x64       3120    5    5 10000   57%  3067   45%
   4 Gull R600 x64          3075    5    5 10000   51%  3071   52%
   5 Critter 1.6a x64       3064    5    5 10000   49%  3072   55%
   6 Strelka 5.5 x64        3059    5    5 10000   48%  3073   55%
   7 Fire 3 x64s            3043    5    5 10000   46%  3075   55%
   8 Mars 1 avx             3037    5    5 10000   45%  3075   57%
   9 PanChess 00.537 x64    3034    5    5 10000   44%  3076   55%
  10 Bouquet 1.8 x64        3030    5    5 10000   44%  3076   53%
  11 Robbolito 0.085g3 x64  3000    5    5 10000   39%  3079   53%

Auch hier halten sich die Verschiebungen im Rahmen. Gull 1 Elo, Stockfish 2 Elo, Komodo 3 Elo. Nur bei Houdini sind es 8 Elo Abweichung. Was aber auch nicht wirklich viel ist und auch noch weit innerhalb der sich bei Vergleichen ja addierenden Errorbar beider Houdini-Zahlen von insgesamt 11 Elo liegt. Also alles OK.

Auch hier alles so, wie es zu erwarten war. Genügend Partien ergeben wieder das praktisch identische Ergebnis. Auch mit nur 4 Gegnern statt 10. Mit verwandschaftlich weiter entfernten Engines im Vergleich zur anderen Teilauswertung.
Spielt alles keine Rolle.
Nur genügend Partien müssen es sein. Und somit eine Errorbar, die klein genug ist, um reproduzierbare Ergebnisse zu ermöglichen..."
(Zitatende)

Stefan
Parent - - By Ingo B. Date 2014-03-24 20:03
29 Elo in a conventional list (Not the same opponents and no. of games!)
Very nice!

This would be the top of the IPON with this SF + 4pc SYZYG... bases:

Rank Name                        Elo    +    - games score oppo. draws
   1 Houdini 4                  3111    8    8  5750   78%  2884   28%
   2 SFish 230314               3090   10   10  3080   74%  2910   39%
   3 Houdini 3 STD              3078    8    8  6000   77%  2857   29%
   4 Stockfish DD               3061    8    8  5380   75%  2874   38%
   5 Komodo TCECr               3048    8    8  5450   72%  2879   36%
   6 Komodo 6                   3043    9    9  3750   74%  2860   34%
   7 Komodo CCT                 3036    9    9  3750   74%  2851   34%
   8 Komodo 5.1                 3024   10   10  2850   74%  2840   34%
   9 Houdini 2.0 STD            3024    8    8  5850   78%  2790   26%
  10 Stockfish 4                3019    8    8  4200   71%  2861   39%
  11 Houdini 1.5a               3017   10   10  4000   79%  2775   26%
  12 Gull 2.8                   3016    9    9  3740   64%  2915   41%
  13 Komodo 5                   2999    8    8  4650   72%  2830   35%
  14 Komodo 4                   2981    8    8  4850   75%  2780   30%
  15 Gull 2.2                   2980    7    7  5840   63%  2883   43%
  16 Stockfish 3                2979    9    9  3450   67%  2857   43%
  17 Critter 1.4a               2979    6    5 10950   66%  2854   40%
  18 Critter 1.6a               2974    9    9  3900   69%  2837   41%
  19 Komodo 3                   2972   11   11  2800   74%  2778   31%
  20 Equinox 2.02               2969    8    8  4180   58%  2914   46%
  21 Deep Rybka 4               2960    8    8  4900   74%  2769   33%
  22 Stockfish 2.3.1 JA         2959    9    9  3750   67%  2834   42%
  23 Stockfish 2.2.2 JA         2958    7    8  5850   72%  2789   36%
  24 Houdini 1.03a              2958   10   10  3200   79%  2727   30%
  25 Critter 1.2                2958   10   10  3100   72%  2786   37%
  26 Komodo 2.03 DC             2957   11   11  2700   74%  2769   30%
  27 Deep Rybka 4.1             2957    6    5 12180   63%  2853   42%
  28 Gull 2.1                   2947    9    9  3150   63%  2852   42%
  29 Stockfish 2.1.1 JA         2946    9    9  3500   69%  2794   36%
  30 Critter 1.01               2929   10   10  2800   70%  2772   36%
  31 Stockfish 2.01 JA          2928   10   10  3100   72%  2755   35%
  32 Gull II                    2927    8    8  4200   60%  2855   44%
  33 Robbo 0.085g3              2922    9    9  3150   60%  2849   43%
  34 Stockfish 1.9.1 JA         2908   10   10  3000   71%  2748   36%
  35 Critter 0.90               2902   10    9  3400   68%  2761   36%
  36 Rybka 3 mp                 2899    8    8  5300   67%  2770   32%
  37 Deep Fritz 14              2893    7    7  5460   50%  2890   43%
  38 Stockfish 1.7.1 JA         2892   10   10  2900   73%  2711   33%
  39 Chiron 2                   2885    8    8  5080   50%  2886   43%
  40 Hannibal 1.4b              2865    7    7  6130   45%  2898   43%
  41 Rybka 3 32b                2857   13   13  1700   70%  2706   35%
  42 Chiron 1.5                 2849    7    7  6150   45%  2884   42%
  43 Stockfish 1.6.x JA         2838   10   11  2600   69%  2697   37%
  44 Komodo 1.3 JA              2837    9    9  3300   59%  2768   37%
  45 Senpai 1.0                 2836    9    9  3740   38%  2926   40%
  46 Protector 1.5.0            2833    6    6  7480   41%  2901   42%
  47 Naum 4.2                   2830    5    5 15280   50%  2832   40%
  48 Chiron 1.1a                2830    7    7  5400   52%  2812   39%
  49 Hannibal 1.3               2828    8    8  4650   44%  2871   42%
  50 Critter 0.80               2824   10   10  2800   64%  2716   36%
  51 Deep Fritz 13 32b          2822    7    7  5400   44%  2865   39%
  52 Fritz 13 32b               2818    8    8  4300   54%  2789   40%
  53 HIARCS 14 WCSC 32b         2816    6    6  8830   40%  2890   38%
  54 Komodo 1.2 JA              2808    9    9  3700   59%  2742   40%
  55 Rybka 2.3.2a mp            2802    9    9  3500   62%  2715   40%
  56 Jonny 6.00                 2801    7    7  6430   37%  2900   36%
  57 Deep Shredder 12           2800    5    5 16230   47%  2825   38%
  ...


Bye
Ingo

PS: I will not run the test without the bases again as I doubt any difference outside my 10 Elo border of irrelevance
Parent - - By Patrick Götz Date 2014-03-24 21:05
Danke für den Test Ingo.

Ingo B. schrieb:

   2 SFish 230314               3090   10   10  3080   74%  2910   39%
   3 Houdini 3 STD              3078    8    8  6000   77%  2857   29%


Damit steht Stockfish nun auch in der IPON Liste vor Houdini 3.
Dazu dann noch 14:0 Siege in den direkten Duellen.
Das Framework hat Stockfish mit einer Geschwindigkeit wie es sie vorher noch nie gab so nach oben katapultiert wie es sich vor einem Jahr noch keiner vorstellen konnte.

Gruß
Patrick
Parent - - By Ingo B. Date 2014-03-25 06:43
[quote="Patrick Götz]

Damit steht Stockfish nun auch in der IPON Liste vor Houdini 3.
[/quote]

Nein, wie ich gleich im Eingangsposting schrieb, wird die Engine nicht in die IPON aufgenommen. Das war nur ein Test um zu sehen was los ist.

[quote="Patrick Götz]
Dazu dann noch 14:0 Siege in den direkten Duellen.
[/quote]

Würde ich nicht überbewerten. "Nur" 220 Spiele ... Das Gesamtergebniss zählt, sonst nichts. Beeindruckend ist es schon.

[quote="Patrick Götz]
Das Framework hat Stockfish mit einer Geschwindigkeit wie es sie vorher noch nie gab so nach oben katapultiert wie es sich vor einem Jahr noch keiner vorstellen konnte.
[/quote]

Hmm, wie kommst du darauf? 29 Elo in 2, 3, 4 Monaten habe ich in meiner "Betatesterlaufbahn" schon mehrmal erlebt (nicht nur bei einer Engine), eigentlich jedesmal wenn sich jemand auf den Hosenboden gesetzt hat und sich ausschließlich der Engine gewidmet hat und das komplett ohne ein "Framework". So ungewöhnlich finde ich das jetzt nicht. Der Unterschied ist nur das dank des Frameworks diese Leistung jetzt in "Teilzeit" möglich ist - die Arbeit machen und zahlen ja andere ...

Gruß
Ingo
Parent - - By sachista Date 2014-03-25 18:49
Ingo B. schrieb:

Patrick Götz schrieb:

Das Framework hat Stockfish mit einer Geschwindigkeit wie es sie vorher noch nie gab so nach oben katapultiert wie es sich vor einem Jahr noch keiner vorstellen konnte.


Hmm, wie kommst du darauf? 29 Elo in 2, 3, 4 Monaten habe ich in meiner "Betatesterlaufbahn" schon mehrmal erlebt (nicht nur bei einer Engine), eigentlich jedesmal wenn sich jemand auf den Hosenboden gesetzt hat und sich ausschließlich der Engine gewidmet hat und das komplett ohne ein "Framework". So ungewöhnlich finde ich das jetzt nicht. Der Unterschied ist nur das dank des Frameworks diese Leistung jetzt in "Teilzeit" möglich ist - die Arbeit machen und zahlen ja andere ...

Gruß
Ingo


Das Framework läuft schon länger als nur 2, 3, 4 Monate, nämlich ungefähr ein Jahr mittlerweile und je nachdem was man dann als Bezugspunkt nimmt (wurde hier schon mal besprochen), ergibt sich dann z.B. seit SF3 eine Verbesserung von 120 ELO (IPON) bzw. 151 (LS). Gut, jetzt kann man natürlich einwenden, dass das auch nichts Besonderes sei - schließlich hat Vas von Rybka 1.6.1 (April 2004) zu Rybka 1.01 beta (Ende 2005) eine Verbesserung von ca. 850-900 ELO in 18 Monaten geschafft, aber ~120-150 ELO Verbesserung bei Stockfish in nur einem Jahr haben sich im Frühjahr 2013 wohl trotzdem nur die wenigsten erhofft.
Parent - By ? Date 2014-03-25 20:23
sachista schrieb:

Ingo B. schrieb:

Patrick Götz schrieb:

Das Framework hat Stockfish mit einer Geschwindigkeit wie es sie vorher noch nie gab so nach oben katapultiert wie es sich vor einem Jahr noch keiner vorstellen konnte.


Hmm, wie kommst du darauf? 29 Elo in 2, 3, 4 Monaten habe ich in meiner "Betatesterlaufbahn" schon mehrmal erlebt (nicht nur bei einer Engine), eigentlich jedesmal wenn sich jemand auf den Hosenboden gesetzt hat und sich ausschließlich der Engine gewidmet hat und das komplett ohne ein "Framework". So ungewöhnlich finde ich das jetzt nicht. Der Unterschied ist nur das dank des Frameworks diese Leistung jetzt in "Teilzeit" möglich ist - die Arbeit machen und zahlen ja andere ...

Gruß
Ingo


Das Framework läuft schon länger als nur 2, 3, 4 Monate, nämlich ungefähr ein Jahr mittlerweile und je nachdem was man dann als Bezugspunkt nimmt (wurde [url]hier[/url] schon mal besprochen), ergibt sich dann z.B. seit SF3 eine Verbesserung von 120 ELO (IPON) bzw. 151 (LS). Gut, jetzt kann man natürlich einwenden, dass das auch nichts Besonderes sei - schließlich hat Vas von Rybka 1.6.1 (April 2004) zu Rybka 1.01 beta (Ende 2005) eine Verbesserung von ca. 850-900 ELO in 18 Monaten geschafft, aber ~120-150 ELO Verbesserung bei Stockfish in nur einem Jahr haben sich im Frühjahr 2013 wohl trotzdem nur die wenigsten erhofft.


Alles ist relativ.

Meine 29 bezogen sich natürlich auf die Zeit seit dem DD Release!

Ansonsten ist eine Verbesserung einer nicht (allzu) optimierten Engine durch viele Rechner zu Anfang natürlich einfacher als später.
Das soll nicht den Erfolg schmälern, den kann ich ja nicht leugnen, sondern nur die Perspektive gerade rücken. Tolles Comunity-Projekt, zweifelsohne, aber warten wir mal ab was passiert wenn Stockfish ein paar Wochen/Monate auf der Stelle tritt oder nicht mehr als Nr. 1 Konkurent dasteht oder die Führungscrew weg ist. Ich bin sicher eines davon - oder nach und nach alles - wird passieren.

Ich erinnere mich zu gerne an einen Artikel (ich glaube die Print CSS war es) in der ein neuer Shredder, der weit besser als alles andere war, gelobt wurde mit dem sinngemäßen Satz: "Wer soll diese Engine in den nächsten Jahren schlagen". Kurz darauf kam Rybka. Seit dem bin ich immer skeptisch mit dem Loben, früher oder später kommt die Zeit ...

Und als letztes fehlt mir vielleicht ein bischen Begeisterung weil ich sicher bin das irgendwann einer anderen Engine hinterhergelaufen wird. Das Prozedere ist immer das gleiche, die Namen ändern sich - habe ich schon mehrmals erlebt in den letzten Jahren. Alles ist relativ.

Gruß
Ingo
Up Topic Hauptforen / CSS-Forum / Little Stockfish 230314 test

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill